traduccion tag significa sigla que play para ingles game español aleman algorithm tags semantics

algorithm - tag - ¿Hay algún algoritmo que extraiga etiquetas significativas de texto en inglés?



tag traduccion aleman (7)

Me gustaría extraer una colección reducida de etiquetas "significativas" (10 max) de un texto en inglés de cualquier tamaño.

http://tagcrowd.com/ es bastante interesante, pero el algoritmo parece muy básico (solo conteo de palabras)

¿Hay algún otro algoritmo existente para hacer esto?


Básicamente, este es un problema de categorización de texto / clasificación de documentos. Si tiene acceso a una cantidad de documentos ya etiquetados, podría analizar qué palabras (de contenido) activan qué etiquetas, y luego usar esta información para etiquetar documentos nuevos.

Si no desea utilizar un enfoque de aprendizaje automático y todavía tiene una colección de documentos, puede usar métricas como tf.idf para filtrar palabras interesantes.

Yendo un paso más allá, puede usar Wordnet para buscar sinónimos y reemplazar palabras por su sinónimo, si la frecuencia del sinónimo es mayor.

Manning & Schütze contiene mucha más introducción sobre la categorización de texto.


Cuando restas el elemento humano (etiquetado), todo lo que queda es frecuencia. "Ignorar palabras comunes en inglés" es el siguiente mejor filtro, ya que trata de la exclusión en lugar de la inclusión. Probé algunos sitios, y es muy preciso. Realmente no hay otra manera de derivar "significado", por lo que la Web Semántica recibe tanta atención en estos días. Es una forma de implicar significado con HTML ... por supuesto, eso también tiene un elemento humano.


En la clasificación de texto, este problema se conoce como reducción de dimensionalidad. Hay muchos algoritmos útiles en la literatura sobre este tema.


Tal vez "Frecuencia de término - Frecuencia inversa del documento" TF-IDF sería útil ...


Desea hacer el análisis semántico de un texto.

El análisis de frecuencia de palabras es una de las formas más fáciles de hacer el análisis semántico. Desafortunadamente (y obviamente) es el menos preciso. Se puede mejorar mediante el uso de diccionarios especiales (como para sinonimos o formas de una palabra), "listas de detención" con palabras comunes, otros textos (para encontrar esas palabras "comunes" y excluirlas) ...

En cuanto a otros algoritmos , podrían basarse en:

  • Análisis de sintaxis (como tratar de encontrar el sujeto principal y / o el verbo en una oración)
  • Análisis de formato (análisis de encabezados, texto en negrita, cursiva ... cuando corresponda)
  • Análisis de referencia (si el texto está en Internet, por ejemplo, una referencia puede describirlo en varias palabras ... utilizado por algunos motores de búsqueda)

PERO ... debe comprender que estos algoritmos son meras heurísticas para el análisis semántico, no los algoritmos estrictos para lograr el objetivo. El problema del análisis semántico es uno de los principales problemas en los estudios de Inteligencia Artificial / Aprendizaje Automático desde que aparecieron las primeras computadoras.



Puedes usar esto en dos pasos:

1 - Pruebe algoritmos de modelado de tema:

  • Asignación latente de Dirichlet
  • Embotadings de palabras latentes

2 - Después de eso, puede seleccionar la palabra más representativa de cada tema como una etiqueta