algorithm - poner - Métodos para geoetiquetar o geoetiquetar contenido de texto
que es geotagging en un celular (2)
¿Cuáles son algunos buenos algoritmos para etiquetar texto automáticamente con la ciudad / región o el origen? Es decir, si un blog es sobre Nueva York, ¿cómo puedo decirlo programáticamente? ¿Hay paquetes / documentos que afirman hacer esto con algún grado de certeza?
He analizado algunos enfoques basados en el tfidf, intersecciones de nombres propios, pero hasta ahora, no hay éxitos espectaculares, ¡y apreciaría las ideas!
La pregunta más general es sobre la asignación de textos a temas, dada alguna lista de temas.
Enfoques simples / ingenuos preferidos a completos en enfoques Bayesianos, pero estoy abierto.
Está buscando un sistema de reconocimiento de entidad con nombre o NER corto. Hay varios buenos kits de herramientas disponibles para ayudarte. LingPipe en particular tiene un tutorial muy decente . CAGEclass parece estar orientado en torno a NER en topónimos geográficos, pero aún no lo he usado.
Aquí hay una buena entrada de blog sobre las dificultades de NER con nombres de lugares geográficos.
Si vas con Java, te recomendaría usar las clases de NER LingPipe. OpenNLP también tiene algunos, pero el primero tiene una mejor documentación.
Si estás buscando antecedentes teóricos, Chavez et al. (2005) han construido un syntem interesante y lo han documentado.
La asignación semántica latente parece potencialmente una buena opción. Eso es tan ingenuo de un algoritmo como es probable que encuentres.