nlp geography

nlp - Identificar ubicaciones geográficas en el texto



geography (4)

¿Qué tipo de trabajo se ha realizado para determinar si una cadena específica pertenece a una ubicación geográfica? Por ejemplo:

''troy, ny'' ''austin, texas'' ''hotels in las vegas, nv''

Supongo que lo que estoy esperando es un enfoque estadístico que da un grado de confianza de que los dos primeros son ubicaciones. El último probablemente requiera una heurística que capture "% s,% s" y luego use la misma técnica. Estoy buscando específicamente enfoques que no se basen demasiado en la proposición ''en'', ya que no es un indicador de ubicación completamente inequívoco o consistentemente disponible.

¿Alguien puede indicarme enfoques, documentos o utilidades existentes? ¡Gracias!


El problema que describes a menudo se denomina análisis de consultas geográficas o, más en general, recuperación de información geográfica.

Hubo una tarea reciente al respecto en CLEF 2007 ( http://www.uni-hildesheim.de/geoclef/2007/Query-Parsing.htm ). El equipo ganador usó una gramática basada en reglas, que es similar a lo que probablemente no quieras. Otro documento en www2009 habla sobre GeoParser: http://www2009.eprints.org/239/ .

También hay algunos documentos sobre Recuperación de Información Geográfica en CIKM 2007: http://www.geo.unizh.ch/~rsp/gir07/accepted.html

No conozco ningún software de código abierto que haga esto, pero puede incluirse en un motor de búsqueda como Lemur.



Hay un enfoque muy interesante adoptado por Everyblock.com que se centra en cómo se expresan las ubicaciones en inglés: básicamente utilizan algunas expresiones regulares sofisticadas y extensas que ahora son de código abierto. Su aplicación está diseñada para escanear artículos de noticias, reseñas y diversos feeds de datos públicos y relacionarlos con ubicaciones específicas, y funciona bien. Expresiones como "Un incendio en el edificio en la esquina noreste de la calle 20 y la calle Valencia en San Francisco" están geocodificadas con mucha precisión. Puedes estudiar la fuente aquí . La parte en particular que probablemente desee es ebpub/ebpub/geocoder/base.py , que se encuentra en la descarga de ebpub , y todo lo que le rodea, por ejemplo, comenzando con la clase SmartGeocoder y trabajando hacia atrás.


Estoy construyendo un geoparser gratuito en geocode.xyz

(Actualmente admite alrededor de 50 países europeos, que pronto ofrecerán cobertura global)

Se puede encontrar una aplicación de muestra de geoparsing en OpenWikiMap