nlp - cómo detectar automáticamente el significado de la sigla/extensión
information-extraction acronym (2)
¿Cómo se puede detectar / descubrir el significado (la extensión) de un acrónimo usando métodos NLP / extracción de información (IE)?
Queremos detectar en texto libre si se usa una palabra o su acrónimo y asignarlo a la misma entidad / token.
La mayoría de los documentos disponibles en línea son sobre acrónimos médicos y no proporcionan una biblioteca para realizar esta tarea.
¿Algunas ideas?
Leyendo su pregunta y los comentarios, entiendo que desea crear un mapeo desde un acrónimo hasta su extensión.
Suponiendo que tiene una colección de documentos textuales donde se producen tanto el acrónimo como su expansión, puede aplicar un algoritmo para extraer (acrónimo, extensión) pares.
Un algoritmo simple para identificar definiciones de abreviatura en texto biomédico por AS Schwartz y MA Hearst, hace exactamente esto al observar patrones. La implementación de Java está disponible aquí .
Apliqué este algoritmo a la Wikipedia en inglés, puedes ver los resultados aquí . También lo apliqué a una colección de nuevos artículos en portugués, los resultados están aquí .
Wordnet contiene un acrónimo de toneladas de palabras que puede usar en una variedad de lenguajes de programación: http://wordnet.princeton.edu/wordnet/
O consigue de Freebase. Mira esto: ¿Cuál es una forma de encontrar nombres relacionados usando la web?