nlp information-extraction acronym

nlp - cómo detectar automáticamente el significado de la sigla/extensión



information-extraction acronym (2)

¿Cómo se puede detectar / descubrir el significado (la extensión) de un acrónimo usando métodos NLP / extracción de información (IE)?

Queremos detectar en texto libre si se usa una palabra o su acrónimo y asignarlo a la misma entidad / token.

La mayoría de los documentos disponibles en línea son sobre acrónimos médicos y no proporcionan una biblioteca para realizar esta tarea.

¿Algunas ideas?


Leyendo su pregunta y los comentarios, entiendo que desea crear un mapeo desde un acrónimo hasta su extensión.

Suponiendo que tiene una colección de documentos textuales donde se producen tanto el acrónimo como su expansión, puede aplicar un algoritmo para extraer (acrónimo, extensión) pares.

Un algoritmo simple para identificar definiciones de abreviatura en texto biomédico por AS Schwartz y MA Hearst, hace exactamente esto al observar patrones. La implementación de Java está disponible aquí .

Apliqué este algoritmo a la Wikipedia en inglés, puedes ver los resultados aquí . También lo apliqué a una colección de nuevos artículos en portugués, los resultados están aquí .