NLP - Desambiguación de sentido de palabras

Entendemos que las palabras tienen diferentes significados según el contexto de su uso en la oración. Si hablamos de lenguajes humanos, también son ambiguos porque muchas palabras se pueden interpretar de múltiples formas dependiendo del contexto en el que ocurren.

La desambiguación del sentido de las palabras, en el procesamiento del lenguaje natural (PNL), puede definirse como la capacidad de determinar qué significado de una palabra se activa mediante el uso de una palabra en un contexto particular. La ambigüedad léxica, sintáctica o semántica, es uno de los primeros problemas que enfrenta cualquier sistema de PNL. Los etiquetadores de parte del discurso (POS) con un alto nivel de precisión pueden resolver la ambigüedad sintáctica de Word. Por otro lado, el problema de resolver la ambigüedad semántica se llama WSD (desambiguación del sentido de la palabra). Resolver la ambigüedad semántica es más difícil que resolver la ambigüedad sintáctica.

Por ejemplo, considere los dos ejemplos del sentido distinto que existen para la palabra “bass” -

  • Puedo escuchar el sonido de los graves.

  • Le gusta comer lubina a la parrilla.

La ocurrencia de la palabra bassdenota claramente el significado distinto. En la primera oración, significafrequency y en segundo lugar, significa fish. Por lo tanto, si WSD lo desambigua, entonces el significado correcto de las oraciones anteriores se puede asignar de la siguiente manera:

  • Puedo escuchar el sonido de graves / frecuencias.

  • Le gusta comer lubina / pescado a la parrilla.

Evaluación de WSD

La evaluación de WSD requiere las siguientes dos entradas:

Un diccionario

La primera entrada para la evaluación de WSD es el diccionario, que se utiliza para especificar los sentidos que se eliminarán de la ambigüedad.

Test Corpus

Otra entrada requerida por WSD es el corpus de prueba con anotaciones altas que tiene el objetivo o los sentidos correctos. Los corpus de prueba pueden ser de dos tipos: & minsu;

  • Lexical sample - Este tipo de corpus se utiliza en el sistema, donde se requiere desambiguar una pequeña muestra de palabras.

  • All-words - Este tipo de corpus se utiliza en el sistema, donde se espera eliminar la ambigüedad de todas las palabras en un fragmento de texto continuo.

Enfoques y métodos para la desambiguación del sentido de palabras (WSD)

Los enfoques y métodos de WSD se clasifican según la fuente de conocimiento utilizada en la desambiguación de palabras.

Veamos ahora los cuatro métodos convencionales para WSD:

Métodos basados ​​en diccionarios o conocimientos

Como sugiere el nombre, para la desambiguación, estos métodos se basan principalmente en diccionarios, tesoros y una base de conocimiento léxico. No utilizan evidencias de corpus para la desambiguación. El método Lesk es el método seminal basado en el diccionario introducido por Michael Lesk en 1986. La definición de Lesk, en la que se basa el algoritmo de Lesk, es“measure overlap between sense definitions for all words in context”. Sin embargo, en 2000, Kilgarriff y Rosensweig dieron la definición simplificada de Lesk como“measure overlap between sense definitions of word and current context”, lo que además significa identificar el sentido correcto de una palabra a la vez. Aquí, el contexto actual es el conjunto de palabras en la oración o párrafo circundante.

Métodos supervisados

Para la desambiguación, los métodos de aprendizaje automático utilizan corpus con anotaciones de sentido para entrenar. Estos métodos asumen que el contexto puede proporcionar suficiente evidencia por sí solo para eliminar la ambigüedad del sentido. En estos métodos, las palabras conocimiento y razonamiento se consideran innecesarias. El contexto se representa como un conjunto de "características" de las palabras. También incluye la información sobre las palabras circundantes. La máquina de vectores de soporte y el aprendizaje basado en la memoria son los enfoques de aprendizaje supervisado más exitosos para WSD. Estos métodos se basan en una cantidad sustancial de corpus etiquetados manualmente por detección, que es muy costoso de crear.

Métodos semi-supervisados

Debido a la falta de un corpus de entrenamiento, la mayoría de los algoritmos de desambiguación del sentido de las palabras usan métodos de aprendizaje semi-supervisados. Esto se debe a que los métodos semi-supervisados ​​utilizan tanto datos etiquetados como no etiquetados. Estos métodos requieren una cantidad muy pequeña de texto anotado y una gran cantidad de texto simple sin anotar. La técnica que se utiliza con los métodos semisupervisados ​​es el arranque a partir de datos semilla.

Métodos no supervisados

Estos métodos asumen que sentidos similares ocurren en un contexto similar. Es por eso que los sentidos pueden ser inducidos a partir del texto agrupando las ocurrencias de palabras usando alguna medida de similitud del contexto. Esta tarea se llama discriminación o inducción del sentido de las palabras. Los métodos no supervisados ​​tienen un gran potencial para superar el cuello de botella en la adquisición de conocimientos debido a la no dependencia de los esfuerzos manuales.

Aplicaciones de la desambiguación del sentido de palabras (WSD)

La desambiguación del sentido de las palabras (WSD) se aplica en casi todas las aplicaciones de la tecnología del lenguaje.

Veamos ahora el alcance de WSD:

Máquina traductora

La traducción automática o MT es la aplicación más obvia de WSD. En MT, WSD realiza la elección léxica de las palabras que tienen distintas traducciones para diferentes sentidos. Los sentidos en MT se representan como palabras en el idioma de destino. La mayoría de los sistemas de traducción automática no utilizan un módulo WSD explícito.

Recuperación de información (IR)

La recuperación de información (IR) puede definirse como un programa de software que se ocupa de la organización, el almacenamiento, la recuperación y la evaluación de información de los repositorios de documentos, en particular la información textual. El sistema básicamente ayuda a los usuarios a encontrar la información que necesitan, pero no devuelve explícitamente las respuestas a las preguntas. WSD se utiliza para resolver las ambigüedades de las consultas proporcionadas al sistema de infrarrojos. Al igual que MT, los sistemas IR actuales no utilizan explícitamente el módulo WSD y se basan en el concepto de que el usuario escribiría suficiente contexto en la consulta para recuperar únicamente los documentos relevantes.

Minería de texto y extracción de información (IE)

En la mayoría de las aplicaciones, WSD es necesario para realizar un análisis preciso del texto. Por ejemplo, WSD ayuda al sistema de recopilación inteligente a marcar las palabras correctas. Por ejemplo, el sistema médico inteligente podría necesitar marcar "drogas ilegales" en lugar de "drogas médicas".

Lexicografía

WSD y lexicografía pueden trabajar juntas en bucle porque la lexicografía moderna está basada en corpus. Con la lexicografía, WSD proporciona agrupaciones de sentido empírico aproximado, así como indicadores contextuales de sentido estadísticamente significativos.

Dificultades en la desambiguación del sentido de la palabra (WSD)

Las siguientes son algunas de las dificultades que enfrenta la desambiguación del sentido de las palabras (WSD):

Diferencias entre diccionarios

El principal problema de WSD es decidir el sentido de la palabra porque diferentes sentidos pueden estar muy estrechamente relacionados. Incluso diferentes diccionarios y tesauros pueden proporcionar diferentes divisiones de palabras en sentidos.

Diferentes algoritmos para diferentes aplicaciones.

Otro problema de WSD es que podría ser necesario un algoritmo completamente diferente para diferentes aplicaciones. Por ejemplo, en la traducción automática, toma la forma de selección de palabras de destino; y en la recuperación de información, no se requiere un inventario de sentidos.

Varianza entre jueces

Otro problema del WSD es que los sistemas WSD generalmente se prueban comparando los resultados de una tarea con la tarea de los seres humanos. A esto se le llama el problema de la variación entre jueces.

Discreción del sentido de las palabras

Otra dificultad en WSD es que las palabras no se pueden dividir fácilmente en sub-significados discretos.