AI: procesamiento del lenguaje natural

El procesamiento del lenguaje natural (PNL) se refiere al método de inteligencia artificial para comunicarse con sistemas inteligentes utilizando un lenguaje natural como el inglés.

El procesamiento del lenguaje natural es necesario cuando desea que un sistema inteligente como un robot funcione según sus instrucciones, cuando desea escuchar la decisión de un sistema clínico experto basado en el diálogo, etc.

El campo de la PNL implica la fabricación de computadoras para realizar tareas útiles con los lenguajes naturales que usan los humanos. La entrada y salida de un sistema de PNL pueden ser:

  • Speech
  • Texto escrito

Componentes de la PNL

Hay dos componentes de PNL como se indica:

Comprensión del lenguaje natural (NLU)

La comprensión implica las siguientes tareas:

  • Mapeo de la entrada dada en lenguaje natural en representaciones útiles.
  • Analizar diferentes aspectos del idioma.

Generación de lenguaje natural (NLG)

Es el proceso de producir frases y oraciones significativas en forma de lenguaje natural a partir de alguna representación interna.

Implica -

  • Text planning - Incluye recuperar el contenido relevante de la base de conocimientos.

  • Sentence planning - Incluye elegir las palabras requeridas, formar frases significativas, establecer el tono de la oración.

  • Text Realization - Está mapeando el plan de la oración en la estructura de la oración.

La NLU es más dura que la NLG.

Dificultades en NLU

NL tiene una forma y una estructura extremadamente ricas.

Es muy ambiguo. Puede haber diferentes niveles de ambigüedad:

  • Lexical ambiguity - Está en un nivel muy primitivo, como el nivel de palabra.

  • Por ejemplo, ¿tratar la palabra "tablero" como sustantivo o verbo?

  • Syntax Level ambiguity - Una oración se puede analizar de diferentes formas.

  • Por ejemplo, "Levantó el escarabajo con gorra roja". - ¿Usó gorra para levantar el escarabajo o levantó un escarabajo que tenía gorra roja?

  • Referential ambiguity- Hacer referencia a algo mediante pronombres. Por ejemplo, Rima fue a Gauri. Ella dijo: "Estoy cansada". - ¿Exactamente quién está cansado?

  • Una entrada puede significar diferentes significados.

  • Muchas entradas pueden significar lo mismo.

Terminología de PNL

  • Phonology - Es el estudio de la organización del sonido de forma sistemática.

  • Morphology - Es un estudio de construcción de palabras a partir de unidades significativas primitivas.

  • Morpheme - Es la unidad primitiva de significado en una lengua.

  • Syntax- Se refiere a ordenar palabras para formar una oración. También implica determinar el papel estructural de las palabras en la oración y en las frases.

  • Semantics - Se preocupa por el significado de las palabras y cómo combinar palabras en frases y oraciones significativas.

  • Pragmatics - Se trata del uso y comprensión de frases en diferentes situaciones y cómo se ve afectada la interpretación de la frase.

  • Discourse - Se trata de cómo la oración inmediatamente anterior puede afectar la interpretación de la oración siguiente.

  • World Knowledge - Incluye el conocimiento general del mundo.

Pasos en PNL

Hay cinco pasos generales:

  • Lexical Analysis- Implica identificar y analizar la estructura de las palabras. Léxico de un idioma significa la colección de palabras y frases en un idioma. El análisis léxico consiste en dividir todo el texto en párrafos, oraciones y palabras.

  • Syntactic Analysis (Parsing)- Implica el análisis de palabras en la oración para la gramática y la ordenación de palabras de una manera que muestra la relación entre las palabras. El analizador sintáctico inglés rechaza una oración como "La escuela va al niño".

  • Semantic Analysis- Extrae el significado exacto o el significado del diccionario del texto. Se verifica la significación del texto. Se realiza mapeando estructuras sintácticas y objetos en el dominio de tareas. El analizador semántico no tiene en cuenta frases como "helado caliente".

  • Discourse Integration- El significado de cualquier oración depende del significado de la oración inmediatamente anterior. Además, también aporta el significado de la oración inmediatamente posterior.

  • Pragmatic Analysis- Durante esto, lo que se dijo se reinterpreta sobre lo que realmente significaba. Implica derivar aquellos aspectos del lenguaje que requieren conocimiento del mundo real.

Aspectos de implementación del análisis sintáctico

Hay una serie de algoritmos que los investigadores han desarrollado para el análisis sintáctico, pero solo consideramos los siguientes métodos simples:

  • Gramática libre de contexto
  • Analizador de arriba hacia abajo

Veámoslos en detalle -

Gramática libre de contexto

Es la gramática que consta de reglas con un solo símbolo en el lado izquierdo de las reglas de reescritura. Creemos gramática para analizar una oración:

"El pájaro picotea los granos"

Articles (DET)- a | un | la

Nouns- pájaro | pájaros | grano | granos

Noun Phrase (NP)- Artículo + Sustantivo | Artículo + Adjetivo + Sustantivo

= DET N | DET ADJ N

Verbs- picotazos | picoteando | picoteado

Verb Phrase (VP)- NP V | V NP

Adjectives (ADJ)- hermosa | pequeño | piar

El árbol de análisis descompone la oración en partes estructuradas para que la computadora pueda comprenderla y procesarla fácilmente. Para que el algoritmo de análisis pueda construir este árbol de análisis, se necesita construir un conjunto de reglas de reescritura, que describen qué estructuras de árbol son legales.

Estas reglas dicen que un determinado símbolo puede expandirse en el árbol mediante una secuencia de otros símbolos. De acuerdo con la regla lógica de primer orden, si hay dos cadenas Frase sustantiva (NP) y Frase verbal (VP), entonces la cadena combinada por NP seguida de VP es una oración. Las reglas de reescritura de la oración son las siguientes:

S → NP VP

NP → DET N | DET ADJ N

VP → V NP

Lexocon −

DET → a | la

ADJ → hermoso | posarse

N → pájaro | pájaros | grano | granos

V → picotear | picotazos | picoteo

El árbol de análisis se puede crear como se muestra:

Ahora considere las reglas de reescritura anteriores. Dado que V puede ser reemplazado por ambos, "picotear" o "picotear", frases como "El pájaro picotea los granos" pueden ser incorrectamente permitidas. es decir, el error de concordancia entre sujeto y verbo se aprueba como correcto.

Merit - El estilo gramatical más simple y, por tanto, muy utilizado.

Demerits −

  • No son muy precisos. Por ejemplo, “Los granos picotean al pájaro”, es sintácticamente correcto según el analizador, pero incluso si no tiene sentido, el analizador lo toma como una oración correcta.

  • Para lograr una alta precisión, es necesario preparar varios conjuntos de gramática. Puede requerir un conjunto de reglas completamente diferente para analizar variaciones singulares y plurales, oraciones pasivas, etc., lo que puede llevar a la creación de un enorme conjunto de reglas que son inmanejables.

Analizador de arriba hacia abajo

Aquí, el analizador comienza con el símbolo S e intenta reescribirlo en una secuencia de símbolos terminales que coinciden con las clases de palabras en la oración de entrada hasta que se compone completamente de símbolos terminales.

Luego, se verifican con la oración de entrada para ver si coincide. De lo contrario, el proceso se inicia de nuevo con un conjunto de reglas diferente. Esto se repite hasta que se encuentra una regla específica que describe la estructura de la oración.

Merit - Es simple de implementar.

Demerits −

  • Es ineficaz, ya que el proceso de búsqueda debe repetirse si se produce un error.
  • Velocidad de trabajo lenta.