nlp - ejemplos - ¿Cuál es la diferencia entre el etiquetado de punto de venta y el análisis superficial?

meta tags generator (5)

El etiquetado POS es un proceso que decide cuál es el tipo de cada token de un texto, por ejemplo, SUSTANTIVO, VERBO, DETERMINADOR, etc. El token puede ser palabra o puntuación.
Mientras tanto, el análisis superficial o fragmentación es un proceso que divide un texto en un grupo relacionado sintácticamente.

Salida de etiquetado Pos

Mi / PRP $ perro / NN me gusta / VBZ his / PRP $ comida / NN ./.

Salida de fragmentación

[NP My Dog] [VP le gusta] [NP su comida]

Actualmente estoy tomando un curso de procesamiento de lenguaje natural en mi universidad y todavía estoy confundido con algún concepto básico. Obtengo la definición de etiquetado de puntos de venta del libro Fundamentos del procesamiento de lenguaje natural estadístico :

El etiquetado es la tarea de etiquetar (o etiquetar) cada palabra en una oración con su parte apropiada del habla. Decidimos si cada palabra es un sustantivo, un verbo, un adjetivo o lo que sea.

Pero no puedo encontrar una definición de análisis superficial en el libro, ya que también describe el análisis superficial como una de las utilidades del etiquetado de punto de venta. Así que comencé a buscar en la web y no encontré una explicación directa del análisis superficial, pero en Wikipedia :

El análisis superficial (también fragmentación, "análisis claro") es un análisis de una oración que identifica los componentes (grupos de nombres, verbos, grupos de verbos, etc.), pero no especifica su estructura interna, ni su papel en la oración principal.

Francamente, no veo la diferencia, pero puede ser por mi inglés o simplemente porque no entiendo el concepto básico simple. ¿Puede alguien explicar la diferencia entre el análisis superficial y el etiquetado POS? ¿El análisis superficial suele llamarse Análisis semántico superficial?

Gracias antes.

En POS_tagger , etiquetamos palabras usando un "conjunto de etiquetas" como {noun, verb, adj, adv, prob ...} mientras que el analizador superficial trata de definir subcomponentes como Name Entity y frases en la oración como "I''m currently (tomando un curso de Natural (Language Processing) en (mi Universidad)) y (aún confundido con algún concepto básico) ".

D. Jurafsky y JH Martin dicen en su libro , que el análisis superficial (parse parcial) es un análisis sintáctico que no extrae toda la información posible de la oración, sino que simplemente extrae información valiosa en el caso específico.

Chunking es solo uno de los enfoques para el análisis superficial. Como se mencionó, extrae solo información sobre frases básicas no recursivas (por ejemplo, frases verbales o frases nominales).

Otros enfoques, por ejemplo, producen árboles de análisis parciales. Estos árboles pueden contener información sobre etiquetas de voz parcial, pero difieren las decisiones que pueden requerir factores semánticos o contextuales, como los archivos adjuntos PP, las ambigüedades de coordinación y los análisis compuestos nominales.

Por lo tanto, el análisis sintáctico superficial es el análisis sintáctico que produce un árbol de análisis parcial. Chunking es un ejemplo de dicho análisis sintáctico.

El etiquetado POS le daría una etiqueta POS a cada palabra en la oración de entrada.

Analizar la oración (usando stanford pcfg por ejemplo) convertiría la oración en un árbol cuyas hojas contendrán etiquetas POS (que corresponden a palabras en la oración), pero el resto del árbol le diría cómo se unen estas palabras. juntos para hacer la oración general. Por ejemplo, un adjetivo y un nombre podrían combinarse para ser una ''Frase de sustantivo'', que podría combinarse con otro adjetivo para formar otra Frase de sustantivo (por ejemplo, zorro marrón rápido) (la forma exacta en que las piezas se combinan depende del analizador en cuestión).
Puede ver cómo se ve el resultado del analizador en http://nlp.stanford.edu:8080/parser/index.jsp

Un analizador superficial o ''chunker'' se encuentra en algún lugar entre estos dos. Un etiquetador de POS simple es muy rápido, pero no le da suficiente información y un analizador completo es lento y le da demasiado. Un etiquetador POS puede considerarse como un analizador sintáctico que solo le devuelve el nivel inferior del árbol de análisis sintáctico. Un Chunker podría ser considerado como un analizador sintáctico que le devuelve otro nivel del árbol de análisis sintáctico. A veces solo necesitas saber que un grupo de palabras juntas forman una Frase Sustancial pero no se preocupan por la subestructura del árbol dentro de esas palabras (es decir, qué palabras son adjetivos, determinantes, sustantivos, etc. y cómo se combinan) . En tales casos, puede usar un chunker para obtener exactamente la información que necesita en lugar de perder el tiempo generando el árbol de análisis completo para la oración.

El marco de restricción de la gramática es ilustrativo. En su forma más simple y más cruda, toma como entrada texto etiquetado como POS y agrega lo que podría llamar etiquetas de Parte de cláusula. Para un adjetivo, por ejemplo, podría agregar @NN> para indicar que es parte de un PN cuya palabra @NN> es hacia la derecha.