nlp - software - text mining techniques

¿Qué es el formato de datos CoNLL? (1)

Soy nuevo en la minería de texto. Estoy utilizando un jar de código abierto (Mate Parser) que me da salida en un formato CoNLL 2009 después de analizar la dependencia. Quiero usar los resultados del análisis de dependencia para la extracción de información. Pero puedo entender algunos de los resultados pero no puedo comprender el formato de datos CoNLL. ¿Puede alguien ayudarme a hacerme entender el formato de datos CoNLL? Cualquier tipo de punteros sería apreciado.

Hay muchos formatos diferentes de CoNLL ya que CoNLL es una tarea compartida diferente cada año. El formato para CoNLL 2009 se describe here . Cada línea representa una sola palabra con una serie de campos separados por tabulaciones. _ s indican valores vacíos. El manual de Mate-Parser dice que usa las primeras 12 columnas de CoNLL 2009:

ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL

La definición de algunas de estas columnas proviene de tareas compartidas anteriores (el formato CoNLL-X utilizado en 2006 y 2007):

ID (índice en la oración, comenzando en 1)
FORM (palabra forma en sí)
LEMMA (lema de la palabra o tallo)
POS (parte del discurso)
FEAT (lista de características morfológicas separadas por |)
HEAD (índice de padre sintáctico, 0 para ROOT )
DEPREL (relación sintáctica entre HEAD y esta palabra)

Hay variantes de esas columnas (por ejemplo, PPOS pero no POS ) que comienzan con P indican que el valor se predijo automáticamente en lugar de un valor estándar de oro.

Actualización: ahora también hay un formato de datos CoNLL-U que amplía el formato CoNLL-X.