spanish reconocimiento recognition nombradas español entidades nlp named-entity-recognition

nlp - reconocimiento - named entity recognition spanish



¿Qué significan las etiquetas BILOU en el Reconocimiento de la entidad nombrada? (3)

Me gustaría agregar algo de experiencia comparando esquemas BIO y BILOU. Mi experimento se realizó solo en un conjunto de datos y puede que no sea representativo.

Mi conjunto de datos contiene alrededor de 35 mil expresiones cortas (2-10 tokens) y se anotan con 11 etiquetas diferentes. En otras palabras, hay 11 entidades nombradas.

Las características utilizadas incluyen la palabra, la izquierda y la derecha, 2 gramos, ngrams de 1-5 caracteres (excepto los del medio), características de la forma, etc. Pocas entidades tienen respaldo geográfico también.

Revolví el conjunto de datos y lo dividí en 80/20 partes: entrenamiento y pruebas. Este proceso se repitió 5 veces y para cada entidad registré Precision, Recall y F1-measure. El rendimiento se midió a nivel de entidad, no a nivel de ficha como en Ratinov & Roth, documento de 2009.

El software que utilicé para entrenar un modelo es CRFSuite. Utilicé L-BFGS solver con c1 = 0 y c2 = 1.

En primer lugar, los resultados de la prueba comparados para los 5 pliegues son muy similares. Esto significa que hay poca variabilidad de una ejecución a otra, lo que es bueno. Segundo, el esquema BIO funcionó de manera muy similar al esquema BILOU. Si hay alguna diferencia significativa, quizás se encuentre en el tercer o cuarto dígito después del período en Precisión, Recuperación y F1.

Conclusión: En mi experimento, el esquema BILOU no es mejor (pero tampoco es peor) que el esquema BIO.

Título bastante resume la pregunta. Me he dado cuenta de que, en algunos artículos, las personas se han referido a un esquema de codificación BILOU para NER en lugar del esquema de etiquetado BIO típico (como este artículo de Ratinov y Roth en 2009 http://cogcomp.cs.illinois.edu/page/publication_view/199 )

Del trabajo con los datos de CoNLL de 2003, sé que

B stands for ''beginning'' (signifies beginning of an NE) I stands for ''inside'' (signifies that the word is inside an NE) O stands for ''outside'' (signifies that the word is just a regular word outside of an NE)

Mientras me han dicho que las palabras en BILOU significan

B - ''beginning'' I - ''inside'' L - ''last'' O - ''outside'' U - ''unit''

También he visto personas que hacen referencia a otra etiqueta.

E - ''end''

y úselo simultáneamente con la etiqueta ''última''.

Soy bastante nuevo en la literatura NER, pero no he podido encontrar algo que explique claramente estas etiquetas. Mis preguntas en particular se refieren a cuál es la diferencia entre las etiquetas ''última'' y ''final'', y qué significa la etiqueta ''unidad''.


Sobre la base de un issue y un patch en Clear TK, parece que BILOU significa "Principios iniciales, interiores y últimos tokens de fragmentos de múltiples tokens , fragmentos de longitud de unidad y Outside" (énfasis agregado). Por ejemplo, la fragmentación denotada entre paréntesis.

(foo foo foo) (bar) no no no (bar bar)

se puede codificar con BILOU como

B-foo, I-foo, L-foo, U-bar, O, O, O, B-bar, L-bar