python - tag - Entrenar el modelo NER en NLTK con corpus personalizado

pos tag nltk español (1)

Los capítulos 6 y 7 del libro nltk explican cómo entrenar un "chunker" en un corpus con codificación IOB. El ejemplo en el capítulo 7 hace NP fragmentación, pero eso es fortuito: tu chunker troceará lo que sea que lo entrenes. Tendrá que decidir qué características son útiles para el reconocimiento de entidades nombradas; el capítulo 6 cubre los aspectos básicos de la elección de características para un clasificador. Finalmente, observe la fuente de las características utilizadas por el propio chunker de entidades nombrado de la nltk . Probablemente también harán un buen trabajo en portugués; luego puede intentar agregar tallos u otras características específicas de portugués.

Tengo un corpus anotado en el formato conll2002, es decir, un archivo separado por tabulación con un token, pos-tag y etiqueta IOB seguido de etiqueta de entidad. Ejemplo:

John NNP B-PERSON

Quiero entrenar un modelo NER portugués en NLTK, preferiblemente el modelo MaxEnt. No quiero usar el Stanford NER "incorporado" en NLTK porque ya podía usar el Stanford NER autónomo. Quiero utilizar el modelo de MaxEnt para usar como comparación con el NER de Stanford.

Encontré NLTK-trainer pero no pude usarlo.

¿Cómo puedo conseguir esto?