java - spanish - stanford parser online

¿Cómo creo mi propio corpus de entrenamiento para stanford tagger? (4)

Esencialmente, los textos que formatea para el proceso de capacitación deben tener un token en cada línea, seguido de una pestaña, seguido de un identificador. El identificador puede ser algo así como "LOC" para ubicación, "COR" para corporación, o "0" para tokens no entidad. P.ej

I 0 left 0 my 0 heart 0 in 0 Kansas LOC City LOC . 0

Cuando nuestro equipo capacitó a una serie de clasificadores, suministramos a cada uno un archivo de capacitación formateado así con aproximadamente 180,000 fichas, y vimos una mejora neta en precisión pero una disminución neta en la recuperación. (Vale la pena señalar que el aumento en la precisión no fue estadísticamente significativo.) En caso de que pueda ser útil para otros, describí el proceso que utilizamos para entrenar el clasificador, así como los valores p, r y f1 de ambos, entrenados y por defecto clasificadores aquí .

Tengo que analizar el texto informal en inglés con muchas manos cortas y jerga local. Por lo tanto, estaba pensando en crear el modelo para stanford tagger.

¿Cómo creo mi propio conjunto de corpus etiquetado para que el etiquetador stanford se adiestre?

¿Cuál es la sintaxis del corpus y cuánto tiempo debe estar mi corpus para lograr un rendimiento deseable?

Intenté: java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] / -train trainFilesPath fileRange -saveToSerializedFile serializedGrammarFilename

Pero tuve el error:

Error: no se pudo encontrar o cargar la clase principal edu.stanford.nlp.parser.lexparser.LexicalizedParser

Para Stanford Parser, utiliza el formato de árbol de Penn y consulta las preguntas frecuentes de Stanford sobre los comandos exactos que debe usar. Los JavaDocs para la clase LexicalizedParser también dan los comandos apropiados, particularmente:

java -mx1500m edu.stanford.nlp.parser.lexparser.LexicalizedParser [-v] / -train trainFilesPath fileRange -saveToSerializedFile serializedGrammarFilename

Para entrenar al etiquetador PoS, consulte esta publicación de la lista de correo que también se incluye en los JavaDocs para la clase MaxentTagger.

Los javadocs para la clase edu.stanford.nlp.tagger.maxent.Train especifican el formato de entrenamiento:

El archivo de capacitación debe tener el siguiente formato: una palabra y una etiqueta por línea separadas por un espacio o una pestaña. Cada oración debe terminar en un par de palabras EOS. (En realidad, no estoy del todo seguro de que ese sea el caso, pero probablemente no duela. -wmorgan)