machine-learning document-classification feature-selection part-of-speech

machine learning - Parte de la etiqueta Speech(POS) Selección de características para la clasificación de texto



machine-learning document-classification (1)

Tengo las oraciones de la etiqueta POS que obtienen usando Stanford POS tagger. P.ej:

La / DT isla / NN era / VBD muy / RB hermosa / JJ ./. I / PRP love / VBP it / PRP ./.

(formato xml también disponible)

¿Alguien puede explicar cómo realizar la selección de características de esta frase de etiqueta POS y convertirlas en un vector de características para la clasificación de texto usando el método de aprendizaje automático?


Una forma simple de comenzar sería algo como lo siguiente (suponiendo que el orden de las palabras no es importante para su algoritmo de clasificación).

Primero, clasificaría manualmente varias oraciones. Este es su conjunto de datos de entrenamiento. Generalmente, cuantas más oraciones clasifiques manualmente de cada clase, mayor será la precisión que lograrás. Para un enfoque supervisado como este, tenga en cuenta que las únicas características seleccionadas serían las oraciones clasificadas manualmente. Sus características son cada combinación única de palabra / POS en todas sus oraciones de capacitación.

Finalmente, debe elegir un algoritmo de selección de características. Hay muchos por ahí, pero uno popular es chi-cuadrado. Algunos otros son Ganancia de información, Información mutua, etc. Usando chi-cuadrado, usted mediría la dependencia de la variable de clase en cada característica individualmente. Elegirías algún umbral, como el 10% superior de las características con el valor chi-cuadrado más bajo, y solo conservaría esas características para usarlas más adelante en tu clasificador.

La elección del algoritmo de selección de características es importante y debe reflejar el algoritmo que está utilizando. Por ejemplo, chi-squared es bueno cuando quieres encontrar características que se relacionen positivamente y negativamente con tu clase. En otras circunstancias, es posible que solo desee características correlacionadas positivamente, por lo que deberá elegir otro algoritmo o modificar uno existente.

Espero que ayude, William Riley-Land