tagger tag spanish pos_tag pos ner español php parsing tags full-text-search tagging

php - pos_tag - pos tagger spanish



Cómo implementar un etiquetador Part of Speech(POS) (2)

Estoy buscando la mejor forma basada en PHP para escanear una gran cantidad de entradas de texto (clasificados) y sacar palabras clave: ¿alguien sabe sobre el etiquetado de voz parcial? ¿Hay una forma PHP-ish para hacer esto?

Escaneo muchos anuncios en línea, ¡pero ninguno con categorías! Para acelerar el proceso de categorización, estoy buscando instalar un etiquetador Part-of-Speech (http://en.wikipedia.org/wiki/Part-of-speech_tagging). Básicamente, estos son paquetes de software algorítmico de análisis de texto que pueden decirme qué palabras son sustantivos (como "Apartamento", "Coche", "Perro", etc.) y cómo son las palabras chatarra en, si, y, pero, etc. . PERO...

Hay servicios de etiquetado en línea, uno de Yahoo, que parece estar recibiendo menos amor en estos días, otro de XEROX. Sin embargo, estoy realmente interesado en instalar mi propia biblioteca / software y conectarla a mi aplicación web.

¿ALGUIEN conoce una buena forma de instalar el etiquetado POS que funciona con una aplicación web PHP? Me muero por resolver esto, por lo que cualquier información, consejo u otra sabiduría que tengas es realmente apreciada.

Aquí hay una lista de MUCHOS de los diferentes software POS: http://www-nlp.stanford.edu/links/statnlp.html#Taggers (Busque en "POS Taggers")

¡Gracias por leer esto!


Ian Barber ha implementado un Brill Tagger en PHP, que presenta en su sitio PHP / ir donde describe su uso para analizar tweets.


Sí, actualmente estoy usando el etiquetador Brill. Funciona en cierta medida, aunque me gustaría poder descubrir cómo contribuir a su conjunto de reglas. Comete muchos errores, pero aún proporciona aproximadamente el 85% de datos precisos. ¡Mi único problema es que es LENTO!

Lo hace justo donde cuenta, en palabras con doble significado; sin embargo, hay muchas convenciones que no se explican, como el contraste de cláusulas de conjunción, por ejemplo, podría decir algo negativo sobre alguien, pero después de la coma, decir algo que invierta la polaridad a positivo, o no. La computadora no puede ver modismos.