una studio publicas proyectos proyecto programacion para móviles desarrollo curso crear comunitaria bibliotecas biblioteca aplicaciones java nlp

java - studio - proyecto para crear una biblioteca comunitaria



¿Qué es una buena biblioteca de Java para el etiquetado de partes de voz? (3)

Estoy buscando una buena fuente abierta Tag Tagger en Java. Esto es lo que he encontrado hasta ahora.

¿Alguien tiene alguna recomendación?


¿Estás buscando etiquetar POS en un dominio específico? La mayoría de los etiquetadores de propósito general están entrenados en texto de newswire. Por lo general, no tienen un buen rendimiento cuando los está utilizando en dominios específicos (como el texto biomédico). Hay otros etiquetadores específicamente entrenados para dominios tales como dTagger (java) para texto biomédico.

Para el texto de Newswire, el MXPOST de Adwait MXPOST es muy bueno y es el que recomendaría.

Otras implementaciones de Java incluyen:

  1. MontyLingua
  2. Berkeley Parser (No es realmente un etiquetador POS, pero todos los analizadores completos normalmente incluirán los etiquetadores POS. Google para Java analizadores sintácticos y encontrará muchos.)
  3. QTag
  4. LBJ

OpenNLP y LingPipe publicados por los otros carteles también son bastante decentes.

La información sobre el estado del arte en el etiquetado de POS se puede encontrar here . Como puede ver, LTAG-Spinal (también mencionado por otro póster) se ubica mejor a partir de ahora, pero la variación entre los diferentes etiquetadores no es mucho. No he usado LTAG a mí mismo.

También tenga en cuenta que el rendimiento de línea de base para el etiquetado POS es de aproximadamente el 90%. Línea base significa: (a) etiquetar cada palabra por la etiqueta POS más frecuente de un léxico, y (b) etiquetar cada palabra desconocida como un sustantivo.



He usado LingPipe y POS Tagger de Stanford. El último es un POS Tagger de here pero, según mi experiencia, es demasiado lento (aunque proporcionan modelos menos precisos, que son razonablemente rápidos). Por supuesto, siempre depende de lo que está tratando de lograr, y siempre habrá una compensación entre la velocidad y la precisión.

También una vez utilicé un software NER basado en LBJ y, aunque era bastante preciso, el código fuente era un completo desastre. Tanto la fuente de LingPipe como la de Stanford están muy limpias y bien documentadas.

También puedes echar un vistazo a LTAG-Spinal . No lo he usado todavía, pero a partir de la descripción del algoritmo y de la precisión que aparece en la lista, parece ser mejor que las alternativas que tiene hasta ahora.

Espero eso ayude.