voz spanish reconocimiento recognition ner java nlp named-entity-recognition

java - spanish - ner nlp



Bibliotecas de Reconocimiento de Entidades Nombradas para Java (4)

Por cierto, recientemente me encontré con OpenCalais que parece tener la funcionalidad que estaba buscando.

Estoy buscando una biblioteca (y diccionario) de Reconocimiento de Entidades Nombradas, simple pero "lo suficientemente buena" para Java. Estoy buscando procesar correos electrónicos y documentos y extraer algo de "información básica" como: Nombres, lugares, dirección y fechas.

He estado mirando alrededor, y la mayoría parece estar en el lado pesado y en el tipo completo de proyectos de PNL.

Alguna recomendación ?


Es posible que también quieras probar Alchemy API . Es similar a Open Calais.



Es posible que desee echar un vistazo a una de mis respuestas anteriores a un problema similar.

Aparte de eso, los sistemas NER más ligeros dependen en gran medida del dominio utilizado. Encontrará una gran cantidad de herramientas y documentos sobre sistemas NER biomédicos, por ejemplo. Además de mi publicación anterior (que ya contiene mi recomendación principal si quieres hacer NER), aquí hay algunas herramientas más que podrías considerar:

  • El CER-NER de Stanford
  • El sistema Postech Biomedical NER si está interesado en este dominio en particular
  • OpenCalais parece ser un sistema comercial. Hay contenedores UIMA para OpenCalais pero parecen anticuados. También hay un anotador Context-Mapper basado en diccionario para UIMA que puede ayudarte. Tenga en cuenta que UIMA implica una sobrecarga significativa en la curva de aprendizaje ;-)
  • OpenNLP también tiene una herramienta NER.
  • Balie también hace NER, entre otras cosas.
  • ABNER hace NER, pero nuevamente está enfocado en el dominio biomédico.
  • Las herramientas de laboratorio JULIE de la universidad de Jena, Alemania también hacen NER. Tienen versiones independientes y motores de análisis UIMA.

Una observación adicional: no saldrá sin tokenización en la entrada. La tokenización del lenguaje natural es ligeramente no trivial, por eso te sugiero que uses una caja de herramientas que hace las dos cosas por ti.