OpenNLP - Descripción general
NLP es un conjunto de herramientas que se utilizan para obtener información útil y significativa de fuentes de lenguaje natural, como páginas web y documentos de texto.
¿Qué es Open NLP?
apache OpenNLPes una biblioteca Java de código abierto que se utiliza para procesar texto en lenguaje natural. Puede crear un servicio de procesamiento de texto eficiente utilizando esta biblioteca.
OpenNLP proporciona servicios tales como tokenización, segmentación de oraciones, etiquetado de parte del discurso, extracción de entidad con nombre, fragmentación, análisis y resolución de co-referencia, etc.
Características de OpenNLP
Las siguientes son las características notables de OpenNLP:
Named Entity Recognition (NER) - Open NLP admite NER, con el cual puede extraer nombres de ubicaciones, personas y cosas incluso mientras procesa consultas.
Summarize - Usando el summarize característica, puede resumir párrafos, artículos, documentos o su colección en PNL.
Searching - En OpenNLP, una determinada cadena de búsqueda o sus sinónimos se pueden identificar en un texto determinado, aunque la palabra dada esté alterada o mal escrita.
Tagging (POS) - El etiquetado en PNL se utiliza para dividir el texto en varios elementos gramaticales para su posterior análisis.
Translation - En PNL, Translation ayuda a traducir un idioma a otro.
Information grouping - Esta opción en PNL agrupa la información textual en el contenido del documento, al igual que las partes del discurso.
Natural Language Generation - Se utiliza para generar información a partir de una base de datos y automatizar los informes de información como análisis meteorológico o informes médicos.
Feedback Analysis - Como su nombre lo indica, la PNL recopila varios tipos de comentarios de las personas, con respecto a los productos, para analizar qué tan bien el producto tiene éxito en ganarse su corazón.
Speech recognition - Aunque es difícil analizar el habla humana, la PNL tiene algunas funciones integradas para este requisito.
API abierta de PNL
La biblioteca Apache OpenNLP proporciona clases e interfaces para realizar diversas tareas de procesamiento del lenguaje natural, como detección de oraciones, tokenización, búsqueda de un nombre, etiquetado de las partes del discurso, fragmentación de una oración, análisis, resolución de co-referencia y categorización de documentos.
Además de estas tareas, también podemos entrenar y evaluar nuestros propios modelos para cualquiera de estas tareas.
CLI OpenNLP
Además de la biblioteca, OpenNLP también proporciona una interfaz de línea de comandos (CLI), donde podemos entrenar y evaluar modelos. Discutiremos este tema en detalle en el último capítulo de este tutorial.
Modelos abiertos de PNL
Para realizar varias tareas de PNL, OpenNLP proporciona un conjunto de modelos predefinidos. Este set incluye modelos para diferentes idiomas.
Descargando los modelos
Puede seguir los pasos que se indican a continuación para descargar los modelos predefinidos proporcionados por OpenNLP.
Step 1 - Abra la página de índice de los modelos OpenNLP haciendo clic en el siguiente enlace - http://opennlp.sourceforge.net/models-1.5/.
Step 2- Al visitar el enlace dado, podrá ver una lista de componentes de varios idiomas y los enlaces para descargarlos. Aquí puede obtener la lista de todos los modelos predefinidos proporcionados por OpenNLP.
Descarga todos estos modelos a la carpeta C:/OpenNLP_models/>, haciendo clic en sus respectivos enlaces. Todos estos modelos dependen del idioma y, al usarlos, debe asegurarse de que el idioma del modelo coincida con el idioma del texto de entrada.
Historia de OpenNLP
En 2010, OpenNLP entró en la incubación de Apache.
En 2011, se lanzó Apache OpenNLP 1.5.2 Incubating y, en el mismo año, se graduó como un proyecto Apache de alto nivel.
En 2015, OpenNLP fue lanzado 1.6.0.