java parsing nlp text-parsing cleartk

Analizar texto sin formato con MaltParser en Java



parsing nlp (1)

Descubrí que NLKT en python lo hace a través de la función * raw_parse * pero necesito usar Java. Descubrí que cleartk tiene un envoltorio de MaltParser pero no hay documentación al respecto. Estoy buscando una función o un proyecto que primero convierta el texto en inglés sin formato al archivo de conexión que MaltParser pueda usar y lo analice con MaltParser. Cualquier ayuda es apreciada.


Hay ejemplos que vienen con la distribución de MaltParser 1.7.2 en la carpeta examples / apiexamples / srcex .

Sin embargo, estos ejemplos solo muestran cómo ejecutar MaltParser programáticamente después de que la tokenización y el pos-etiquetado ya se hayan realizado (y después de que el resultado de estos pasos se haya convertido a un formato CONLL).

Como actualmente no puedo ofrecer una alternativa mejor (más simple / más corta), al menos podría compartir con ustedes un enlace a un script de Groovy que realiza tokenización, etiquetado de parte de la voz (usando OpenNLP) y análisis de dependencias (usando MaltParser). Las herramientas se hacen interoperables usando UIMA. Si uno está familiarizado con Maven, debería ser bastante directo derivar una versión de Java de ese script.

Tenga en cuenta que esta no es la mejor respuesta, pero en este momento posiblemente sea mejor que nada.

Nota: soy desarrollador de Apache UIMA y DKPro Core (el proyecto al que apunta el enlace).