varios una txt tutorial texto spanish palabra natural mineria language español ejemplos con como buscar archivos nlp stemming lemmatization

nlp - txt - Buscando una base de datos o archivo de texto de palabras en inglés con sus diferentes formas



nltk python español (1)

Puede descargar LanguageTool (Descargo de responsabilidad: soy el mantenedor), que viene con un archivo binario en english.dict . La Wiki de LanguageTool describe cómo volcar ese archivo como un archivo de texto:

java -jar morfologik-tools-1.6.0-standalone.jar fsa_dump -x -d english.dict

Para run , el archivo contendrá esto:

ran run VBD run run NN run run VB run run VBN run run VBP running run VBG runs run NNS runs run VBZ

La primera columna es la forma flexionada, la segunda es la forma básica y la tercera es la etiqueta de voz parcial según el conjunto de etiquetas de Penn Treebank (ligeramente extendido).

Estoy trabajando en un proyecto y necesito obtener la raíz de una palabra determinada (derivación). Como sabes, los algoritmos de derivación que no usan un diccionario no son precisos. También probé WordNet pero no es bueno para mi proyecto. Encontré el proyecto phpmorphy pero no incluye API en Java.

En este momento estoy buscando una base de datos o un archivo de texto de palabras en inglés con sus diferentes formas. por ejemplo:

ejecutar corriendo ejecutar ... incluir incluir incluido ... ...

Gracias por su ayuda o consejo.