nlp - txt - Buscando una base de datos o archivo de texto de palabras en inglés con sus diferentes formas
nltk python español (1)
Puede descargar LanguageTool (Descargo de responsabilidad: soy el mantenedor), que viene con un archivo binario en english.dict
. La Wiki de LanguageTool describe cómo volcar ese archivo como un archivo de texto:
java -jar morfologik-tools-1.6.0-standalone.jar fsa_dump -x -d english.dict
Para run
, el archivo contendrá esto:
ran run VBD
run run NN
run run VB
run run VBN
run run VBP
running run VBG
runs run NNS
runs run VBZ
La primera columna es la forma flexionada, la segunda es la forma básica y la tercera es la etiqueta de voz parcial según el conjunto de etiquetas de Penn Treebank (ligeramente extendido).
Estoy trabajando en un proyecto y necesito obtener la raíz de una palabra determinada (derivación). Como sabes, los algoritmos de derivación que no usan un diccionario no son precisos. También probé WordNet pero no es bueno para mi proyecto. Encontré el proyecto phpmorphy pero no incluye API en Java.
En este momento estoy buscando una base de datos o un archivo de texto de palabras en inglés con sus diferentes formas. por ejemplo:
ejecutar corriendo ejecutar ... incluir incluir incluido ... ...
Gracias por su ayuda o consejo.