nlp - spanish - Porter Tallos de fritos
nltk lemmatizer (2)
Una raíz tal como la devuelve Porter Stemmer no es necesariamente la forma básica de un verbo, o una palabra válida en absoluto. Si lo estás buscando, debes buscar un lematizador en su lugar.
¿Por qué el algoritmo de derivación Porter en línea en
http://text-processing.com/demo/stem/
Tallo fried
a fri
y no fry
?
No recuerdo ninguna palabra que termine con el tiempo pasado ied
en inglés que tenga una forma nominativa que termine con i
.
¿Es esto un error?
En primer lugar, un lematizador no es un lematizador, ver también Stemmers vs Lemmatizers :
>>> from nltk.stem import PorterStemmer, WordNetLemmatizer
>>> porter = PorterStemmer()
>>> wnl = WordNetLemmatizer()
>>> fried = ''fried''
>>> porter.stem(fried)
u''fri''
>>> wnl.lemmatize(fried)
''fried''
A continuación, un lemmatizador es sensible a la parte de voz (POS):
>>> wnl.lemmatize(fried, pos=''v'')
u''fry''