lib - nltk python
Error de búsqueda NLTK (4)
Problema: error de búsqueda al extraer el vectorizador de recuento de scikit learn. A continuación se muestra un fragmento de código.
from sklearn.feature_extraction.text import CountVectorizer
bow_transformer = CountVectorizer(analyzer=text_process).fit(X)
Solución: ¡Trate de ejecutar el siguiente código y luego intente instalar las palabras clave de los kits de herramientas de procesamiento de lenguaje natural de los corpus!
import nltk
nltk.download()
Mientras ejecutaba un script de Python usando NLTK obtuve esto:
Traceback (most recent call last):
File "cpicklesave.py", line 56, in <module>
pos = nltk.pos_tag(words)
File "/usr/lib/python2.7/site-packages/nltk/tag/__init__.py", line 110, in pos_tag
tagger = PerceptronTagger()
File "/usr/lib/python2.7/site-packages/nltk/tag/perceptron.py", line 140, in __init__
AP_MODEL_LOC = str(find(''taggers/averaged_perceptron_tagger/''+PICKLE))
File "/usr/lib/python2.7/site-packages/nltk/data.py", line 641, in find
raise LookupError(resource_not_found)
LookupError:
**********************************************************************
Resource u''taggers/averaged_perceptron_tagger/averaged_perceptro
n_tagger.pickle'' not found. Please use the NLTK Downloader to
obtain the resource: >>> nltk.download()
Searched in:
- ''/root/nltk_data''
- ''/usr/share/nltk_data''
- ''/usr/local/share/nltk_data''
- ''/usr/lib/nltk_data''
- ''/usr/local/lib/nltk_data''
**********************************************************************
¿Alguien puede explicar el problema?
Utilizar
>>> nltk.download()
para instalar el módulo faltante (el etiquetador Perceptron ).
(Verifique también las respuestas a Failed loading english.pickle with nltk.data.load )
TL; DR
import nltk
nltk.download(''averaged_perceptron_tagger'')
O para descargar todos los paquetes + datos + documentos:
import nltk
nltk.download(''all'')
Consulte ¿Cómo descargo datos NLTK?
La primera respuesta dijo que el módulo que falta es ''el etiquetador de Perceptron'', en realidad su nombre en nltk.download es ''averaged_perceptron_tagger''
Puedes usar esto para arreglar el error
nltk.download(''averaged_perceptron_tagger'')