python - stopwords - ¿Cómo descargo datos NLTK?
nltk stopwords (12)
Respuesta actualizada: NLTK funciona para 2.7 pozos. Yo tenía 3.2. Desinstalé 3.2 e instalé 2.7. ¡¡Ahora funciona!!
Instalé NLTK e intenté descargar datos NLTK. Lo que hice fue seguir la instrumentación en este sitio: http://www.nltk.org/data.html
Descargué NLTK, lo instalé y luego intenté ejecutar el siguiente código:
>>> import nltk
>>> nltk.download()
Me dio el mensaje de error como a continuación:
Traceback (most recent call last):
File "<pyshell#6>", line 1, in <module>
nltk.download()
AttributeError: ''module'' object has no attribute ''download''
Directory of C:/Python32/Lib/site-packages
nltk.download()
tanto nltk.download()
como nltk.downloader()
, ambos me dieron mensajes de error.
Luego usé help(nltk)
para extraer el paquete, muestra la siguiente información:
NAME
nltk
PACKAGE CONTENTS
align
app (package)
book
ccg (package)
chat (package)
chunk (package)
classify (package)
cluster (package)
collocations
corpus (package)
data
decorators
downloader
draw (package)
examples (package)
featstruct
grammar
help
inference (package)
internals
lazyimport
metrics (package)
misc (package)
model (package)
parse (package)
probability
sem (package)
sourcedstring
stem (package)
tag (package)
test (package)
text
tokenize (package)
toolbox
tree
treetransforms
util
yamltags
FILE
c:/python32/lib/site-packages/nltk
Veo Downloader allí, no estoy seguro de por qué no funciona. Python 3.2.2, sistema Windows vista.
TL; DR
Para descargar un conjunto de datos / modelos en particular, use la función nltk.download()
, por ejemplo, si está buscando descargar el tokenizador de oraciones punkt
, use:
$ python3
>>> import nltk
>>> nltk.download(''punkt'')
Si no está seguro de qué datos / modelo necesita, puede comenzar con la lista básica de datos + modelos con:
>>> import nltk
>>> nltk.download(''popular'')
Descargará una lista de recursos "populares", estos incluyen:
<collection id="popular" name="Popular packages">
<item ref="cmudict" />
<item ref="gazetteers" />
<item ref="genesis" />
<item ref="gutenberg" />
<item ref="inaugural" />
<item ref="movie_reviews" />
<item ref="names" />
<item ref="shakespeare" />
<item ref="stopwords" />
<item ref="treebank" />
<item ref="twitter_samples" />
<item ref="omw" />
<item ref="wordnet" />
<item ref="wordnet_ic" />
<item ref="words" />
<item ref="maxent_ne_chunker" />
<item ref="punkt" />
<item ref="snowball_data" />
<item ref="averaged_perceptron_tagger" />
</collection>
EDITADO
En caso de que alguien esté evitando errores al descargar conjuntos de datos más grandes desde nltk
, desde https://.com/a/38135306/610569
$ rm /Users/<your_username>/nltk_data/corpora/panlex_lite.zip
$ rm -r /Users/<your_username>/nltk_data/corpora/panlex_lite
$ python
>>> import nltk
>>> dler = nltk.downloader.Downloader()
>>> dler._update_index()
>>> dler._status_cache[''panlex_lite''] = ''installed'' # Trick the index to treat panlex_lite as it''s already installed.
>>> dler.download(''popular'')
Actualizado
Desde v3.2.5, NLTK tiene un mensaje de error más informativo cuando no se encuentra el recurso nltk_data
, por ejemplo:
>>> from nltk import word_tokenize
>>> word_tokenize(''x'')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/Users/l/alvas/git/nltk/nltk/tokenize/__init__.py", line 128, in word_tokenize
sentences = [text] if preserve_line else sent_tokenize(text, language)
File "/Users//alvas/git/nltk/nltk/tokenize/__init__.py", line 94, in sent_tokenize
tokenizer = load(''tokenizers/punkt/{0}.pickle''.format(language))
File "/Users/alvas/git/nltk/nltk/data.py", line 820, in load
opened_resource = _open(resource_url)
File "/Users/alvas/git/nltk/nltk/data.py", line 938, in _open
return find(path_, path + ['''']).open()
File "/Users/alvas/git/nltk/nltk/data.py", line 659, in find
raise LookupError(resource_not_found)
LookupError:
**********************************************************************
Resource punkt not found.
Please use the NLTK Downloader to obtain the resource:
>>> import nltk
>>> nltk.download(''punkt'')
Searched in:
- ''/Users/alvas/nltk_data''
- ''/usr/share/nltk_data''
- ''/usr/local/share/nltk_data''
- ''/usr/lib/nltk_data''
- ''/usr/local/lib/nltk_data''
- ''''
**********************************************************************
Relacionado
Para buscar el directorio
nltk_data
(auto-mágicamente), vea https://.com/a/36383314/610569Para descargar
nltk_data
a una ruta diferente , consulte https://.com/a/48634212/610569Para configurar la ruta
nltk_data
(es decir, establecer una ruta diferente para NLTK para encontrarnltk_data
), consulte https://.com/a/22987374/610569
Creo que debe haber nombrado el archivo como nltk.py (o la carpeta consiste en un archivo con ese nombre) así que cámbielo a cualquier otro nombre e intente ejecutarlo ....
Es muy sencillo....
- Abra pyScripter o cualquier editor
- Cree un archivo de Python por ejemplo: install.py
- escriba el código a continuación en él. importar nltk nltk.download ()
- Aparecerá una ventana emergente y haga clic en descargar.
Esto funcionó para mí:
nltk.set_proxy(''http://user:[email protected]:8080'')
nltk.download()
Instalar Pip: ejecutar en la terminal: sudo easy_install pip
Instalar Numpy (opcional): ejecutar: sudo pip install -U numpy
Instalar NLTK: ejecutar: sudo pip install -U nltk
Instalación de prueba: ejecutar: python
luego escribe: import nltk
Para descargar el corpus
ejecutar: python -m nltk.downloader all
No nombre su archivo nltk.py. Usé el mismo código y lo llamé nltk, y obtuve el mismo error que el suyo, cambié el nombre del archivo y funcionó bien.
Puede intentar:
>> $ import nltk
>> $ nltk.download_shell()
>> $ d
>> $ *name of the package*
feliz nlp''ing.
Si está ejecutando una versión realmente antigua de nltk, entonces no hay ningún módulo de descarga disponible ( reference )
Prueba esto:
import nltk
print(nltk.__version__)
Según la referencia, cualquier cosa después de 0.9.5 debería estar bien
Tratar
nltk.download (''todo'')
esto descargará todos los datos, sin necesidad de descargarlos individualmente
Tuve el problema similar. Probablemente verifique si está usando un proxy.
En caso afirmativo, configure el proxy antes de realizar la descarga:
nltk.set_proxy(''http://proxy.example.com:3128'', (''USERNAME'', ''PASSWORD''))
debe agregar python a su RUTA durante la instalación de Python ... después de la instalación ... abra el comando cmd escriba pip install nltk
luego vaya a IDLE y abra un nuevo archivo ... almacénelo como file.py..then abra el archivo. py escriba lo siguiente: import nltk
nltk.download()
no puede tener un archivo python guardado llamado nltk.py
porque el intérprete está leyendo de eso y no del archivo real.
Cambie el nombre de su archivo que está leyendo el shell python y pruebe lo que estaba haciendo originalmente:
import nltk
y luego nltk.download()