python - stopwords - ¿Cómo descargo datos NLTK?

nltk stopwords (12)

Respuesta actualizada: NLTK funciona para 2.7 pozos. Yo tenía 3.2. Desinstalé 3.2 e instalé 2.7. ¡¡Ahora funciona!!

Instalé NLTK e intenté descargar datos NLTK. Lo que hice fue seguir la instrumentación en este sitio: http://www.nltk.org/data.html

Descargué NLTK, lo instalé y luego intenté ejecutar el siguiente código:

>>> import nltk >>> nltk.download()

Me dio el mensaje de error como a continuación:

Traceback (most recent call last): File "<pyshell#6>", line 1, in <module> nltk.download() AttributeError: ''module'' object has no attribute ''download'' Directory of C:/Python32/Lib/site-packages

nltk.download() tanto nltk.download() como nltk.downloader() , ambos me dieron mensajes de error.

Luego usé help(nltk) para extraer el paquete, muestra la siguiente información:

NAME nltk PACKAGE CONTENTS align app (package) book ccg (package) chat (package) chunk (package) classify (package) cluster (package) collocations corpus (package) data decorators downloader draw (package) examples (package) featstruct grammar help inference (package) internals lazyimport metrics (package) misc (package) model (package) parse (package) probability sem (package) sourcedstring stem (package) tag (package) test (package) text tokenize (package) toolbox tree treetransforms util yamltags FILE c:/python32/lib/site-packages/nltk

Veo Downloader allí, no estoy seguro de por qué no funciona. Python 3.2.2, sistema Windows vista.

TL; DR

Para descargar un conjunto de datos / modelos en particular, use la función nltk.download() , por ejemplo, si está buscando descargar el tokenizador de oraciones punkt , use:

$ python3 >>> import nltk >>> nltk.download(''punkt'')

Si no está seguro de qué datos / modelo necesita, puede comenzar con la lista básica de datos + modelos con:

>>> import nltk >>> nltk.download(''popular'')

Descargará una lista de recursos "populares", estos incluyen:

EDITADO

En caso de que alguien esté evitando errores al descargar conjuntos de datos más grandes desde nltk , desde https://.com/a/38135306/610569

$ rm /Users/<your_username>/nltk_data/corpora/panlex_lite.zip $ rm -r /Users/<your_username>/nltk_data/corpora/panlex_lite $ python >>> import nltk >>> dler = nltk.downloader.Downloader() >>> dler._update_index() >>> dler._status_cache[''panlex_lite''] = ''installed'' # Trick the index to treat panlex_lite as it''s already installed. >>> dler.download(''popular'')

Actualizado

Desde v3.2.5, NLTK tiene un mensaje de error más informativo cuando no se encuentra el recurso nltk_data , por ejemplo:

>>> from nltk import word_tokenize >>> word_tokenize(''x'') Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/Users/l/alvas/git/nltk/nltk/tokenize/__init__.py", line 128, in word_tokenize sentences = [text] if preserve_line else sent_tokenize(text, language) File "/Users//alvas/git/nltk/nltk/tokenize/__init__.py", line 94, in sent_tokenize tokenizer = load(''tokenizers/punkt/{0}.pickle''.format(language)) File "/Users/alvas/git/nltk/nltk/data.py", line 820, in load opened_resource = _open(resource_url) File "/Users/alvas/git/nltk/nltk/data.py", line 938, in _open return find(path_, path + ['''']).open() File "/Users/alvas/git/nltk/nltk/data.py", line 659, in find raise LookupError(resource_not_found) LookupError: ********************************************************************** Resource punkt not found. Please use the NLTK Downloader to obtain the resource: >>> import nltk >>> nltk.download(''punkt'') Searched in: - ''/Users/alvas/nltk_data'' - ''/usr/share/nltk_data'' - ''/usr/local/share/nltk_data'' - ''/usr/lib/nltk_data'' - ''/usr/local/lib/nltk_data'' - '''' **********************************************************************

Relacionado

Para buscar el directorio nltk_data (auto-mágicamente), vea https://.com/a/36383314/610569
Para descargar nltk_data a una ruta diferente , consulte https://.com/a/48634212/610569
Para configurar la ruta nltk_data (es decir, establecer una ruta diferente para NLTK para encontrar nltk_data ), consulte https://.com/a/22987374/610569

Creo que debe haber nombrado el archivo como nltk.py (o la carpeta consiste en un archivo con ese nombre) así que cámbielo a cualquier otro nombre e intente ejecutarlo ....

Es muy sencillo....

Abra pyScripter o cualquier editor
Cree un archivo de Python por ejemplo: install.py
escriba el código a continuación en él. importar nltk nltk.download ()
Aparecerá una ventana emergente y haga clic en descargar.

Esto funcionó para mí:

nltk.set_proxy(''http://user:[email protected]:8080'') nltk.download()

Instalar Pip: ejecutar en la terminal: sudo easy_install pip

Instalar Numpy (opcional): ejecutar: sudo pip install -U numpy

Instalar NLTK: ejecutar: sudo pip install -U nltk

Instalación de prueba: ejecutar: python

luego escribe: import nltk

Para descargar el corpus

ejecutar: python -m nltk.downloader all

No nombre su archivo nltk.py. Usé el mismo código y lo llamé nltk, y obtuve el mismo error que el suyo, cambié el nombre del archivo y funcionó bien.

Puede intentar:

>> $ import nltk >> $ nltk.download_shell() >> $ d >> $ *name of the package*

feliz nlp''ing.

Si está ejecutando una versión realmente antigua de nltk, entonces no hay ningún módulo de descarga disponible ( reference )

Prueba esto:

import nltk print(nltk.__version__)

Según la referencia, cualquier cosa después de 0.9.5 debería estar bien

Tratar

nltk.download (''todo'')

esto descargará todos los datos, sin necesidad de descargarlos individualmente

Tuve el problema similar. Probablemente verifique si está usando un proxy.

En caso afirmativo, configure el proxy antes de realizar la descarga:

nltk.set_proxy(''http://proxy.example.com:3128'', (''USERNAME'', ''PASSWORD''))

debe agregar python a su RUTA durante la instalación de Python ... después de la instalación ... abra el comando cmd escriba pip install nltk luego vaya a IDLE y abra un nuevo archivo ... almacénelo como file.py..then abra el archivo. py escriba lo siguiente: import nltk

nltk.download()

no puede tener un archivo python guardado llamado nltk.py porque el intérprete está leyendo de eso y no del archivo real.

Cambie el nombre de su archivo que está leyendo el shell python y pruebe lo que estaba haciendo originalmente:

import nltk y luego nltk.download()