Scrapy - Herramientas de línea de comandos
Descripción
La herramienta de línea de comandos de Scrapy se utiliza para controlar Scrapy, que a menudo se denomina 'Scrapy tool'. Incluye los comandos para varios objetos con un grupo de argumentos y opciones.
Ajustes de configuración
Scrapy encontrará los ajustes de configuración en el scrapy.cfgarchivo. A continuación se muestran algunas ubicaciones:
C: \ scrapy (carpeta del proyecto) \ scrapy.cfg en el sistema
~ / .config / scrapy.cfg ($ XDG_CONFIG_HOME) y ~ / .scrapy.cfg ($ HOME) para configuraciones globales
Puede encontrar el archivo scrapy.cfg dentro de la raíz del proyecto.
Scrapy también se puede configurar utilizando las siguientes variables de entorno:
- SCRAPY_SETTINGS_MODULE
- SCRAPY_PROJECT
- SCRAPY_PYTHON_SHELL
Proyecto Scrapy de estructura predeterminada
La siguiente estructura muestra la estructura de archivos predeterminada del proyecto Scrapy.
scrapy.cfg - Deploy the configuration file
project_name/ - Name of the project
_init_.py
items.py - It is project's items file
pipelines.py - It is project's pipelines file
settings.py - It is project's settings file
spiders - It is the spiders directory
_init_.py
spider_name.py
. . .
los scrapy.cfgEl archivo es un directorio raíz del proyecto, que incluye el nombre del proyecto con la configuración del proyecto. Por ejemplo
[settings]
default = [name of the project].settings
[deploy]
#url = http://localhost:6800/
project = [name of the project]
Usando la herramienta Scrapy
La herramienta Scrapy proporciona algunos comandos de uso y disponibles de la siguiente manera:
Scrapy X.Y - no active project
Usage:
scrapy [options] [arguments]
Available commands:
crawl It puts spider (handle the URL) to work for crawling data
fetch It fetches the response from the given URL
Crear un proyecto
Puede usar el siguiente comando para crear el proyecto en Scrapy:
scrapy startproject project_name
Esto creará el proyecto llamado project_namedirectorio. A continuación, vaya al proyecto recién creado, usando el siguiente comando:
cd project_name
Control de proyectos
Puede controlar el proyecto y administrarlos usando la herramienta Scrapy y también crear la nueva araña, usando el siguiente comando:
scrapy genspider mydomain mydomain.com
Los comandos como rastreo, etc. deben usarse dentro del proyecto Scrapy. Llegará a saber qué comandos deben ejecutarse dentro del proyecto Scrapy en la próxima sección.
Scrapy contiene algunos comandos integrados que se pueden utilizar para su proyecto. Para ver la lista de comandos disponibles, use el siguiente comando:
scrapy -h
Cuando ejecute el siguiente comando, Scrapy mostrará la lista de comandos disponibles como se indica:
fetch - Obtiene la URL usando el descargador Scrapy.
runspider - Se utiliza para ejecutar spider autónomo sin crear un proyecto.
settings - Especifica el valor de configuración del proyecto.
shell - Es un módulo de scraping interactivo para la URL dada.
startproject - Crea un nuevo proyecto Scrapy.
version - Muestra la versión Scrapy.
view - Obtiene la URL mediante el descargador Scrapy y muestra el contenido en un navegador.
Puede tener algunos comandos relacionados con el proyecto como se enumeran:
crawl - Se utiliza para rastrear datos utilizando la araña.
check - Comprueba los elementos devueltos por el comando rastreado.
list - Muestra la lista de arañas disponibles presentes en el proyecto.
edit - Puedes editar las arañas usando el editor.
parse - Analiza la URL dada con la araña.
bench - Se utiliza para ejecutar una prueba comparativa rápida (Benchmark indica cuántas páginas puede rastrear Scrapy por minuto).
Comandos de proyecto personalizados
Puede crear un comando de proyecto personalizado con COMMANDS_MODULEen el proyecto Scrapy. Incluye una cadena vacía predeterminada en la configuración. Puede agregar el siguiente comando personalizado:
COMMANDS_MODULE = 'mycmd.commands'
Los comandos scrapy se pueden agregar usando la sección scrapy.commands en el archivo setup.py que se muestra a continuación:
from setuptools import setup, find_packages
setup(name = 'scrapy-module_demo',
entry_points = {
'scrapy.commands': [
'cmd_demo = my_module.commands:CmdDemo',
],
},
)
El código anterior agrega cmd_demo comando en el setup.py archivo.