Scrapy - Herramientas de línea de comandos

Descripción

La herramienta de línea de comandos de Scrapy se utiliza para controlar Scrapy, que a menudo se denomina 'Scrapy tool'. Incluye los comandos para varios objetos con un grupo de argumentos y opciones.

Ajustes de configuración

Scrapy encontrará los ajustes de configuración en el scrapy.cfgarchivo. A continuación se muestran algunas ubicaciones:

  • C: \ scrapy (carpeta del proyecto) \ scrapy.cfg en el sistema

  • ~ / .config / scrapy.cfg ($ XDG_CONFIG_HOME) y ~ / .scrapy.cfg ($ HOME) para configuraciones globales

  • Puede encontrar el archivo scrapy.cfg dentro de la raíz del proyecto.

Scrapy también se puede configurar utilizando las siguientes variables de entorno:

  • SCRAPY_SETTINGS_MODULE
  • SCRAPY_PROJECT
  • SCRAPY_PYTHON_SHELL

Proyecto Scrapy de estructura predeterminada

La siguiente estructura muestra la estructura de archivos predeterminada del proyecto Scrapy.

scrapy.cfg                - Deploy the configuration file
project_name/             - Name of the project
   _init_.py
   items.py               - It is project's items file
   pipelines.py           - It is project's pipelines file
   settings.py            - It is project's settings file
   spiders                - It is the spiders directory
      _init_.py
      spider_name.py
      . . .

los scrapy.cfgEl archivo es un directorio raíz del proyecto, que incluye el nombre del proyecto con la configuración del proyecto. Por ejemplo

[settings] 
default = [name of the project].settings  

[deploy] 
#url = http://localhost:6800/ 
project = [name of the project]

Usando la herramienta Scrapy

La herramienta Scrapy proporciona algunos comandos de uso y disponibles de la siguiente manera:

Scrapy X.Y  - no active project 
Usage: 
   scrapy  [options] [arguments] 
Available commands: 
   crawl      It puts spider (handle the URL) to work for crawling data 
   fetch      It fetches the response from the given URL

Crear un proyecto

Puede usar el siguiente comando para crear el proyecto en Scrapy:

scrapy startproject project_name

Esto creará el proyecto llamado project_namedirectorio. A continuación, vaya al proyecto recién creado, usando el siguiente comando:

cd  project_name

Control de proyectos

Puede controlar el proyecto y administrarlos usando la herramienta Scrapy y también crear la nueva araña, usando el siguiente comando:

scrapy genspider mydomain mydomain.com

Los comandos como rastreo, etc. deben usarse dentro del proyecto Scrapy. Llegará a saber qué comandos deben ejecutarse dentro del proyecto Scrapy en la próxima sección.

Scrapy contiene algunos comandos integrados que se pueden utilizar para su proyecto. Para ver la lista de comandos disponibles, use el siguiente comando:

scrapy -h

Cuando ejecute el siguiente comando, Scrapy mostrará la lista de comandos disponibles como se indica:

  • fetch - Obtiene la URL usando el descargador Scrapy.

  • runspider - Se utiliza para ejecutar spider autónomo sin crear un proyecto.

  • settings - Especifica el valor de configuración del proyecto.

  • shell - Es un módulo de scraping interactivo para la URL dada.

  • startproject - Crea un nuevo proyecto Scrapy.

  • version - Muestra la versión Scrapy.

  • view - Obtiene la URL mediante el descargador Scrapy y muestra el contenido en un navegador.

Puede tener algunos comandos relacionados con el proyecto como se enumeran:

  • crawl - Se utiliza para rastrear datos utilizando la araña.

  • check - Comprueba los elementos devueltos por el comando rastreado.

  • list - Muestra la lista de arañas disponibles presentes en el proyecto.

  • edit - Puedes editar las arañas usando el editor.

  • parse - Analiza la URL dada con la araña.

  • bench - Se utiliza para ejecutar una prueba comparativa rápida (Benchmark indica cuántas páginas puede rastrear Scrapy por minuto).

Comandos de proyecto personalizados

Puede crear un comando de proyecto personalizado con COMMANDS_MODULEen el proyecto Scrapy. Incluye una cadena vacía predeterminada en la configuración. Puede agregar el siguiente comando personalizado:

COMMANDS_MODULE = 'mycmd.commands'

Los comandos scrapy se pueden agregar usando la sección scrapy.commands en el archivo setup.py que se muestra a continuación:

from setuptools import setup, find_packages  

setup(name = 'scrapy-module_demo', 
   entry_points = { 
      'scrapy.commands': [ 
         'cmd_demo = my_module.commands:CmdDemo', 
      ], 
   }, 
)

El código anterior agrega cmd_demo comando en el setup.py archivo.