Scrapy - Descripción general
Scrapy es un marco de rastreo web rápido y de código abierto escrito en Python, que se utiliza para extraer los datos de la página web con la ayuda de selectores basados en XPath.
Scrapy se lanzó por primera vez el 26 de junio de 2008 con licencia BSD, con un hito 1.0 lanzado en junio de 2015.
¿Por qué utilizar Scrapy?
Es más fácil construir y escalar grandes proyectos de rastreo.
Tiene un mecanismo incorporado llamado Selectores, para extraer los datos de los sitios web.
Maneja las solicitudes de forma asincrónica y es rápido.
Ajusta automáticamente la velocidad de arrastre mediante el mecanismo de aceleración automática .
Garantiza la accesibilidad del desarrollador.
Características de Scrapy
Scrapy es un marco de rastreo web de código abierto y gratuito.
Scrapy genera exportaciones de feeds en formatos como JSON, CSV y XML.
Scrapy tiene soporte incorporado para seleccionar y extraer datos de fuentes, ya sea mediante expresiones XPath o CSS.
Scrapy basado en crawler, permite extraer datos de las páginas web de forma automática.
Ventajas
Scrapy es fácilmente extensible, rápido y poderoso.
Es un marco de aplicaciones multiplataforma (Windows, Linux, Mac OS y BSD).
Las solicitudes scrapy se programan y procesan de forma asincrónica.
Scrapy viene con un servicio integrado llamado Scrapyd que permite cargar proyectos y controlar arañas usando el servicio web JSON.
Es posible eliminar cualquier sitio web, aunque ese sitio web no tiene API para el acceso a datos sin procesar.
Desventajas
Scrapy es solo para Python 2.7. +
La instalación es diferente para diferentes sistemas operativos.