Scrapy - Descripción general

Scrapy es un marco de rastreo web rápido y de código abierto escrito en Python, que se utiliza para extraer los datos de la página web con la ayuda de selectores basados ​​en XPath.

Scrapy se lanzó por primera vez el 26 de junio de 2008 con licencia BSD, con un hito 1.0 lanzado en junio de 2015.

¿Por qué utilizar Scrapy?

  • Es más fácil construir y escalar grandes proyectos de rastreo.

  • Tiene un mecanismo incorporado llamado Selectores, para extraer los datos de los sitios web.

  • Maneja las solicitudes de forma asincrónica y es rápido.

  • Ajusta automáticamente la velocidad de arrastre mediante el mecanismo de aceleración automática .

  • Garantiza la accesibilidad del desarrollador.

Características de Scrapy

  • Scrapy es un marco de rastreo web de código abierto y gratuito.

  • Scrapy genera exportaciones de feeds en formatos como JSON, CSV y XML.

  • Scrapy tiene soporte incorporado para seleccionar y extraer datos de fuentes, ya sea mediante expresiones XPath o CSS.

  • Scrapy basado en crawler, permite extraer datos de las páginas web de forma automática.

Ventajas

  • Scrapy es fácilmente extensible, rápido y poderoso.

  • Es un marco de aplicaciones multiplataforma (Windows, Linux, Mac OS y BSD).

  • Las solicitudes scrapy se programan y procesan de forma asincrónica.

  • Scrapy viene con un servicio integrado llamado Scrapyd que permite cargar proyectos y controlar arañas usando el servicio web JSON.

  • Es posible eliminar cualquier sitio web, aunque ese sitio web no tiene API para el acceso a datos sin procesar.

Desventajas

  • Scrapy es solo para Python 2.7. +

  • La instalación es diferente para diferentes sistemas operativos.