python proxy scrapy tor

python - Proxy IP para el marco de Scrapy



tor (2)

Estas son las opciones que estoy usando actualmente (según mis necesidades):

  • proxymesh.com - precios razonables para proyectos más pequeños. Nunca tuve problemas con el servicio, ya que funciona de forma automática con scrapy (no estoy afiliado a ellos)
  • un script autoconstruido que inicia varias microinstancias EC2 en Amazon. Luego SSH en las máquinas y creo una conexión de proxy SOCKS, esas conexiones se canalizan a través de delegados para crear proxies http normales que se pueden usar con scrapy. Los proxies http pueden cargarse con algo similar a haproxy o construir un middleware personalizado que rote los proxies

La última solución es la que actualmente funciona mejor para mí y empuja alrededor de 20-30 GB por día de tráfico sin ningún problema.

Estoy desarrollando un proyecto de rastreo web usando el framework Python y Scrapy . Recorre las páginas web de Approak 10k de los sitios web de compras de comercio electrónico. todo el proyecto está funcionando bien, pero antes de pasar el código del servidor de prueba al servidor de producción, quiero elegir un mejor servicio de proxy IP, de modo que no tenga que preocuparme por mi bloqueo de IP o el acceso denegado a mis arañas.

Hasta ahora estoy usando middleware en Scrapy para rotar manualmente la ip de la lista de proxy ip disponible de varios sitios web como este

Ahora estoy confundido acerca de las opciones que debo elegir

  1. Compre la lista de proxy premium de http://www.ninjasproxy.com/ o http://hidemyass.com/

  2. Usar TOR

  3. Use el servicio VPN como http://www.hotspotshield.com/

  4. Cualquier opción mejor que las tres anteriores


Crawlera está diseñado específicamente para proyectos de rastreo web. Por ejemplo, implementa algoritmos inteligentes para evitar ser prohibido y se usa para rastrear sitios web muy grandes y de alto perfil.

Descargo de responsabilidad: trabajo para la compañía madre Scrapinghub , quienes también son desarrolladores principales de Scrapy.