example español crawler python scrapy web-crawler

python - español - Cómo ser prohibido por robots.txt: scrapy



scrapy vs beautifulsoup (2)

Lo primero que debe asegurarse es que cambie su agente de usuario en la solicitud, de lo contrario, el agente de usuario predeterminado se bloqueará con seguridad.

al rastrear el sitio web como https://www.netflix.com/ , obtener prohibido por robots.txt: https://www.netflix.com/>

ERROR: no se ha descargado ninguna respuesta para: https://www.netflix.com/


En la nueva versión (scrapy 1.1) lanzada el 2016-05-11, el rastreo primero descarga robots.txt antes de rastrear. Para cambiar este comportamiento, cambie en su settings.py con ROBOTSTXT_OBEY

ROBOTSTXT_OBEY=False

Aquí están las notas de la versión