python - español - Cómo ser prohibido por robots.txt: scrapy

scrapy vs beautifulsoup (2)

Lo primero que debe asegurarse es que cambie su agente de usuario en la solicitud, de lo contrario, el agente de usuario predeterminado se bloqueará con seguridad.

al rastrear el sitio web como https://www.netflix.com/ , obtener prohibido por robots.txt: https://www.netflix.com/>

ERROR: no se ha descargado ninguna respuesta para: https://www.netflix.com/

En la nueva versión (scrapy 1.1) lanzada el 2016-05-11, el rastreo primero descarga robots.txt antes de rastrear. Para cambiar este comportamiento, cambie en su settings.py con ROBOTSTXT_OBEY

ROBOTSTXT_OBEY=False

Aquí están las notas de la versión