source scraping open library example espaƱol crawler python web-scraping scrapy web-crawler

python - scraping - No se puede acceder a request.response.meta[''redirect_urls''] desde el script de Scrapy



web scraping open source (0)

No puedo acceder a request.response.meta[''redirect_urls''] desde mi script de Scrapy, pero no tengo problemas para acceder a esta información para la misma página web en el shell de Scrapy. Cuando imprimo las claves de request.response.meta solo veo download_timeout, depth, download_latency, download_slot

Me pregunto si esto tiene que ver con una de las configuraciones que he modificado en mi script de Scrapy que contiene lo siguiente:

settings.set(''DEPTH_LIMIT'', 4) settings.set(''DOWNLOAD_DELAY'', 1) settings.set(''USER_AGENT'', ''Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko)'') settings.set(''SPLASH_URL'', ''http://192.168.59.103:8050'') settings.set(''DOWNLOADER_MIDDLEWARES'', {''scrapyjs.SplashMiddleware'': 725}) settings.set(''DUPEFILTER_CLASS'', ''scrapyjs.SplashAwareDupeFilter'') settings.set(''HTTPCACHE_STORAGE'', ''scrapyjs.SplashAwareFSCacheStorage'')

Sé que la redirección también es manejada por middlewares, ¿es esto un problema porque estoy usando SplashMiddleware y es posible usar ambos? Sé que la redirección está sucediendo al mirar response.url

Muchas gracias