python - follow - Evitando la redirección
scrapy python documentation (2)
Estoy tratando de analizar un sitio (escrito en ASP) y el rastreador se redirige al sitio principal. Pero lo que me gustaría hacer es analizar la url dada, no la redirigida. ¿Hay alguna forma de hacer esto?. Intenté agregar "REDIRECT = False" al archivo settings.py sin éxito.
Aquí hay algunos resultados del rastreador:
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=500&id=500>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1513&id=1513>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=476&id=476>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=472&id=472>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=457&id=457>
2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1097&id=1097>
La URL original no tiene nada que raspar. Devolvió 302, lo que significa que no hay ningún cuerpo, y el encabezado de ubicación indica a dónde redirigir. Debe averiguar cómo acceder a la URL sin ser redireccionado, tal vez mediante la autenticación.
http://www.cotodigital.com.ar/l.asp?cat=1097&id=1097
redirige a http://www.cotodigital.com.ar/default.asp
porque la respuesta HTTP dice que sí. Esto sucede porque el código asp está buscando alguna condición: una página incorrecta, cookies, agente de usuario o referencia. Verifique las condiciones mencionadas.
ACTUALIZACIÓN: Acabo de verificar en mi navegador: el navegador también se redirige a la página principal, donde hago clic en "Omitir anuncios". Después de eso, funciona bien.
Esto significa que establece algunas cookies, sin las cuales redirige a la página principal.
Ver también Scrapy - cómo administrar cookies / sesiones