urljoin follow example python scrapy

python - follow - Evitando la redirección



scrapy python documentation (2)

Estoy tratando de analizar un sitio (escrito en ASP) y el rastreador se redirige al sitio principal. Pero lo que me gustaría hacer es analizar la url dada, no la redirigida. ¿Hay alguna forma de hacer esto?. Intenté agregar "REDIRECT = False" al archivo settings.py sin éxito.

Aquí hay algunos resultados del rastreador:

2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=500&id=500> 2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1513&id=1513> 2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=476&id=476> 2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=472&id=472> 2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=457&id=457> 2011-09-24 20:01:11-0300 [coto] DEBUG: Redirecting (302) to <GET http://www.cotodigital.com.ar/default.asp> from <GET http://www.cotodigital.com.ar/l.asp?cat=1097&id=1097>


La URL original no tiene nada que raspar. Devolvió 302, lo que significa que no hay ningún cuerpo, y el encabezado de ubicación indica a dónde redirigir. Debe averiguar cómo acceder a la URL sin ser redireccionado, tal vez mediante la autenticación.


http://www.cotodigital.com.ar/l.asp?cat=1097&id=1097 redirige a http://www.cotodigital.com.ar/default.asp porque la respuesta HTTP dice que sí. Esto sucede porque el código asp está buscando alguna condición: una página incorrecta, cookies, agente de usuario o referencia. Verifique las condiciones mencionadas.

ACTUALIZACIÓN: Acabo de verificar en mi navegador: el navegador también se redirige a la página principal, donde hago clic en "Omitir anuncios". Después de eso, funciona bien.

Esto significa que establece algunas cookies, sin las cuales redirige a la página principal.

Ver también Scrapy - cómo administrar cookies / sesiones