http-headers - tag - php header robots no index
La solicitud HEAD recibe "403 prohibido" mientras que GET "200 ok"? (3)
Después de varios meses haciendo que el sitio desapareciera de los resultados de búsqueda en todos los buscadores principales, finalmente descubrí una posible razón.
Usé WebBug para investigar el encabezado del servidor. Vea la diferencia si la solicitud es HEAD o GET.
HEAD Datos enviados:
HEAD / HTTP/1.1
Host: www.attu.it
Connection: close
Accept: */*
User-Agent: WebBug/5.0
CABEZA Datos recibidos:
HTTP/1.1 403 Forbidden
Date: Tue, 10 Aug 2010 23:01:00 GMT
Server: Apache/2.2
Connection: close
Content-Type: text/html; charset=iso-8859-1
OBTENER datos enviados:
GET / HTTP/1.1
Host: www.attu.it
Connection: close
Accept: */*
User-Agent: WebBug/5.0
OBTENER datos recibidos:
HTTP/1.1 200 OK
Date: Tue, 10 Aug 2010 23:06:15 GMT
Server: Apache/2.2
Last-Modified: Fri, 08 Jan 2010 08:58:01 GMT
ETag: "671f91b-2d2-47ca362815840"
Accept-Ranges: bytes
Content-Length: 722
Connection: close
Content-Type: text/html
// HTML code here
Ahora, los navegadores por defecto envían una solicitud GET (al menos esto es lo que dice firebug). ¿Es posible que los rastreadores envíen una solicitud HEAD en su lugar? Si es así, ¿por qué solo este servidor responde con un 403, mientras que otros servidores de otros sitios que estoy manteniendo no lo hacen?
En caso de que sea importante, la única línea presente en .htaccess es (a menos que mi cliente lo haya cambiado, ya que no quieren darme acceso a su servidor)
AddType text/x-component .htc
ACTUALIZAR
Gracias @Ryk. FireBug y Fiddler ambos envían solicitudes GET, que obtienen 200 (o 300) respuestas. Como se esperaba. Así que supongo que es una configuración incorrecta del servidor (aunque es extraño, ya que el hosting es de una compañía importante con millones de clientes) o algo que pusieron en el .htaccess. Tendrán que dejarme revisar su cuenta.
La segunda parte de mi pregunta fue si esa podría ser la causa de que el sitio web no aparezca en ningún motor de búsqueda (el sitio: www.attu.it no da ningún resultado). ¿Cualquier pensamiento?
ACTUALIZACIÓN 2
Después de algunas manipulaciones, resultó que había robots phpMyAdmin que bloqueaban .htaccess en el directorio raíz, lo que causaba que cualquier pedido de robots se enviara de vuelta con un 403 Forbidden.
Algunos administradores escriben en el httpd.conf
<Límite PONTE ELIMINAR COPIA MOVER>
Orden denegar, permitir
Negar todo
Permitir desde 10.0
</ Limit>
<LimitExcept PUT DELETE COPY MOVE>
Orden denegar, permitir
Negar todo
</ LimitExcept>
Esto produce "Prohibido" a una solicitud HEAD. Deberías verificar esto.
Sugeriría instalar Fiddler y mirar cuidadosamente la solicitud. A veces he visto que un ícono en la página que está en una carpeta que requiere autenticación hace que se devuelva un 403.
Fiddler le dará una buena idea, y también puede probar Firefox e instalar el complemento FireBug e inspeccionar la página en busca de errores.
Al mirar el sitio recibo un montón de 404 para el favicon.ico, pero aparte de eso, cuando hago una simple solicitud GET obtengo un 200 OK, pero cuando hago un HEAD, también obtengo un 403. Mirándolo ahora .
ACTUALIZACIÓN: Creo que podría ser una configuración en el servidor Apache, pero no 100% seguro. http://hc.apache.org/httpclient-3.x/methods/head.html
ACTUALIZACIÓN2: Al leer este http://www.pubbs.net/200811/httpd/17210-usershttpd-how-to-reject-head-request.html me hace creer que su servidor Apache podría estar configurado para rechazar solicitudes HEAD. En ese caso, devolverá un 403.
Tenía este problema exacto porque estaba usando URL firmadas.
Cada URL firmada es válida solo para un método (por ejemplo, GET o HEAD). Si desea utilizar varios métodos, deberá tener varias URL.