txt tag sirve robots que para name index google follow content all http-headers get bots head

http-headers - tag - php header robots no index



La solicitud HEAD recibe "403 prohibido" mientras que GET "200 ok"? (3)

Después de varios meses haciendo que el sitio desapareciera de los resultados de búsqueda en todos los buscadores principales, finalmente descubrí una posible razón.

Usé WebBug para investigar el encabezado del servidor. Vea la diferencia si la solicitud es HEAD o GET.

HEAD Datos enviados:

HEAD / HTTP/1.1 Host: www.attu.it Connection: close Accept: */* User-Agent: WebBug/5.0

CABEZA Datos recibidos:

HTTP/1.1 403 Forbidden Date: Tue, 10 Aug 2010 23:01:00 GMT Server: Apache/2.2 Connection: close Content-Type: text/html; charset=iso-8859-1

OBTENER datos enviados:

GET / HTTP/1.1 Host: www.attu.it Connection: close Accept: */* User-Agent: WebBug/5.0

OBTENER datos recibidos:

HTTP/1.1 200 OK Date: Tue, 10 Aug 2010 23:06:15 GMT Server: Apache/2.2 Last-Modified: Fri, 08 Jan 2010 08:58:01 GMT ETag: "671f91b-2d2-47ca362815840" Accept-Ranges: bytes Content-Length: 722 Connection: close Content-Type: text/html // HTML code here

Ahora, los navegadores por defecto envían una solicitud GET (al menos esto es lo que dice firebug). ¿Es posible que los rastreadores envíen una solicitud HEAD en su lugar? Si es así, ¿por qué solo este servidor responde con un 403, mientras que otros servidores de otros sitios que estoy manteniendo no lo hacen?

En caso de que sea importante, la única línea presente en .htaccess es (a menos que mi cliente lo haya cambiado, ya que no quieren darme acceso a su servidor)

AddType text/x-component .htc

ACTUALIZAR
Gracias @Ryk. FireBug y Fiddler ambos envían solicitudes GET, que obtienen 200 (o 300) respuestas. Como se esperaba. Así que supongo que es una configuración incorrecta del servidor (aunque es extraño, ya que el hosting es de una compañía importante con millones de clientes) o algo que pusieron en el .htaccess. Tendrán que dejarme revisar su cuenta.

La segunda parte de mi pregunta fue si esa podría ser la causa de que el sitio web no aparezca en ningún motor de búsqueda (el sitio: www.attu.it no da ningún resultado). ¿Cualquier pensamiento?

ACTUALIZACIÓN 2
Después de algunas manipulaciones, resultó que había robots phpMyAdmin que bloqueaban .htaccess en el directorio raíz, lo que causaba que cualquier pedido de robots se enviara de vuelta con un 403 Forbidden.


Algunos administradores escriben en el httpd.conf

<Límite PONTE ELIMINAR COPIA MOVER>
Orden denegar, permitir
Negar todo
Permitir desde 10.0
</ Limit>

<LimitExcept PUT DELETE COPY MOVE>
Orden denegar, permitir
Negar todo
</ LimitExcept>

Esto produce "Prohibido" a una solicitud HEAD. Deberías verificar esto.


Sugeriría instalar Fiddler y mirar cuidadosamente la solicitud. A veces he visto que un ícono en la página que está en una carpeta que requiere autenticación hace que se devuelva un 403.

Fiddler le dará una buena idea, y también puede probar Firefox e instalar el complemento FireBug e inspeccionar la página en busca de errores.

Al mirar el sitio recibo un montón de 404 para el favicon.ico, pero aparte de eso, cuando hago una simple solicitud GET obtengo un 200 OK, pero cuando hago un HEAD, también obtengo un 403. Mirándolo ahora .

ACTUALIZACIÓN: Creo que podría ser una configuración en el servidor Apache, pero no 100% seguro. http://hc.apache.org/httpclient-3.x/methods/head.html

ACTUALIZACIÓN2: Al leer este http://www.pubbs.net/200811/httpd/17210-usershttpd-how-to-reject-head-request.html me hace creer que su servidor Apache podría estar configurado para rechazar solicitudes HEAD. En ese caso, devolverá un 403.


Tenía este problema exacto porque estaba usando URL firmadas.

Cada URL firmada es válida solo para un método (por ejemplo, GET o HEAD). Si desea utilizar varios métodos, deberá tener varias URL.