robots.txt - robots - user agent*allow
robots.txt solo permite root, no permite todo lo demás? (2)
Cuando miras las especificaciones de google robots.txt, puedes ver que:
Google, Bing, Yahoo y Ask admiten una forma limitada de "comodines" para los valores de ruta. Estos son:
- * designa 0 o más instancias de cualquier carácter válido
- $ designa el final de la URL
Entonces, como dijo eywu, la solución es
user-agent: *
Allow: /$
Disallow: /
Parece que no puedo hacer que esto funcione, pero parece muy básico.
Quiero que la raíz del dominio sea rastreada
http://www.example.com
Pero nada más que rastrear y todos los subdirectorios son dinámicos
http://www.example.com/*
Lo intenté
User-agent: *
Allow: /
Disallow: /*/
pero la herramienta de prueba de webmaster de Google dice que todos los subdirectorios están permitidos.
¿Alguien tiene una solución para esto? Gracias :)
De acuerdo con las definiciones de análisis de Backus-Naur Form (BNF) en la documentación de robots.txt de Google , el orden de las directivas Allow
y Disallow
Allow
no importa. Así que cambiar el orden realmente no te ayudará.
En su lugar, debe usar el operador $
para indicar el cierre de su ruta.
Prueba este robots.txt. Estoy seguro de que debería funcionar para usted (también he verificado en GWT):
user-agent: *
Allow: /$
Disallow: /
Esto permitirá que http://www.example.com
y http://www.example.com/
se rastreen, pero todo lo demás se bloquea.
nota: que la directiva Allow
satisface su caso de uso particular, pero si tiene index.html
o default.php
, estas URL no serán rastreadas.
nota al margen: solo estoy muy familiarizado con los comportamientos de Googlebot y bingbot. Si hay otros motores a los que apunta, pueden tener o no reglas específicas sobre cómo se enumeran las directivas. Por lo tanto, si desea estar "seguro", siempre puede intercambiar las posiciones de los bloques de directivas Allow
y Disallow
Allow
, simplemente las configuro de esa forma para desacreditar algunos de los comentarios.