robots.txt - robots - user agent*allow

robots.txt solo permite root, no permite todo lo demás? (2)

Cuando miras las especificaciones de google robots.txt, puedes ver que:

Google, Bing, Yahoo y Ask admiten una forma limitada de "comodines" para los valores de ruta. Estos son:

* designa 0 o más instancias de cualquier carácter válido
$ designa el final de la URL

consulte https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt?hl=en#example-path-matches

Entonces, como dijo eywu, la solución es

user-agent: * Allow: /$ Disallow: /

Parece que no puedo hacer que esto funcione, pero parece muy básico.

Quiero que la raíz del dominio sea rastreada

http://www.example.com

Pero nada más que rastrear y todos los subdirectorios son dinámicos

http://www.example.com/*

Lo intenté

User-agent: * Allow: / Disallow: /*/

pero la herramienta de prueba de webmaster de Google dice que todos los subdirectorios están permitidos.

¿Alguien tiene una solución para esto? Gracias :)

De acuerdo con las definiciones de análisis de Backus-Naur Form (BNF) en la documentación de robots.txt de Google , el orden de las directivas Allow y Disallow Allow no importa. Así que cambiar el orden realmente no te ayudará.

En su lugar, debe usar el operador $ para indicar el cierre de su ruta.

Prueba este robots.txt. Estoy seguro de que debería funcionar para usted (también he verificado en GWT):

user-agent: * Allow: /$ Disallow: /

Esto permitirá que http://www.example.com y http://www.example.com/ se rastreen, pero todo lo demás se bloquea.

nota: que la directiva Allow satisface su caso de uso particular, pero si tiene index.html o default.php , estas URL no serán rastreadas.

nota al margen: solo estoy muy familiarizado con los comportamientos de Googlebot y bingbot. Si hay otros motores a los que apunta, pueden tener o no reglas específicas sobre cómo se enumeran las directivas. Por lo tanto, si desea estar "seguro", siempre puede intercambiar las posiciones de los bloques de directivas Allow y Disallow Allow , simplemente las configuro de esa forma para desacreditar algunos de los comentarios.