though - robots.txt wordpress

robots.txt para no permitir todas las páginas excepto una? ¿Anulan y en cascada? (4)

La forma más fácil de permitir el acceso a una sola página sería:

User-agent: * Allow: /under-construction Disallow: /

La especificación original de robots.txt dice que los rastreadores deben leer el archivo robots.txt de arriba a abajo y usar la primera regla coincidente. Si pones primero la Disallow permitir, muchos bots lo verán diciendo que no pueden rastrear nada. Al colocar Allow primero, aquellos que aplican las reglas de arriba a abajo verán que pueden acceder a esa página.

Las reglas de expresión son simples: la expresión Disallow: / permitir Disallow: / dice "no permitir nada que comience con una barra". Así que eso significa todo en el sitio.

Su Disallow: /* significa lo mismo para Googlebot y Bingbot, pero los robots que no admiten comodines pueden ver el /* y pensar que se refería a un literal * . Así que podrían asumir que estaba bien rastrear /*foo/bar.html .

Si solo desea rastrear http://example.com , pero nada más, puede intentar:

Allow: /$ Disallow: /

El $ significa "fin de cadena", al igual que en las expresiones regulares. Una vez más, eso funcionará para Google y Bing, pero no funcionará para otros rastreadores si no admiten comodines.

Quiero que una página de mi sitio sea rastreada y ninguna otra.

Además, si es diferente a la respuesta anterior, también me gustaría conocer la sintaxis para rechazar todo, excepto la raíz (índice) del sitio web.

# robots.txt for http://example.com/ User-agent: * Disallow: /style-guide Disallow: /splash Disallow: /etc Disallow: /etc Disallow: /etc Disallow: /etc Disallow: /etc

¿O puedo hacer esto?

# robots.txt for http://example.com/ User-agent: * Disallow: / Allow: /under-construction

También debo mencionar que se trata de una instalación de WordPress, por lo que "en construcción", por ejemplo, se establece en la página principal. Así que en ese caso actúa como el índice.

Creo que lo que necesito es tener http://example.com rastreado, pero no otras páginas.

# robots.txt for http://example.com/ User-agent: * Disallow: /*

¿Significaría esto no permitir nada después de la raíz?

Puedes usar esto a continuación, ambos funcionarán.

User-agent: * Allow: /$ Disallow: /

User-agent: * Allow: /index.php Disallow: /

el Permiso debe estar antes del rechazo porque el archivo se lee de arriba a abajo

No permitir: / dice "no permitir nada que comience con una barra". Así que eso significa todo en el sitio.

El $ significa "fin de cadena", como en las expresiones regulares. por lo que el resultado de Permitir: / $ es su página de inicio / índice

Si inicia sesión en las Herramientas para webmasters de Google, desde el panel de la izquierda vaya al rastreo y luego vaya a Fetch as Google. Aquí puedes probar cómo rastreará Google cada página.

En el caso de bloquear todo menos la página de inicio:

User-agent: * Allow: /$ Disallow: /

trabajará.

http://en.wikipedia.org/wiki/Robots.txt#Allow_directive

El orden solo es importante para los robots que siguen el estándar; En el caso de los bots de Google o Bing, el orden no es importante.