though - robots.txt wordpress
robots.txt para no permitir todas las páginas excepto una? ¿Anulan y en cascada? (4)
La forma más fácil de permitir el acceso a una sola página sería:
User-agent: *
Allow: /under-construction
Disallow: /
La especificación original de robots.txt dice que los rastreadores deben leer el archivo robots.txt de arriba a abajo y usar la primera regla coincidente. Si pones primero la Disallow
permitir, muchos bots lo verán diciendo que no pueden rastrear nada. Al colocar Allow
primero, aquellos que aplican las reglas de arriba a abajo verán que pueden acceder a esa página.
Las reglas de expresión son simples: la expresión Disallow: /
permitir Disallow: /
dice "no permitir nada que comience con una barra". Así que eso significa todo en el sitio.
Su Disallow: /*
significa lo mismo para Googlebot y Bingbot, pero los robots que no admiten comodines pueden ver el /*
y pensar que se refería a un literal *
. Así que podrían asumir que estaba bien rastrear /*foo/bar.html
.
Si solo desea rastrear http://example.com
, pero nada más, puede intentar:
Allow: /$
Disallow: /
El $
significa "fin de cadena", al igual que en las expresiones regulares. Una vez más, eso funcionará para Google y Bing, pero no funcionará para otros rastreadores si no admiten comodines.
Quiero que una página de mi sitio sea rastreada y ninguna otra.
Además, si es diferente a la respuesta anterior, también me gustaría conocer la sintaxis para rechazar todo, excepto la raíz (índice) del sitio web.
# robots.txt for http://example.com/
User-agent: *
Disallow: /style-guide
Disallow: /splash
Disallow: /etc
Disallow: /etc
Disallow: /etc
Disallow: /etc
Disallow: /etc
¿O puedo hacer esto?
# robots.txt for http://example.com/
User-agent: *
Disallow: /
Allow: /under-construction
También debo mencionar que se trata de una instalación de WordPress, por lo que "en construcción", por ejemplo, se establece en la página principal. Así que en ese caso actúa como el índice.
Creo que lo que necesito es tener http://example.com
rastreado, pero no otras páginas.
# robots.txt for http://example.com/
User-agent: *
Disallow: /*
¿Significaría esto no permitir nada después de la raíz?
Puedes usar esto a continuación, ambos funcionarán.
User-agent: *
Allow: /$
Disallow: /
o
User-agent: *
Allow: /index.php
Disallow: /
el Permiso debe estar antes del rechazo porque el archivo se lee de arriba a abajo
No permitir: / dice "no permitir nada que comience con una barra". Así que eso significa todo en el sitio.
El $ significa "fin de cadena", como en las expresiones regulares. por lo que el resultado de Permitir: / $ es su página de inicio / índice
Si inicia sesión en las Herramientas para webmasters de Google, desde el panel de la izquierda vaya al rastreo y luego vaya a Fetch as Google. Aquí puedes probar cómo rastreará Google cada página.
En el caso de bloquear todo menos la página de inicio:
User-agent: *
Allow: /$
Disallow: /
trabajará.
http://en.wikipedia.org/wiki/Robots.txt#Allow_directive
El orden solo es importante para los robots que siguen el estándar; En el caso de los bots de Google o Bing, el orden no es importante.