personalizado - ¿Cómo configurar robots.txt para permitir todo?

robots.txt google (4)

Mi robots.txt en Herramientas para webmasters de Google muestra los siguientes valores:

User-agent: * Allow: /

Qué significa eso? No tengo suficiente conocimiento al respecto, así que busco tu ayuda. Quiero permitir que todos los robots rastreen mi sitio web, ¿es esta la configuración correcta?

Entiendo que esta es una pregunta bastante antigua y tiene algunas respuestas bastante buenas. Pero, aquí está mi granito de arena para completar.

Según la robotstxt.org/robotstxt.html oficial, hay cuatro formas, puede permitir el acceso completo para que los robots accedan a su sitio.

Limpio:

Especifique una coincidencia global con un segmento de rechazo tal como lo menciona @unor. Entonces tu / /robot.txt ve así.

User-agent: * Disallow:

El truco:

Crea un archivo / /robot.txt sin contenido. Que por defecto permitirá todo para todo tipo de Bots .

No me importa mucho

No /robot.txt un / /robot.txt completo. Que debería producir exactamente los mismos resultados que los dos anteriores.

El feo :

De la documentación de los robots para metaetiquetas , puede usar la siguiente metaetiqueta en todas sus páginas en su sitio para que los Bots sepan que no se supone que estas páginas estén indexadas.

<META NAME="ROBOTS" CONTENT="NOINDEX">

Para que esto se aplique a todo su sitio, deberá agregar esta metaetiqueta para todas sus páginas. Y esta etiqueta debe colocarse estrictamente debajo de su etiqueta HEAD de la página. Más sobre esta metaetiqueta here .

Ese archivo permitirá el acceso de todos los rastreadores

User-agent: * Allow: /

Esto básicamente permite a todos los agentes de usuario (el *) a todas las partes del sitio (el /).

Si desea permitir que cada bot rastree todo, esta es la mejor manera de especificarlo en su archivo robots.txt:

User-agent: * Disallow:

Tenga en cuenta que el campo Disallow tiene un valor vacío, lo que significa que de acuerdo con la especificación :

Cualquier valor vacío, indica que todas las URL se pueden recuperar.

Tu camino (con Allow: / lugar de Disallow: Allow: / Disallow: también funciona, pero Allow no es parte de la especificación original de robots.txt , por lo que no es compatible con todos los bots (aunque muchos populares lo admiten, como el robot de Google ). Dicho esto, los campos no reconocidos deben ignorarse, y para los bots que no reconocen Allow , el resultado sería el mismo en este caso de todos modos: si no está prohibido rastrear nada (con Disallow permitir), todo se puede rastrear.
Sin embargo, formalmente (según la especificación original) es un registro no válido, porque se requiere al menos un campo Disallow :

Al menos un campo No permitir debe estar presente en un registro.

Significa que permite que cada ( * ) usuario-agente / rastreador acceda a la raíz ( / ) de su sitio. Estas bien.