txt robots google example escribir ejemplo como checar user format web-crawler robots.txt agents

user - google - Robots.txt: ¿Cuál es el formato adecuado para un retraso de rastreo para múltiples agentes de usuario?



robots.txt sitemap (1)

A continuación se muestra un archivo robots.txt de ejemplo para Permitir varios agentes de usuario con múltiples retrasos de rastreo para cada agente de usuario. Los valores de retraso de rastreo son ilustrativos y serán diferentes en un archivo robots.txt real.

He buscado en toda la web las respuestas correctas pero no he podido encontrar ninguna. Hay demasiadas sugerencias mezcladas y no sé cuál es el método correcto / correcto.

Preguntas:

(1) ¿Puede cada agente de usuario tener su propio retraso de rastreo? (Supongo que sí)

(2) ¿Dónde coloca la línea de retardo de rastreo para cada agente de usuario, antes o después de la línea Permitir / Disolver?

(3) ¿Debe haber un espacio en blanco entre cada grupo de agente de usuario?

Referencias

http://www.seopt.com/2013/01/robots-text-file/

http://help.yandex.com/webmaster/?id=1113851#1113858

Básicamente, estoy buscando cómo debe verse el archivo robots.txt final usando los valores en el ejemplo a continuación.

Gracias por adelantado.

# Allow only major search spiders User-agent: Mediapartners-Google Disallow: Crawl-delay: 11 User-agent: Googlebot Disallow: Crawl-delay: 12 User-agent: Adsbot-Google Disallow: Crawl-delay: 13 User-agent: Googlebot-Image Disallow: Crawl-delay: 14 User-agent: Googlebot-Mobile Disallow: Crawl-delay: 15 User-agent: MSNBot Disallow: Crawl-delay: 16 User-agent: bingbot Disallow: Crawl-delay: 17 User-agent: Slurp Disallow: Crawl-delay: 18 User-agent: Yahoo! Slurp Disallow: Crawl-delay: 19 # Block all other spiders User-agent: * Disallow: / # Block Directories for all spiders User-agent: * Disallow: /ads/ Disallow: /cgi-bin/ Disallow: /scripts/

(4) Si deseo configurar todos los agentes de usuario para que tengan un retraso de rastreo de 10 segundos, ¿sería correcto lo siguiente?

# Allow only major search spiders User-agent: * Crawl-delay: 10 User-agent: Mediapartners-Google Disallow: User-agent: Googlebot Disallow: User-agent: Adsbot-Google Disallow: User-agent: Googlebot-Image Disallow: User-agent: Googlebot-Mobile Disallow: User-agent: MSNBot Disallow: User-agent: bingbot Disallow: User-agent: Slurp Disallow: User-agent: Yahoo! Slurp Disallow: # Block all other spiders User-agent: * Disallow: / # Block Directories for all spiders User-agent: * Disallow: /ads/ Disallow: /cgi-bin/ Disallow: /scripts/


(1) ¿Puede cada agente de usuario tener su propio retraso de rastreo?

Sí. Cada registro , iniciado por una o más líneas de User-agent , puede tener una línea de Crawl-delay de Crawl-delay . Tenga en cuenta que Crawl-delay no forma parte de la especificación original de robots.txt . Pero no es problema incluirlos para aquellos analizadores sintácticos que lo entienden, ya que la especificación define :

Los encabezados no reconocidos se ignoran.

Por lo tanto, los analizadores de robots.txt más antiguos simplemente ignorarán sus líneas de Crawl-delay .

(2) ¿Dónde coloca la línea de retardo de rastreo para cada agente de usuario, antes o después de la línea Permitir / Disolver?

No importa

(3) ¿Debe haber un espacio en blanco entre cada grupo de agente de usuario?

Sí. Los registros deben estar separados por una o más líneas nuevas. Ver la especificación original :

El archivo consta de uno o más registros separados por una o más líneas en blanco (terminadas por CR, CR / NL o NL).

(4) Si deseo configurar todos los agentes de usuario para que tengan un retraso de rastreo de 10 segundos, ¿sería correcto lo siguiente?

No. Los Bots buscan registros que coincidan con su agente de usuario. Solo si no encuentran un registro, usarán el User-agent: * record. Entonces, en su ejemplo, todos los bots listados (como Googlebot , MSNBot , Yahoo! Slurp etc.) no tendrán Crawl-delay .

También tenga en cuenta que no puede tener varios registros con User-agent: * :

Si el valor es ''*'', el registro describe la política de acceso predeterminada para cualquier robot que no haya coincidido con ninguno de los otros registros. No está permitido tener múltiples registros de este tipo en el archivo "/robots.txt".

Por lo tanto, los analizadores pueden buscar (si no coincide otro registro) para el primer registro con User-agent: * e ignorar los siguientes. Para su primer ejemplo, eso significa que las URL que comienzan con /ads/ , /cgi-bin/ y /scripts/ no están bloqueadas.

E incluso si solo tiene un registro con User-agent: * , ¡esas líneas de Disallow son solo para bots que no tienen otra coincidencia de registros! Como su comentario # Block Directories for all spiders sugieren, quiere que estas rutas de URL se bloqueen para todas las arañas, por lo que tendría que repetir las líneas Disallow permitir para cada registro.