web crawler - index - Robots.txt: permite solo grandes SE
robots.txt allow all (4)
¿Hay alguna forma de configurar el archivo robots.txt para que el sitio acepte visitas SOLAMENTE de Google, Yahoo! y MSN arañas?
¿Por qué?
Cualquier persona que haga algo malo (por ejemplo, reunir direcciones de correo electrónico para spam) simplemente ignorará robots.txt. Por lo tanto, solo va a bloquear motores de búsqueda legítimos, ya que el cumplimiento de robots.txt es voluntario.
Pero, si insistes en hacerlo de todos modos, para eso está la línea User-Agent:
en robots.txt.
User-agent: googlebot
Disallow:
User-agent: *
Disallow: /
Con líneas para todos los otros motores de búsqueda desde los que te gustaría tráfico, por supuesto. Robotstxt.org tiene una lista parcial.
Como todos saben, el archivo robots.txt es un estándar que debe ser obedecido por el rastreador y, por lo tanto, solo los agentes de buen comportamiento lo hacen. Así que, ponerlo o no, no importa.
Si tiene algunos datos que también no se muestran en el sitio, solo puede cambiar el permiso y mejorar la seguridad.
Hay más de 3 motores de búsqueda principales en función de qué país está hablando. Parece que Facebook está haciendo un buen trabajo con solo los legítimos: https://facebook.com/robots.txt
Así que tu archivo de texto puede ser algo así como:
User-agent: Applebot
Allow: /
User-agent: baiduspider
Allow: /
User-agent: Bingbot
Allow: /
User-agent: Facebot
Allow: /
User-agent: Googlebot
Allow: /
User-agent: msnbot
Allow: /
User-agent: Naverbot
Allow: /
User-agent: seznambot
Allow: /
User-agent: Slurp
Allow: /
User-agent: teoma
Allow: /
User-agent: Twitterbot
Allow: /
User-agent: Yandex
Allow: /
User-agent: Yeti
Allow: /
User-agent: *
Disallow: /
User-agent: * Disallow: / User-agent: Googlebot Allow: / User-agent: Slurp Allow: / User-Agent: msnbot Disallow:
Slurp es el robot de Yahoo.