web crawler - index - Robots.txt: permite solo grandes SE

robots.txt allow all (4)

¿Hay alguna forma de configurar el archivo robots.txt para que el sitio acepte visitas SOLAMENTE de Google, Yahoo! y MSN arañas?

¿Por qué?

Cualquier persona que haga algo malo (por ejemplo, reunir direcciones de correo electrónico para spam) simplemente ignorará robots.txt. Por lo tanto, solo va a bloquear motores de búsqueda legítimos, ya que el cumplimiento de robots.txt es voluntario.

Pero, si insistes en hacerlo de todos modos, para eso está la línea User-Agent: en robots.txt.

User-agent: googlebot Disallow: User-agent: * Disallow: /

Con líneas para todos los otros motores de búsqueda desde los que te gustaría tráfico, por supuesto. Robotstxt.org tiene una lista parcial.

Como todos saben, el archivo robots.txt es un estándar que debe ser obedecido por el rastreador y, por lo tanto, solo los agentes de buen comportamiento lo hacen. Así que, ponerlo o no, no importa.

Si tiene algunos datos que también no se muestran en el sitio, solo puede cambiar el permiso y mejorar la seguridad.

Hay más de 3 motores de búsqueda principales en función de qué país está hablando. Parece que Facebook está haciendo un buen trabajo con solo los legítimos: https://facebook.com/robots.txt

Así que tu archivo de texto puede ser algo así como:

User-agent: Applebot Allow: / User-agent: baiduspider Allow: / User-agent: Bingbot Allow: / User-agent: Facebot Allow: / User-agent: Googlebot Allow: / User-agent: msnbot Allow: / User-agent: Naverbot Allow: / User-agent: seznambot Allow: / User-agent: Slurp Allow: / User-agent: teoma Allow: / User-agent: Twitterbot Allow: / User-agent: Yandex Allow: / User-agent: Yeti Allow: / User-agent: * Disallow: /

User-agent: * Disallow: / User-agent: Googlebot Allow: / User-agent: Slurp Allow: / User-Agent: msnbot Disallow:

Slurp es el robot de Yahoo.