web crawler - ¿Cómo evito que Bing se sumerja en mi sitio con tráfico irregular?
web-crawler robots.txt (3)
Puede limitar el número de conexiones desde el rastreador a fi 5 configurando IPTables de esta manera (requiere acceso de root al firewall):
la configuración de IPTables: iptables -I INPUT -p tcp -m connlimit --connlimit-above 5 -j RECHAZAR
Esto limita las conexiones de cada dirección IP a no más de 5 conexiones simultáneas. Este tipo de conexiones de "raciones" evita que los rastreadores lleguen al sitio simultáneamente.
Bingbot llegará a mi sitio bastante duro durante un par de horas cada día y será extremadamente liviano durante el resto del tiempo.
Me gustaría suavizar sus rastreos, reducir su límite de frecuencia o bloquearlo por completo. Realmente no se envía a través de ningún visitante real.
¿Hay alguna manera en que pueda suavizar su rastreo, o limitarlo por velocidad?
Puedes prohibir su IP usando HTACCESS.
order allow,deny
deny from 192.168.44.201
deny from 224.39.163.12
deny from 172.16.7.92
allow from all
Más sobre eso que puedes encontrar aquí: Blog sobre bloqueo de bot
Su blog de webmasters dice que admiten agregar un parámetro de retardo de rastreo a su archivo robots.txt para estrangular al bingbot.
User-agent: msnbot
Crawl-delay: 1
Hay un poco más de explicación en el webmaster. Preguntas frecuentes en PDF
Estos otros enlaces pueden ser útiles también:
http://www.bing.com/toolbox/webmasters
http://www.bing.com/community/webmaster/f/12252/t/651373.aspx