robots.txt

Ética de robots.txt



(10)

Tengo una pregunta seria. ¿Es ético ignorar la presencia de un archivo robots.txt en un sitio web? Estas son algunas de las consideraciones que tengo en mente:

  1. Si alguien instala un sitio web esperan algunas visitas. Por supuesto, los rastreadores web utilizan el ancho de banda sin hacer clic en los anuncios que pueden respaldar el sitio, pero el propietario del sitio está poniendo su sitio en la web, ¿es razonable que esperen que nunca sean visitados por un bot?

  2. Aparentemente, algunos sitios utilizan un archivo robots.txt exactamente para evitar que Google o alguna otra utilidad pueda rastrear su sitio y, por lo tanto, permita que las personas realicen comparaciones de precios fácilmente. Tienen motores de búsqueda privados en el sitio, por lo que obviamente quieren que las personas puedan buscar en el sitio; aparentemente, simplemente no quieren que las personas puedan comparar fácilmente su información con otros proveedores.

Como dije, no estoy tratando de ser argumentativo; ¿Me gustaría saber si alguien ha presentado alguna vez un caso en el que sea éticamente permisible ignorar la presencia de un archivo robots.txt? No puedo pensar en un caso en el que esté permitido ignorar el archivo robots.txt principalmente porque las personas (o empresas) están pagando dinero para instalar sus sitios web, por lo que deberían poder decirles a los Google / Yahoos / Otras SE del mundo que No quiero estar en sus índices.

Para poner esta discusión en contexto, me gustaría crear un sitio web de comparación de precios y uno de los principales proveedores tiene un archivo robots.txt que, básicamente, evita que cualquiera pueda obtener sus precios. Me gustaría poder obtener su información pero, como dije, no puedo justificar simplemente ignorando los deseos del propietario del sitio.

He visto una discusión muy aguda aquí y es por eso que me gustaría escuchar las opiniones de los desarrolladores que siguen a Stack Overflow.

Por cierto, hay una discusión sobre este tema en una pregunta de Hacker News, pero parece que se centran principalmente en los aspectos legales de esto.


"No significa no".


Argumentos:

  1. Un archivo robots.txt es una licencia implícita, especialmente dado que usted es consciente de ello. Por lo tanto, seguir raspando su sitio podría verse como un acceso no autorizado (es decir, piratería). Apesta, pero argumentos como este se han presentado recientemente en otros casos legales (no relacionados directamente con robots.txt, sino en relación con otros "controles pasivos").
  2. La captura de precios no viola la ley de derechos de autor, incluida la ley DMCA, ya que los derechos de autor no incluyen información objetiva, solo la creatividad.
  3. Éticamente, no debe tomar los precios porque el proveedor debe tener la capacidad de cambiar los precios sin preocuparse por ser acusado de un cebo / cambio por parte de personas que vienen de su sitio.
  4. ¿Ha tomado el camino correcto, explicándoles el sitio y diciendo que le encantaría incluirlos en su lista de proveedores? Tal vez les encantará la idea y, de hecho, expondrán los datos de una manera que sea fácil de consumir y que consuman menos recursos.
  5. No hay leyes escritas directamente sobre robots.txt porque generalmente se sigue la etiqueta de la red. No seas uno de los "malos".
  6. Algunas personas filtran los robots porque usan enlaces de URL para realizar "acciones" como agregar cosas a los carros, y los robots les dejan con una gran cantidad de carros de la compra abandonados en su base de datos.
  7. Algunas personas filtran robots porque tienen precios exclusivos que no pueden anunciar abiertamente en base a acuerdos con sus proveedores. Podría estar colocándolos en una mala posición al exponer esos precios en su sitio.
  8. En esta economía, si una empresa no quiere hacer todo lo posible para publicitarse, es su culpa que no los incluya.

Estoy mostrando algo de ignorancia aquí, pero siempre pensé que un bot era algo que solo un motor de búsqueda enviaba. Como Google o Yahoo.

Por lo tanto, si escribiera una aplicación que buscara contenido en Internet, no consideraría un bot de motores de búsqueda, que, según mi conocimiento, es lo que está intentando bloquear el archivo robots.txt.

Pero esto puede ser simplemente una ignorancia selectiva, porque podría hacerlo hasta que el webmaster de ese sitio me contactara y me pidiera que parara :)


Muchas personas han tratado de construir negocios a partir de la construcción de motores de "comparación de precios" que rastrearon los sitios principales.

Una vez que comience a recibir cualquier tipo de tráfico / ingresos, recibirá un cese y desistirá . Le ha pasado a docenas, si no a cientos de proyectos. Incluso trabajé en un pequeño proyecto que recibió un C & D de Craigslist.

¿Sabes cómo dicen "es más fácil pedir perdón que obtener permiso"? No es cierto con raspado de página. Obtenga el permiso, o estará escuchando de sus abogados.

Si tienes suerte, será temprano, cuando no tienes nada que perder. Si es tarde, puede perder su negocio y todo su trabajo de la noche a la mañana, con una sola carta.

Obtener el permiso no debería ser difícil. A menos que esté haciendo algo furtivo, es probable que les genere tráfico adicional . Demonios, una vez que su producto despega, los sitios pueden rogarle o incluso pagarle para que agregue sus datos.


Para responder a la pregunta restringida, para el sitio web de comparación de precios, probablemente sea mejor tomar el precio en tiempo real, en lugar de desechar la base de datos por adelantado. Es difícil imaginar que sea un problema.


Respuesta corta: No.

Sobre el problema estrecho: si un vendedor dice que sus precios son secretos, creo que hay que respetar eso. Me pondría en contacto con ellos y les preguntaría si realmente no quieren que los motores de comparación de precios como los suyos los incluyan, o si el letrero de "no entrar ilegalmente" es por razones técnicas. Si es este último, tal vez te proporcionen una alternativa. Si lo primero, entonces diría que es muy malo, no se incluyen, pierden algunos negocios, y es su problema.

Extracto tangencial: Personalmente, me molestan bastante las empresas que me hacen saltar por los aro para averiguar el precio de sus productos, lugares que me hacen llamar y hablar con un vendedor para que pueda darme un argumento de venta dura, o peor, hazme darles mi número de teléfono para que su vendedor me pueda llamar y hostigar. Me imagino que si tienen miedo de decirme el precio, probablemente significa que es demasiado alto.

En general: un archivo robots.txt es como un signo de "No traspasar". Es el derecho del propietario decir quién está permitido en su propiedad. Si cree que sus razones son tontas, puede sugerir educadamente que retiren el letrero. Pero usted no tiene derecho a ignorar sus deseos. Si alguien pone un letrero de No Pasar en su jardín y yo digo: "Oye, solo quiero tomar un atajo rápido, ¿cuál es el problema?" - Tal vez esté pisando sus preciadas bombillas de violeta búlgaras y destruyendo una valiosa inversión. Tal vez estoy cruzando el cementerio sagrado de su gente y ofende sus sensibilidades religiosas. O tal vez es sólo un idiota molesto. Pero sigue siendo su propiedad y su derecho. Ah, y si caigo en el peligroso sumidero después de ignorar el letrero de No traspasar, ¿a quién culpar? (En Estados Unidos, es probable que aún pueda demandarlo por todo lo que vale, a pesar de que me lo advirtió, ¿pero es así?)


Si las personas lo ponen a disposición del público, no deberían intentar ponerle límites. Agregar un archivo robots.txt a su sitio equivale a poner un cartel en su jardín que dice "Por favor, no me mire".


Una razón por la que permitimos que los robots caven a través de la web sin quejarse es que tenemos una forma de detenerlos si queremos. Protege ambos lados.

¿Recuerdan el alboroto cuando los robots de Cuil fueron acusados ​​de exagerar, aparentemente actuando como un ataque DoS en algunos casos y usando el ancho de banda permitido de algunos sitios pequeños?

Si demasiada gente viola el archivo robots.txt, podríamos obtener algo peor.



El otro uso de robots.txt es ayudar a proteger a las arañas web de ellas mismas. Es relativamente fácil para una araña web atascarse en un bosque de enlaces infinitamente profundo, y un archivo robots.txt correctamente construido le dirá a la araña que "no es necesario que vaya aquí".