sheets script scraping importxml google from data web-scraping google-spreadsheet google-docs

web-scraping - script - scraping google sheets



Bloquear el raspado de sitios web por parte de Google Docs (2)

Bloquear el User-Agent es una gran solución porque no parece haber una manera de configurar un User-Agent diferente y seguir usando la función INPUTHTML, y dado que está contento de prohibir "todo" el uso de hojas de documentación, eso es Perfecto.

Pensamientos adicionales, aunque si está lleno en la prohibición parece desagradable:

  1. Límite de tasa: como dices que reconoces que proviene principalmente de dos IP y siempre con el mismo agente de usuario, solo reduce la velocidad de tu respuesta. Siempre que las solicitudes sean en serie, puede proporcionar datos, aunque con un pase que puede ser suficiente para desalentar el raspado. Retrasar su respuesta (a raspadores sospechosos) en 20 o 30 segundos.

  2. Redirigir a la pantalla "Estás bloqueado", o pantalla con datos "predeterminados" (es decir, arrastrable, pero no con los datos actuales). Mejor que el 403 básico porque le dirá a los humanos que no es para raspar y luego puede dirigirlos al acceso de compra (o al menos pedirle una clave).

Dirijo un sitio web que proporciona varios datos en formato de tabla / tabla para que las personas los lean. Recientemente, noté un aumento en las solicitudes al sitio web que se originan en Google Docs. En cuanto a los IP y el agente de usuario, parece que se origina en los servidores de Google, por ejemplo, la búsqueda de IP aquí .

El número de visitas se encuentra en la región de 2,500 a 10,000 solicitudes por día.

Supongo que alguien ha creado una o más Hojas de cálculo de Google que eliminan datos de mi sitio web (posiblemente usando la función IMPORTHTML o similar). Preferiría que esto no sucediera (ya que no puedo saber si los datos se están atribuyendo correctamente).

¿Hay alguna forma preferida de bloquear este tráfico que Google admite / aprueba?

Preferiría no bloquear en función de las direcciones IP, ya que bloquear los servidores de Google parece estar mal y puede provocar problemas en el futuro o las direcciones IP podrían cambiar. En este momento, estoy bloqueando (devolviendo el estado 403) en función del agente de usuario que contiene GoogleDocs o docs.google.com .

El tráfico proviene principalmente de 66.249.89.221 y 66.249.89.223 en la actualidad, siempre con el agente de usuario Mozilla/5.0 (compatible; GoogleDocs; apps-spreadsheets; http://docs.google.com)

Como una pregunta secundaria: ¿hay alguna manera de rastrear el documento o el propietario de su cuenta? Tengo acceso a las URL a las que están accediendo, pero poco más para continuar ya que las solicitudes parecen ser proxy a través de los servidores de Google Docs (no hay Referees, cookies u otros datos similares en los registros HTTP).

Gracias.


Puede forzar el problema configurando una cookie en el primer intento y envíe una respuesta solo si la cookie está presente. De esta forma, cualquier importación "simple" no funcionará, ya que en la primera solicitud la cookie no está allí, por lo que no será nada para que la lea un tercero.