válida ver sitio site saber robando roban quien propietario programa para google estan esta error desconectarlo conectado como clave bloquearlo web web-scraping screen-scraping

web - site - ¿Cómo se averigua cómo se está robando mi sitio?



recaptcha error para el propietario del sitio la clave de sitio no es válida (2)

¿Cómo se averigua cómo se está robando mi sitio?

Tengo algunos puntos ...

  1. Ocupación del ancho de banda de la red, que causa problemas de rendimiento (coincide si se utiliza el proxy).
  2. Al consultar palabras clave en el motor de búsqueda, las nuevas referencias aparecen en otros recursos similares con el mismo contenido (coincide con el proxy utilizado).
  3. Múltiples solicitudes desde la misma IP.
  4. Alta tasa de solicitudes desde una sola IP. (por cierto: ¿Qué es una tasa normal?)
  5. Agente de usuario sin cabeza o extraño (coincide si se utiliza el proxy).
  6. Solicitud con intervalos predecibles (iguales) desde la misma IP.
  7. Ciertos archivos de soporte nunca se solicitan, ej. favicon.ico, varios archivos CSS y javascript (coincide si se usa proxy).
  8. La secuencia de solicitudes del cliente. Ex. acceso de cliente no páginas accesibles directamente (coincide si se utiliza proxy).

¿Agregarías más a esta lista?

¿Qué puntos podrían caber / coincidir si un raspador usa proxying?


También agregaría un análisis de cuándo se realizan las solicitudes de las mismas personas. Por ejemplo, si la misma dirección IP solicita los mismos datos a la misma hora todos los días, es probable que el proceso se realice de forma automatizada. Por lo tanto, es probable que sea raspado ...

Posible agregar el análisis de cuántas páginas ha afectado cada sesión de usuario. Por ejemplo, si un usuario en particular en un día determinado ha navegado por cada página de su sitio y considera que esto es inusual, entonces quizás sea otro indicador.

Se siente como si necesitaras una variedad de indicadores y necesitaras puntuarlos y combinar el puntaje para mostrar quién es el que más probabilidades tiene de raspar.


Como primera nota; considere si vale la pena proporcionar una API para bots para el futuro. Si otra empresa / etc. lo está rastreando, si es información que desea proporcionarles de todos modos, hace que su sitio web sea valioso para ellos. La creación de una API reduciría sustancialmente la carga de su servidor y le daría una claridad del 100% a las personas que lo rastreaban.

En segundo lugar, viniendo de la experiencia personal (creé rastreos web durante bastante tiempo), generalmente se puede saber de inmediato al rastrear qué navegador fue el que accedió a su sitio web. Si usan uno de los automatizados o uno de un lenguaje de desarrollo, será únicamente diferente de su usuario promedio. Sin mencionar el seguimiento del archivo de registro y la actualización de su .htaccess con su prohibición (si eso es lo que desea hacer).

Por lo general es diferente de eso, es bastante fácil de detectar. Apertura reiterada y muy consistente de páginas.

Consulte esta otra publicación para obtener más información sobre cómo puede tratar con ellos, también para algunas ideas sobre cómo identificarlos.

¿Cómo bloquear los malos robots no identificados que se arrastran en mi sitio web?