.htaccess - ¿Cómo bloquear referencias de spam como darodar.com para acceder al sitio web?
google-analytics referrer-spam (14)
Tengo varios sitios web que reciben diariamente alrededor del 5% de las visitas de los remitentes de spam. Hay algunas cosas extrañas que noté acerca de estos referentes: se muestran en Google Analytics, pero no puedo verlos en mi tabla de diseño personalizado donde inserto a todos los visitantes del sitio, por lo que creo que solo manipulan el código de GA, nunca alcanzan El sitio en sí.
Si sigue su enlace, lo redirigen a un enlace de algunos afiliados.
No sé si tienen impacto en mi SEO / SERP, pero me gustaría deshacerme de ellos.
¿Puedo hacer eso a través del archivo
htaccess
?
Un aspecto peculiar es que recibo visitantes de diferentes foros, como páginas.
Por ejemplo:
forum.topic221122.darodar.com
,
forum.topic221122.darodar.com
, etc., por lo que me gustaría bloquear el dominio completo de
darodar.com
.
Además de
darodar.com
, también hay
econom.co
y
iloveitaly.co
que están molestando mis estadísticas.
¿Puedo bloquearlos a todos desde
htaccess
?
.htaccess no es la mejor manera. En mi sitio uso GA, la información de seguimiento de opciones y luego la lista de exclusión de referencias.
¡Saludos!
Creo que la forma más efectiva de evitar el spam fantasma es agregar una dimensión personalizada que le permita saber que el sitio realmente fue visitado, porque como sabemos nunca visitan el sitio.
ga(''set'', ''dimension1'', "Hey I''m really here!!");
ga(''send'', ''pageview'');
Simplemente debe agregar estas líneas en sus páginas y luego agregar un filtro para "incluir" solo cuando la dimensión tenga el valor esperado ("¡Hola, estoy realmente aquí!") En este caso
De acuerdo con
esta entrada
, nunca están visitando su sitio, están falsificando una solicitud HTTP a GA utilizando su código UA.
Por lo tanto, parece que no tiene sentido bloquearlos usando
.htaccess
o cualquier otro método, ya que nunca ingresan a su sitio, solo están enviando datos falsos de "visita" a Google.
El bloqueo de cualquier bot en el nivel de su servidor web no tiene sentido: los spammers envían solicitudes falsas al servidor web de Google Analytics. Todo lo que tienen que saber es el nombre de dominio del sitio web y el ID de Google Analytics vinculado a él. Por lo tanto, debe ocultar su ID de Google Analytics en el código del sitio web. Por ejemplo, puede hacer esto en el código JS de Google Analytics:
ga(''create'', ''UA-X'' + ''XXXXX'' + ''XX-X'', ''auto'');
El bot de Spammer debería poder ejecutar el código JS para analizar su ID de Google Analytics después de este cambio (y no muchos bots podrán hacerlo).
https://nobodyonsecurity.com/security/fighting-google-analytics-referrer-spam
Esta publicación de blog sugiere que los referentes de spam manipulan Google Analytics y nunca visitan su sitio, por lo que bloquearlos no tiene sentido. Google Analytics ofrece filtering si desea mitigar visitas falsas a sitios.
Filtre el correo no deseado futuro e histórico de todo tipo con el enlace proporcionado. El filtrado de nombres de host es particularmente fácil.
https://www.ohow.co/ultimate-guide-to-removing-irrelevant-traffic-in-google-analytics/
Hemos encontrado que usar htaccess es una buena manera de detener estos spam. He implementado la siguiente solución en el sitio de mis clientes, que hasta ahora funciona muy bien. La mejor manera es detenerlos por cláusula contiene, por ejemplo, spam priceg.com verifique priceg en la URL de referencia.
Debido a que muchos de estos sitios crean subdominios y vuelven a golpear y cuando modifican la URL, las condiciones codificadas fallan
RewriteCond% {HTTP_REFERER} (priceg) [NC, OR]
RewriteCond% {HTTP_REFERER} (darodar) [NC, OR]
Se explica en detalle here
La mayoría del spam en Google Analytics nunca accede a su sitio, por lo que no puede bloquearlos con ninguna solución del lado del servidor.
Ghost Spam llega directamente a GA y generalmente aparece solo por unos días y luego desaparece, por eso algunas personas piensan que los bloquearon del archivo .htaccess , pero es solo una coincidencia.
Este tipo de spam es fácil de detectar, ya que usan un nombre de host falso o no están configurados. (Ver imagen a continuación)
El otro tipo, los
rastreadores como semalt
, en realidad acceden a su sitio y pueden bloquearse desde el archivo
.htaccess
, sin embargo, hay solo algunos de ellos.
En resumen , para detener el spam en Google Analytics:
- Rastreadores: soluciones o filtros del lado del servidor en GA
- Fantasmas: SOLO filtros en GA
La única solución eficiente para evitar ser alcanzado por el spam fantasma es hacer un filtro de inclusión con todos sus nombres de host válidos .
Primero debe hacer un REGEX con todos los nombres de host válidos, algo como esto (puede encontrarlos en el informe de red)
yoursite/.com|shoppingcart/.com|translateservice/.net
Estos son algunos ejemplos; Es posible que tenga más o menos nombres de host. Una vez que tenga el REGEX, siga los mismos pasos que arriba y cambie esto:
- Vaya a la pestaña de administrador en Google Analytics
- Seleccione FILTRO en la columna Ver > Nuevo filtro
- Tipo de filtro Personalizado > Incluir > Nombre de host del campo de filtro
- Patrón de archivo Copie la expresión de nombre de host que creó
Para los rastreadores, tendrá que crear un filtro diferente que construya una expresión con todos los spammers
spammer1|spammer2|spammer3|spammer4|spammer5
- Tipo de filtro Personalizado > Excluir > Filtrar fuente de campaña de campo
- Copiar patrón de archivo de la expresión de referencia
Cada vez que trabaje con filtros, es importante que mantenga una vista sin filtrar .
Si necesita pasos detallados para estas soluciones, puede consultar esta guía completa sobre Spam en Google Analytics .
Guía para detener y eliminar todo el spam en Google Analytics
Espero eso ayude.
Ejemplo de informe de nombre de host
Lunametrics publicó un buen artículo para resolver este problema utilizando el Administrador de etiquetas de Google: http://www.lunametrics.com/blog/2014/03/11/goodbye-to-exclude-filters-google-analytics/
Puede restringir el uso del acceso .htaccess o al filtrar TODAS las visitas del robot para que Google Analytics no las rastree. Si eso no funciona, configure el filtrado de Google Analytics. Puede encontrar más detalles sobre cómo hacerlo aquí: http://www.wiyre.com/google-analytics-darodar-forum-spam-what-is-it/
Tienen base rusa pero enrutan a sus arañas a través de China y Filipinas. Tal vez sería mejor bloquear toda la dirección IP en este punto, ya que tienen múltiples subdominios.
Sí, puedes bloquear con .htaccess y en realidad deberías hacerlo.
Su archivo .htaccess podría verse así:
<IfModule mod_setenvif.c>
# Set spammers referral as spambot
SetEnvIfNoCase Referer darodar.com spambot=yes
SetEnvIfNoCase Referer 7makemoneyonline.com spambot=yes
## add as many as you find
Order allow,deny
Allow from all
Deny from env=spambot
</IfModule>
Cuando el tráfico proviene de estos sitios, se bloquean con este .htaccess, por lo que el HTML nunca se carga y, por lo tanto, el script GA no se activa (desde estos sitios).
Intentan recopilar tráfico de usted, una vez que ve el tráfico entrante en Google Analytics y luego intenta averiguar cuál es la fuente a la que accede a esa URL. Es inofensivo para su sitio, excepto que sus estadísticas están llenas de datos basura.
Google Analytics debería evitar esto, de la misma manera que GMail evita el correo no deseado.
Usé estos métodos mod_rewrite para semalt:
RewriteCond %{HTTP_REFERER} ^http(s)?://(www/.)?semalt/.com.*$ [NC]
RewriteCond %{HTTP_REFERER} ^http(s)?://(.*/.)?semalt/.*$ [NC,OR]
RewriteCond %{HTTP_REFERER} ^https?://([^.]+/.)*semalt/.com/ [NC,OR]
o con el módulo .htaccess mod_setenvif
SetEnvIfNoCase Referer semalt.com spambot=yes
SetEnvIfNoCase REMOTE_ADDR "217/.23/.11/.15" spambot=yes
SetEnvIfNoCase REMOTE_ADDR "217/.23/.7/.144" spambot=yes
Order allow,deny
Allow from all
Deny from env=spambot
Incluso creé una lista negra de Apache, Nginx & Varnish más el segmento de Google Analytics para evitar el tráfico de spam de referencia, puede encontrarlo aquí:
aparentemente, esto lo hace un spammer comunicándose directamente con google analytics utilizando la ID de cuenta de su sitio web. Entonces, efectivamente le dicen a Google Analytics que visitaron su página, mientras que de hecho nunca lo hicieron. Se identifican con la analítica por medio de una URL que QUIEREN VISITAR. Entonces ves su tráfico en google analytics y ve a verlos. Tendrán una cuenta de afiliado de Amazon conectada, por lo que intentarán obtener una comisión de sus compras en Amazon, por ejemplo.
entonces .htaccess no hizo nada por mí cuando estaba luchando contra este; necesita crear un filtro que filtre cosas como (. *) /. darodar / .com
El verdadero efecto negativo que he encontrado de esto es que invalida las estadísticas de mi sitio web
Actualización 2019
Es posible que tenga una solución a este problema, ya que no encuentro ninguna de las otras soluciones efectivas.
Permítanme abordar primero los problemas de las soluciones existentes
- Agregue un filtro para cada dominio de spam de referencia.
- ¿Cuántos dominios agregarás?
- La mayoría de estos dominios de spam de referencia existen por algún tiempo y luego desaparecen
- Mantenga una lista negra de dominios de spam de referencia.
- Esto se vuelve aún más complicado ya que son básicamente infinitos en números.
- Tendría que seguir actualizando la lista negra.
- También es más grande la lista negra, más tiempo necesita escanearla
- Cualquier otra cosa, como mantener un acceso manual o algo, requerirá una intervención manual que no se ampliará a medida que su sitio se vuelva más popular.
- Cualquier cosa automática, como el uso de IA para determinar los patrones en la apariencia de los dominios de spam de referencia, tendrá un impacto aleatorio
¿Cómo funcionan estos bots?
Primero, es crucial entender cómo funcionan estos bots
- Usan patrones de expresiones regulares como mínimo / UA- / d {6} / para cargar los identificadores de seguimiento que visitan recursivamente después de comenzar en un sitio web de semillas
Creo que tengo una solución que ofrece las siguientes ventajas
- No es necesario mantener listas blancas y listas negras
- Funcionará contra el 99% de ellos fácilmente y siempre se puede modificar para llevarlo al 100%
- Casi no requiere intervención manual
- La idea es NO tener una identificación de seguimiento en absoluto en el script
Aquí hay un ejemplo
script.
//- Google Analytics ID
var a = [85, 65, 45, 49, 49, 49, 49, 49, 49, 49, 49, 49, 45, 50];
var newScript = document.createElement("script");
newScript.type = "text/javascript";
newScript.setAttribute("async", "true");
newScript.setAttribute("src", "https://www.googletagmanager.com/gtag/js?id=" + a.map(i => String.fromCharCode(i)).join(""));
document.documentElement.firstChild.appendChild(newScript);
window.dataLayer = window.dataLayer || [];
function gtag(){dataLayer.push(arguments);}
gtag(''js'', new Date());
gtag(''config'', a.map(i => String.fromCharCode(i)).join(""), { ''send_page_view'': false });
// Feature detects Navigation Timing API support.
if (window.performance) {
// Gets the number of milliseconds since page load
// (and rounds the result since the value must be an integer).
var timeSincePageLoad = Math.round(performance.now());
console.log(timeSincePageLoad)
// Sends the timing event to Google Analytics.
gtag(''event'', ''timing_complete'', {
''name'': ''load'',
''value'': timeSincePageLoad,
''event_category'': ''#{title}''
});
}
-
Tomamos un enfoque muy simple, dividimos la identificación de seguimiento del formulario ''UA-1111111-1'' en una matriz de código char
-
Ahora construimos la ID de seguimiento dinámicamente a partir de la matriz de código de caracteres en cualquier punto que necesitemos una referencia a la ID de seguimiento
-
El enfoque se puede hacer infinitamente más complejo convirtiéndolo en un grupo cifrado de números, base 8, hexadecimal, agregando un desplazamiento fijo, un desplazamiento aleatorio durante cada ejecución, RSA encriptando la identificación de seguimiento con una clave privada en el servidor y descifrándola con una clave pública pero el enfoque básico es REALMENTE rápido, ya que las matrices en JS son realmente rápidas, pueden vencer fácilmente al 99% de los bots