txt robots pagina indexar indexacion index google bloquear google-index

google-index - robots - noindex



Detener Google de la indexación (11)

¿Hay alguna manera de evitar que Google indexe un sitio?



Tenga en cuenta que el rastreador de microsoft para Bing, a pesar de su reclamo de obedecer robots.txt, no siempre lo hace.

Las estadísticas de nuestro servidor indican que tienen varias IP que ejecutan rastreadores que no obedecen al robots.txt, así como a varios que sí lo hacen.


Uso una página aspx simple para retransmitir los resultados de Google a mi navegador usando una cookie falsa ''Pref'' que obtiene 100 resultados a la vez y no quería que Google vea esta página de retransmisión, así que verifico la dirección IP y si comienza con 66.249 entonces simplemente hago un redireccionamiento.

Haga clic en mi nombre si valora la privacidad y desea una copia.

Otro truco que uso es tener algún javascript que llame a una página para establecer una bandera en sesión porque la mayoría (NO TODOS) de los web-bots no ejecutan el javascript para que sepas que es un navegador con Javascript desactivado o es más que probable un bot


También puede agregar los meta robots de esta manera:

<head> <title>...</title> <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> </head>

Y otra capa adicional es modificar .htaccess, pero necesita verificarlo profundamente.


use una metaetiqueta nofollow:

<meta name="robots" content="nofollow" />

Para especificar nofollow en el nivel del enlace, agregue el atributo rel con el valor nofollow al enlace:

<a href="example.html" rel="nofollow" />


Puede deshabilitar este servidor agregando la siguiente configuración globalmente en apache conf o los mismos parámetros se pueden usar en vhost para deshabilitarlo solo para un host particular.

Conjunto de encabezado X-Robots-Tag "noindex, nofollow"

Una vez hecho esto, puede probarlo verificando los encabezados de apache devueltos.

curl -I staging.mywebsite.com HTTP / 1.1 302 Encontrado Fecha: sáb, 26 nov 2016 22:36:33 GMT Servidor: Apache / 2.4.18 (Ubuntu) Ubicación: / pages / X-Robots-Tag: noindex, nofollow Content-Type: text / html; charset = UTF-8


Debo agregar mi respuesta aquí, ya que la respuesta aceptada realmente no toca el problema correctamente. Recuerde también que evitar que Google se rastree no significa que pueda mantener su contenido privado.

Mi respuesta se basa en algunas fuentes: https://developers.google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site/webmasterhelpforum/en/faq--crawling- -indexando --- ranking

robots.txt archivo robots.txt controla el rastreo, pero no la indexación. Esos dos son acciones completamente diferentes, realizadas por separado. Algunas páginas pueden rastrearse pero no indexarse, y algunas incluso pueden ser indexadas pero nunca rastreadas . El enlace a la página no rastreado puede existir en otros sitios web, lo que hará que el indexador de Google lo siga e intente indexar.

La pregunta se trata de la indexación, que es la recopilación de datos sobre la página, por lo que puede estar disponible a través de los resultados de búsqueda. Se puede bloquear agregando metaetiqueta:

<meta name="robots" content="noindex" />

o agregando encabezado HTTP a la respuesta:

X-Robots-Tag: noindex

Si la pregunta es sobre el rastreo, por supuesto, puedes crear el archivo robots.txt y poner las siguientes líneas:

User-agent: * Disallow: /

Rastreo es una acción realizada para recopilar información sobre la estructura de un sitio web específico. Por ejemplo, ha agregado el sitio a través de las Herramientas para webmasters de Google. Crawler lo tomará en cuenta y visitará su sitio web en busca de robots.txt . Si no encuentra ninguno, supondrá que puede rastrear cualquier cosa (también es muy importante tener el archivo sitemap.xml para ayudar en esta operación, y especificar prioridades y definir frecuencias de cambio). Si encuentra el archivo, seguirá las reglas. Después del rastreo satisfactorio, en algún momento ejecutará la indexación de las páginas rastreadas, pero no podrá decir cuándo ...

Importante : esto significa que su página aún se puede mostrar en los resultados de búsqueda de Google, independientemente de robots.txt .

Espero que al menos algunos usuarios lean esta respuesta y la tengan clara, ya que es crucial saber qué sucede en realidad.


¿Hay alguna manera de evitar que Google indexe un sitio?

Para evitar que Google se rastree, simplemente agregue la siguiente meta al head de cada página:

<meta name="googlebot" content="noindex, nofollow">