.htaccess - Cómo bloquear a los motores de búsqueda para que indexen todas las URL que comienzan con origin.domainname.com
url-rewriting robots.txt (1)
Puede volver a escribir robots.txt
en otro archivo (llamémosle ''robots_no.txt'' que contiene:
User-Agent: *
Disallow: /
(fuente: http://www.robotstxt.org/robotstxt.html )
El archivo .htaccess se vería así:
RewriteEngine On
RewriteCond %{HTTP_HOST} !^www.example.com$
RewriteRule ^robots.txt$ robots_no.txt
Utilice robots.txt personalizado para cada (sub) dominio:
RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.example.com$ [OR]
RewriteCond %{HTTP_HOST} ^sub.example.com$ [OR]
RewriteCond %{HTTP_HOST} ^example.com$ [OR]
RewriteCond %{HTTP_HOST} ^www.example.org$ [OR]
RewriteCond %{HTTP_HOST} ^example.org$
# Rewrites the above (sub)domains <domain> to robots_<domain>.txt
# example.org -> robots_example.org.txt
RewriteRule ^robots.txt$ robots_${HTTP_HOST}.txt [L]
# in all other cases, use default ''robots.txt''
RewriteRule ^robots.txt$ - [L]
En lugar de pedirle a los motores de búsqueda que bloqueen todas las páginas para páginas que no sean www.example.com
, también puede usar <link rel="canonical">
.
Si http://example.com/page.html
y http://example.org/~example/page.html
ambos apuntan a http://www.example.com/page.html
, coloque la siguiente etiqueta en el <head>
:
<link rel="canonical" href="http://www.example.com/page.html">
Ver también el artículo de Google sobre rel = "canonical"
Tengo www.domainname.com, origin.domainname.com apuntando a la misma base de código. ¿Hay alguna manera? Puedo evitar que todas las URL del nombre de base origin.domainname.com se indexen.
¿Hay alguna regla en robot.txt para hacerlo? Ambas direcciones apuntan a la misma carpeta. Además, traté de redirigir origin.domainname.com a www.domainname.com en el archivo htaccess, pero parece que no funciona ...
Si alguien ha tenido un tipo similar de problema y puede ayudar, le estaré agradecido.
Gracias