.htaccess - Cómo bloquear a los motores de búsqueda para que indexen todas las URL que comienzan con origin.domainname.com

url-rewriting robots.txt (1)

Puede volver a escribir robots.txt en otro archivo (llamémosle ''robots_no.txt'' que contiene:

User-Agent: * Disallow: /

(fuente: http://www.robotstxt.org/robotstxt.html )

El archivo .htaccess se vería así:

RewriteEngine On RewriteCond %{HTTP_HOST} !^www.example.com$ RewriteRule ^robots.txt$ robots_no.txt

Utilice robots.txt personalizado para cada (sub) dominio:

RewriteEngine On RewriteCond %{HTTP_HOST} ^www.example.com$ [OR] RewriteCond %{HTTP_HOST} ^sub.example.com$ [OR] RewriteCond %{HTTP_HOST} ^example.com$ [OR] RewriteCond %{HTTP_HOST} ^www.example.org$ [OR] RewriteCond %{HTTP_HOST} ^example.org$ # Rewrites the above (sub)domains <domain> to robots_<domain>.txt # example.org -> robots_example.org.txt RewriteRule ^robots.txt$ robots_${HTTP_HOST}.txt [L] # in all other cases, use default ''robots.txt'' RewriteRule ^robots.txt$ - [L]

En lugar de pedirle a los motores de búsqueda que bloqueen todas las páginas para páginas que no sean www.example.com , también puede usar <link rel="canonical"> .

Si http://example.com/page.html y http://example.org/~example/page.html ambos apuntan a http://www.example.com/page.html , coloque la siguiente etiqueta en el <head> :

<link rel="canonical" href="http://www.example.com/page.html">

Ver también el artículo de Google sobre rel = "canonical"

Tengo www.domainname.com, origin.domainname.com apuntando a la misma base de código. ¿Hay alguna manera? Puedo evitar que todas las URL del nombre de base origin.domainname.com se indexen.

¿Hay alguna regla en robot.txt para hacerlo? Ambas direcciones apuntan a la misma carpeta. Además, traté de redirigir origin.domainname.com a www.domainname.com en el archivo htaccess, pero parece que no funciona ...

Si alguien ha tenido un tipo similar de problema y puede ayudar, le estaré agradecido.

Gracias