seo - que - Dynamic robots.txt

seo significado (8)

De forma similar a la sugerencia de @James Marshall, en ASP.NET podría usar un HttpHandler para redirigir las llamadas a robots.txt a un script que generó el contenido.

Digamos que tengo un sitio web para alojar contenido generado por la comunidad que se dirige a un conjunto muy específico de usuarios. Ahora, digamos que con el interés de fomentar una mejor comunidad, tengo un área fuera del tema donde los miembros de la comunidad pueden publicar o hablar sobre lo que quieran, independientemente del tema principal del sitio.

Ahora, quiero que la mayor parte del contenido sea indexado por Google. La excepción notable es el contenido fuera de tema. Cada hilo tiene su propia página, pero todos los hilos están listados en la misma carpeta, por lo que no puedo excluir los motores de búsqueda de una carpeta en algún lugar. Tiene que ser por página. Un archivo robots.txt tradicional sería enorme, ¿de qué otra forma podría lograrlo?

Si utilizo Apache, usaría mod-rewrite para alias robots.txt a un script que podría generar dinámicamente el contenido necesario.

Editar: si usa IIS, puede usar ISAPIrewrite para hacer lo mismo.

Esto funcionará para todos los motores de búsqueda que se portan bien, solo agrégalo al <head> :

<meta name="robots" content="noindex, nofollow" />

Puede impedir que los motores de búsqueda lean o indexen su contenido al restringir las metaetiquetas del robot. De esta forma, araña considerará sus instrucciones e indexará solo las páginas que desee.

Puede implementarlo sustituyendo robots.txt con script dinámico generando el resultado. Con Apache, podrías hacer una regla simple de .htaccess para lograr eso.

RewriteRule ^robots/.txt$ /robots.php [NC,L]

bloquear la página web dinámica mediante robots.txt use este código

Agente de usuario: *

No permitir: / setnewsprefs?

No permitir: /index.html?

No permitir: /?

Permitir: /? Hl =

No permitir: /? Hl = * &

Solo por ese hilo, asegúrese de que su cabeza contenga una metaetiqueta noindex. Esa es una forma más de decirle a los motores de búsqueda que no rastreen su página, además de bloquear en robots.txt

Solo tenga en cuenta que el rechazo de robots.txt NO evitará que Google indexe las páginas que tienen enlaces desde sitios externos, todo lo que hace es evitar el rastreo interno. Consulte http://www.webmasterworld.com/google/4490125.htm o http://www.stonetemple.com/articles/interview-matt-cutts.shtml .