seo - ejemplo - robots.txt example

Meta tag vs robots.txt (9)

¿Es mejor usar etiquetas meta * o el archivo robots.txt para informar a las arañas / rastreadores para que incluyan o excluyan una página?
¿Hay algún problema en el uso de las metaetiquetas y el archivo robots.txt?

* Ej .: <#META name="robots" content="index, follow">

Ambos son compatibles con todos los rastreadores que respetan los deseos de los webmasters. No todos lo hacen, pero contra ellos ninguna técnica es suficiente.

Puede usar las reglas de robots.txt para cosas generales, como no permitir secciones completas de su sitio. Si dice Disallow: /family , todos los enlaces que comienzan con /family no están indexados por un rastreador.

La etiqueta meta se puede utilizar para no permitir una sola página. Las páginas no permitidas por las metaetiquetas no afectan a las subpáginas en la jerarquía de páginas. Si tiene una etiqueta de desautorización en /work , no impide que un rastreador acceda a /work/my-publications si hay un enlace a ella en una página permitida.

Desea utilizar ''noindex, follow'' en una metaetiqueta de robots , en lugar de robots.txt , porque permitirá que pase el zumo de enlaces. Es mejor desde una perspectiva SEO.

Hay una diferencia significativa. De acuerdo con google https://support.google.com/webmasters/answer/6062608?hl=en , seguirán indexando una página detrás de un archivo DENY de robots.txt, si la página está vinculada a través de otro sitio.

Sin embargo, no lo harán si ven un metaetiqueta:

Si bien Google no rastreará ni indexará el contenido bloqueado por robots.txt, aún podremos encontrar e indexar una URL no permitida desde otros lugares en la web. Como resultado, la dirección URL y, potencialmente, otra información disponible públicamente, como el texto de anclaje en los enlaces al sitio, aún pueden aparecer en los resultados de búsqueda de Google. Puede evitar que su URL aparezca en los resultados de la Búsqueda de Google utilizando otros métodos de bloqueo de URL, como proteger con contraseña los archivos en su servidor o usando la metaetiqueta o el encabezado de respuesta de noindex .

Hay una gran diferencia entre meta robot y robots.txt.

En robots.txt, le preguntamos a los rastreadores qué página debe rastrear y cuál debe excluir, pero no le pedimos a los rastreadores que no indexen esas páginas excluidas del rastreo.

Pero si usamos la etiqueta meta robots, podemos solicitar a los rastreadores de los motores de búsqueda que no indexen esta página. La etiqueta que se usará para esto es:

<#meta name = "nombre del robot", contenido = "noindex"> (eliminar #)

<#meta name = "robot name", content = "follow, noindex"> (eliminar #)

En la segunda etiqueta meta, le pedí al robot que siguiera esa URL pero no que indexara en el motor de búsqueda.

Probablemente usaría robots.txt sobre la meta . Robots.txt ha existido por más tiempo y podría ser más compatible (pero no estoy 100% seguro de eso).

En cuanto a la segunda parte, creo que la mayoría de las arañas tomarán la configuración más restrictiva de una página, si existe una disparidad entre el archivo robots.txt y la metaetiqueta.

Puede tener cualquiera, pero si su sitio web tiene muchas páginas web, robots.txt es fácil y reduce la complejidad del tiempo.

Robots.txt IMHO.

La opción de etiqueta Meta le dice a los bots que no indexen archivos individuales, mientras que Robots.txt puede usarse para restringir el acceso a directorios completos.

Claro, use una etiqueta Meta si tiene la página impar en las carpetas indexadas que desea omitir, pero en general, le recomendaría la mayor parte de su contenido no indexado en una o más carpetas y utilizar robots.txt para omitir el lote.

No, no hay problema en usar ambos: si hay un choque, en términos generales, un rechazo anulará un permiso .

Robots.txt es bueno para las páginas que consumen una gran cantidad de su presupuesto de rastreo, como la búsqueda interna o los filtros con una combinación infinita. Si permite que Google indexe yoursite.com/search=lalalala , perderá su presupuesto de rastreo.

meta es superior

Para excluir páginas individuales de los índices de los motores de búsqueda, la metaetiqueta noindex es en realidad superior a robots.txt.