¿Cómo deshabilito la página específica de robots.txt?
(4)
Esto es muy simple, cualquier página que desees rechazar, simplemente proporciona la URL de root de este archivo o carpeta. Simplemente ponga esto en su archivo robots.txt.
Disallow: /thank-you-for-commenting
Estoy creando dos páginas en mi sitio que son muy similares pero tienen propósitos diferentes. Una es agradecer a los usuarios por dejar un comentario y la otra es animar a los usuarios a suscribirse.
No quiero el contenido duplicado, pero sí quiero que las páginas estén disponibles. ¿Puedo configurar el mapa del sitio para ocultar uno? ¿Haría esto en el archivo robots.txt?
El no permitido se ve así:
No permitir: / wp-admin
¿Cómo puedo personalizar a una página específica como:
Los archivos robots.txt utilizan expresiones regulares para hacer coincidir las páginas, por lo que para evitar la orientación de más páginas de las que pretende, es posible que deba agregar un $ al final del nombre de la página:
Disallow: /thank-you-for-commenting$
Si no lo hace, también rechazará la página / gracias por comentar sobre esto también
También puede agregar una página específica con extensión en el archivo robots.txt . En caso de pruebas, puede especificar la ruta de la página de prueba para evitar que los robots se arrastren.
Por ejemplo:
Disallow: /index_test.php
Disallow: /products/test_product.html
Disallow: /products/
El primero Disallow: /index_test.php
no permitirá que los robots rastreen la página de prueba en la carpeta raíz.
Segundo Disallow: /products/test_product.html
permitir Disallow: /products/test_product.html
no permitirá test_product.html en la carpeta "productos"
Finalmente, el último ejemplo Disallow: /products/
permitir Disallow: /products/
no permitirá que se rastree toda la carpeta.
Disallow: /thank-you-for-commenting
en robots.txt
Eche un vistazo al archivo robots.txt de last.fm para inspirarse.