Definición:
Robots.txt es el nombre común de un archivo de texto que se carga en el directorio raíz de un sitio Web y se vincula en el código HTML de la página web. El archivo robots.txt se utiliza para proporcionar instrucciones sobre el sitio web para los robots web y las arañas o spiders. Los autores de las páginas web pueden utilizar robots.txt para que los robots que participan en el rastreo cooperen y no tengan acceso la totalidad del sitio o a partes de un sitio web que se desea mantener en privado.
Funcionalidad del archivo robots.txt
Robots.txt permite a los administradores de sitios web indicar a los motores de búsqueda qué partes del sitio deberían ser excluidas del rastreo y tiene gran relevancia en el SEO técnico el lo que se refiere a indexación del sitio.
Aunque no es un método para proteger contenido confidencial, ya que no impide el acceso directo a las URL, es una forma efectiva de gestionar el rastreo y la indexación de contenido no deseado. Los motores de búsqueda suelen respetar las directrices establecidas en él, aunque no están obligados a hacerlo.
Importancia y limitaciones de robots.txt
A la hora de valorar la importancia de este archivo es importante tener en cuenta lo siguiente:
- Control de rastreo: El robots.txt ayuda a dirigir el tráfico de los robots de búsqueda, optimizando el uso del ancho de banda del servidor y mejorando la eficiencia del rastreo.
- No es una herramienta de seguridad: No debe usarse para ocultar información sensible, ya que no impide el acceso directo a las URL. Para la protección de contenido, se deben utilizar métodos de autenticación y autorización adecuados.
- Directrices voluntarias: Aunque los motores de búsqueda más importantes, como Google y Bing, respetan las instrucciones de robots.txt, no hay garantías de que todos los robots lo hagan, especialmente los malintencionados.
Ubicación del Robots.txt
La ubicación de robots.txt es muy importante. Debe estar en el directorio principal porque de lo contrario los motores de búsqueda no serán capaces de encontrarlo. Si el archivo no se encuentra en esta ubicación, los motores de búsqueda asumirán que no existe y procederán a rastrear e indexar todo el contenido del sitio.
Ejemplos de uso de robots.txt
Bloqueo de Rastreo de Carpetas Específicas:
User-agent: *
Disallow: /privado/
Disallow: /configuracion/
Permitir el Rastreo de Todo el Sitio:
User-agent: *
Disallow:
Bloqueo de un Archivo Específic
User-agent: *
Disallow: /archivo-secreto.html