Robots.txt: qué es y cómo funciona

Índice de contenidos

¿Qué es el archivo robots.txt?
¿Por qué usar un archivo robots.txt?
User-agent
- Los robots más habituales
Allow / Disallow
Sitemap
Comentarios
Conclusión

¿Qué es el archivo robots.txt?

Se trata de un archivo de texto que se aloja en la raíz de nuestro sitio web. En este documento marcaremos unas directrices para sugerir a los robots o arañas qué partes de nuestra web no deben rastrear e indexar.

Es un archivo público, y siempre se llama de la misma manera, por lo que podemos acceder a él en cualquier sitio web, simplemente, añadiendo robots.txt detrás de la dirección web:

https://jonrivas.com/robots.txt

¿Por qué usar un archivo robots.txt?

Una razón para usar este archivo es evitar que nuestra web se vea desbordada por peticiones de robots y afecte a nuestro tráfico. Hay que tener en cuenta que robots como el de Google reservan un tiempo concreto para rastrear nuestra web. A esto se le llama «presupuesto de rastreo«. Este tiempo lo asigna en base a la importancia de nuestra web, su tamaño, frecuencia de actualización… una vez consumido ese tiempo deja de rastrear nuestra web. Es por eso que no nos conviene que pierda el tiempo con archivos que no nos interesan y los deshabilitarlos por medio del robots.

Muchas veces se usa para evitar que los buscadores indexen alguna de nuestras páginas, por ejemplo la de cookies, aviso legal… Sin embargo no es la opción más correcta. Las páginas que no queramos que sean indexadas deben de llevar la meta etiqueta noindex en su head. Sí que se usa, sin embargo, para que no se indexen imágenes o archivos multimedia.

User-agent

Dentro del documento podemos declarar reglas generales o reglas para un rastreador concreto. Para ello usaremos la instrucción «User-agent:» seguido del nombre de la araña a la que afectará la regla. En caso de que la instrucción vaya dirigida a todos los robots usaremos el asterisco.

Así, con la siguiente expresión, indicaríamos que queremos que todo nuestro sitio sea rastreable para todos los robots.

User-agent: *
Allow: /

Mientras que esta otra instrucción especificaría que la carpeta «tmp» no sea accesible para el robot de Google:

User-agent:  Googlebot
Disallow: /tmp/

Los robots más habituales

Googlebot: Rastreador de Google
Bingbot: Rastreador de Bing
Slurp: Rastreador de Yahoo
Baiduspider: Rastreador de Baidu (muy popular en China)
Ia_archiver: Rastreador Alexa
YandexBot: Rastreador de Yandex
…

La lista de rastreadores es inmensa, si quieres consultar una lista muy completa puedes hacerlo en User-agents.com.

Allow / Disallow

Allow indica al robot qué directorios se pueden rastrear, mientras que Disallow indica los que quedarán restringidos. Las instruciones las va cumpliendo según va leyendo el archivo, por lo que con en el siguiente código leería todo el directorio /constructor/uploads/ y los archivos de JavaScript de la carpeta /constructor/, pero no el resto del contenido:

User-agent: *
Allow: /constructor/uploads/*
Allow: /constructor/*.js
Disallow: /constructor/

Sitemap

La última línea del robots.txt la reservaremos para incluir la dirección de nuestro sitemap. Esto es siempre deseable para ayudar a los rastreadores a priorizar y encontrar las páginas que queremos indexar. Esta url debe aparecer completa, incluyendo el protocolo usado.

Sitemap: https://www.miwebamedida.com/sitemap.xml

Comentarios

Podemos añadir comentarios y notas en el documento sin que afecten a su funcionamiento, para ello usamos la almohadilla y, lo que escribamos a partir de ella, será ignorado a nivel funcional.

Disallow: /comments/ # Comentario en la misma linea que la instrucción
Disallow: /page/
# Comentario en linea independiente
Sitemap: https://www.laminotech.com/sitemap_index.xml

Conclusión

Jugando con los elementos que hemos visto ya podemos crear un documento a la medida de nuestra web. Hay que tener en cuenta que cada sitio es diferente y tiene necesidades y preferencias únicas, por lo que no hay un robots.txt único que podamos ofrecerte. Se trata de hacer un documento a medida eliminando del rastreo las páginas con las que no queremos que las arañas pierdan tiempo, quitándonos a nosotros presupuesto de rastreo.

También ten en cuenta que una mala configuración de este archivo puede hacer que dejemos, sin querer, alguna página sin indexar. Es necesario escribirlo con cuidado o descubrir posibles errores realizando una auditoría web.