Hoy veremos qué es el archivo robots.txt y la importancia que tiene para el SEO, dentro de un ecosistema web donde la competencia por el crawl budget de Google y otros buscadores es bestial.
¿De qué hablamos en este artículo?
Qué es el robots.txt y para qué sirve
El archivo robots.txt es un fichero plano de texto que se aloja en la raíz de nuestro sitio web para sugerir a los motores de búsqueda, a sus bots más específicamente, qué partes de tu site pueden o no pueden recorrer para posteriormente indexar esas partes en sus bases de datos y mostrarlas en las SERPs.
También, adicionalmente, sirve para indicarle al motor de búsqueda dónde está localizado el Sitemap XML del site. Más adelante hablaré sobre estos ficheros XML que nos ayudarán a mejorar el crawl budget de Google y el resto de buscadores.
⛔ El archivo robots.txt se compone de sugerencias para los buscadores. Puede que los buscadores decidan hacer caso omiso de algunas directrices de este archivo por criterios propios.
Antes de crear un archivo robots.txt
Lo primero de todo y más obvio es que el archivo debe llamarse robots.txt. Muy obvio, pero a veces se nos olvida. No seamos creativos con esto que no es necesario.
La segunda cosa también obvia es que solamente puede haber un archivo robots.txt por sitio web.
Lo tercero que no es tan de perogrullo, pero que muchas veces por temas de seguridad lo tenemos capado, es que este fichero tiene que estar alojado en la raíz de nuestro site.
Y, poniéndome un poco más técnico tiquismiquis, el fichero robots.txt tiene que estar codificado en UTF-8. Si no lo está porque lo hemos creado con el Bloc de Notas de Windows u otro editor en otra codificación, tendremos que cambiarlo posteriormente.
Cómo generar un archivo robots.txt
Para generar un fichero robots.txt, te puedes ir a tu editor de texto favorito y ponerte a teclear como un loco las directivas que te voy a enseñar a continuación, siempre y cuando te acuerdes de la codificación UTF-8 y del nombre del fichero cuando lo guardes.
Agrupaciones con User-agent
Las reglas que vamos a sugerir a los buscadores en nuestro robots.txt se van a agrupar según los bots (user-agent) de los buscadores y pueden ser instrucciones muy específicas para un bot en especial o reglas generales para cualquier bot que acceda a nuestro site.
Para agrupar esas reglas lo haremos con la palabra User-agent.
# Ejemplo 1: Reglas que afectarán a Googlebot User-agent: Googlebot # Ejemplo 2: Reglas que afectan a Googlebot y AdsBot-Google User-agent: Googlebot User-agent: AdsBot-Google # Ejemplo 3: Reglas que afectan a todos los bots User-agent: *
Reglas Allow y Disallow (Permitir / Bloquear)
Para permitir o bloquear el acceso a partes de nuestro site, vamos a usar dos reglas: Allow y Disallow, respectivamente.
‼ En cada agrupación debe haber al menos una regla Allow o Disallow.
# Ejemplo 1: Bloquear el acceso a todo el site Disallow: / # Ejemplo 2: Bloquear el acceso a un directorio # ¡OJO! Tiene que terminar con / Disallow: /directorio-restringido/ # Ejemplo 3: Bloquear el acceso a una URL específica Disallow: /directorio/pagina.html
Agrupaciones de reglas, mezclando todo lo anterior
Ahora, con los grupos formados por la directiva User-agent y las restricciones a la estructura de nuestro site, podemos crear un conjunto de reglas que se apliquen a uno o varios bots de los buscadores de esta manera:
# Ejemplo 1: Bloquear el acceso a todo el site a Googlebot User-agent: Googlebot Disallow: / # Ejemplo 2: Bloquear el acceso a un directorio a # Googlebot y AdsBot-Google User-agent: Googlebot User-agent: AdsBot-Google Disallow: /directorio-restringido/ # Ejemplo 3: Bloquear el acceso a todos los bots a una URL específica User-agent: * Disallow: /directorio/pagina.html
Ahora sí, esto pinta muy bien y ya tenemos nuestras indicaciones para los bots de los diferentes buscadores.
Directiva para el archivo sitemap XML
Y, para terminar con las directivas de este fichero tan peculiar, pero tan útil, tenemos Sitemap
, la directiva que indica dónde se aloja nuestro archivo sitemap XML con las siguientes características:
- Puede haber una o varias directivas Sitemap en el fichero robots.txt.
- Tiene que contener la URL completa de cada Sitemap XML del sitio web.
- Es una directiva opcional.
Sitemap: https://midominio.com/sitemap.xml
Ya tengo mi robots.txt, ¿ahora qué?
Pues sólo te falta una cosa que hacer y es subir ese fichero a la raíz de tu site, a través de FTP o a través del administrador de archivos del panel de control de tu hosting.
En cuanto tengas el archivo subido, los motores de búsqueda harán uso automáticamente de este archivo con nuestras indicaciones. No hace falta avisar a ninguno de ellos a través de Search Console o similar.
Para comprobar que el archivo se ha subido correctamente, accede con cualquier navegador a https://midominio.com/robots.txt y tendrías que ver el contenido de este archivo de texto tal y como lo has editado.
Especificaciones del archivo robots.txt by Google
Qué impacto tiene el archivo robots.txt en el SEO de mi site
Ahora bien, ya tenemos nuestro robots.txt funcionando perfectamente en nuestro site como te lo he dicho en este artículo, pero, ¿qué ventajas reales obtengo con este superarchivo para el SEO de mi sitio web?
- Optimizas el famoso crawl budget de los buscadores en tu site.
- No indexas páginas privadas de tu site en los buscadores «camuflándolas» y haciéndolas poco accesibles.
- Indexas, junto con el archivo Sitemap XML, sólo lo que a ti te interesa que aparezca en los Resultados de Búsqueda y no lo que se vayan encontrando los diferentes bots en tu site.
- Puedes desindexar temporalmente partes de tu site si lo necesitas porque te estén generando una crisis en tu marca personal o comercial.
- En sitios online nuevos, puedes indicar a todos los buscadores que no indexen tu sitio web:
User-agent: * Disallow: /
- Bloquear imágenes concretas para que no aparezcan en Google Imágenes.
¿Qué te ha parecido el archivo robots.txt?
Si te has quedado con ganas de más o tienes alguna pregunta o comentario que hacerme, usa los comentarios de esta entrada para plantearla y salir de dudas.
¡Gracias amig@s!