Qué es el archivo robots.txt y su importancia para el SEO de nuestro sitio web

Explicamos qué es el archivo robots.txt, cómo generarlo con sus reglas específicas y qué ventajas aporta al SEO de nuestro site.

Hoy veremos qué es el archivo robots.txt y la importancia que tiene para el SEO, dentro de un ecosistema web donde la competencia por el crawl budget de Google y otros buscadores es bestial.

 

Qué es el robots.txt y para qué sirve

El archivo robots.txt es un fichero plano de texto que se aloja en la raíz de nuestro sitio web para sugerir a los motores de búsqueda, a sus bots más específicamente, qué partes de tu site pueden o no pueden recorrer para posteriormente indexar esas partes en sus bases de datos y mostrarlas en las SERPs.

También, adicionalmente, sirve para indicarle al motor de búsqueda dónde está localizado el Sitemap XML del site. Más adelante hablaré sobre estos ficheros XML que nos ayudarán a mejorar el crawl budget de Google y el resto de buscadores.

⛔ El archivo robots.txt se compone de sugerencias para los buscadores. Puede que los buscadores decidan hacer caso omiso de algunas directrices de este archivo por criterios propios.

Antes de crear un archivo robots.txt

Lo primero de todo y más obvio es que el archivo debe llamarse robots.txt. Muy obvio, pero a veces se nos olvida. No seamos creativos con esto que no es necesario.

La segunda cosa también obvia es que solamente puede haber un archivo robots.txt por sitio web.

Lo tercero que no es tan de perogrullo, pero que muchas veces por temas de seguridad lo tenemos capado, es que este fichero tiene que estar alojado en la raíz de nuestro site.

Y, poniéndome un poco más técnico tiquismiquis, el fichero robots.txt tiene que estar codificado en UTF-8. Si no lo está porque lo hemos creado con el Bloc de Notas de Windows u otro editor en otra codificación, tendremos que cambiarlo posteriormente.

Cómo generar un archivo robots.txt

Para generar un fichero robots.txt, te puedes ir a tu editor de texto favorito y ponerte a teclear como un loco las directivas que te voy a enseñar a continuación, siempre y cuando te acuerdes de la codificación UTF-8 y del nombre del fichero cuando lo guardes.

Agrupaciones con User-agent

Las reglas que vamos a sugerir a los buscadores en nuestro robots.txt se van a agrupar según los bots (user-agent) de los buscadores y pueden ser instrucciones muy específicas para un bot en especial o reglas generales para cualquier bot que acceda a nuestro site.

Para agrupar esas reglas lo haremos con la palabra User-agent.

# Ejemplo 1: Reglas que afectarán a Googlebot
User-agent: Googlebot

# Ejemplo 2: Reglas que afectan a Googlebot y AdsBot-Google
User-agent: Googlebot
User-agent: AdsBot-Google

# Ejemplo 3: Reglas que afectan a todos los bots
User-agent: *

Reglas Allow y Disallow (Permitir / Bloquear)

Para permitir o bloquear el acceso a partes de nuestro site, vamos a usar dos reglas: Allow y Disallow, respectivamente.

‼ En cada agrupación debe haber al menos una regla Allow o Disallow.

# Ejemplo 1: Bloquear el acceso a todo el site
Disallow: /

# Ejemplo 2: Bloquear el acceso a un directorio
# ¡OJO! Tiene que terminar con /
Disallow: /directorio-restringido/

# Ejemplo 3: Bloquear el acceso a una URL específica
Disallow: /directorio/pagina.html

Agrupaciones de reglas, mezclando todo lo anterior

Ahora, con los grupos formados por la directiva User-agent y las restricciones a la estructura de nuestro site, podemos crear un conjunto de reglas que se apliquen a uno o varios bots de los buscadores de esta manera:

# Ejemplo 1: Bloquear el acceso a todo el site a Googlebot
User-agent: Googlebot
Disallow: /

# Ejemplo 2: Bloquear el acceso a un directorio a
# Googlebot y AdsBot-Google
User-agent: Googlebot
User-agent: AdsBot-Google
Disallow: /directorio-restringido/

# Ejemplo 3: Bloquear el acceso a todos los bots a una URL específica
User-agent: *
Disallow: /directorio/pagina.html

Ahora sí, esto pinta muy bien y ya tenemos nuestras indicaciones para los bots de los diferentes buscadores.

Directiva para el archivo sitemap XML

Y, para terminar con las directivas de este fichero tan peculiar, pero tan útil, tenemos Sitemap, la directiva que indica dónde se aloja nuestro archivo sitemap XML con las siguientes características:

  • Puede haber una o varias directivas Sitemap en el fichero robots.txt.
  • Tiene que contener la URL completa de cada Sitemap XML del sitio web.
  • Es una directiva opcional.
Sitemap: https://midominio.com/sitemap.xml

Ya tengo mi robots.txt, ¿ahora qué?

Pues sólo te falta una cosa que hacer y es subir ese fichero a la raíz de tu site, a través de FTP o a través del administrador de archivos del panel de control de tu hosting.

En cuanto tengas el archivo subido, los motores de búsqueda harán uso automáticamente de este archivo con nuestras indicaciones. No hace falta avisar a ninguno de ellos a través de Search Console o similar.

Para comprobar que el archivo se ha subido correctamente, accede con cualquier navegador a https://midominio.com/robots.txt y tendrías que ver el contenido de este archivo de texto tal y como lo has editado.

Especificaciones del archivo robots.txt by Google

Qué impacto tiene el archivo robots.txt en el SEO de mi site

Ahora bien, ya tenemos nuestro robots.txt funcionando perfectamente en nuestro site como te lo he dicho en este artículo, pero, ¿qué ventajas reales obtengo con este superarchivo para el SEO de mi sitio web?

  • Optimizas el famoso crawl budget de los buscadores en tu site.
  • No indexas páginas privadas de tu site en los buscadores «camuflándolas» y haciéndolas poco accesibles.
  • Indexas, junto con el archivo Sitemap XML, sólo lo que a ti te interesa que aparezca en los Resultados de Búsqueda y no lo que se vayan encontrando los diferentes bots en tu site.
  • Puedes desindexar temporalmente partes de tu site si lo necesitas porque te estén generando una crisis en tu marca personal o comercial.
  • En sitios online nuevos, puedes indicar a todos los buscadores que no indexen tu sitio web:
    User-agent: *
    Disallow: /
  • Bloquear imágenes concretas para que no aparezcan en Google Imágenes.

¿Qué te ha parecido el archivo robots.txt?

Si te has quedado con ganas de más o tienes alguna pregunta o comentario que hacerme, usa los comentarios de esta entrada para plantearla y salir de dudas.

¡Gracias amig@s!

5/5 - (2 votos)
- Publicidad -

Te puede interesar...

Dejar respuesta

Please enter your comment!
Please enter your name here

DEWEBLOPING!https://dewebloping.com/
Blog de Marketing Digital donde os enseñaremos a hacer crecer vuestro negocio desde una perspectiva sencilla y fácil de implementar. ¡Aprende con nosotros!

Conecta con DEWEBLOPING!

337FansMe gusta
2,897SeguidoresSeguir
19suscriptoresSuscribirte
- Publicidad -

Artículos interesantes

- Publicidad -