Guía archivo ROBOTS.TXT – SEO técnico para 2025

Si hablamos de SEO técnico, el robots.txt es ese pequeño archivo de texto que parece inofensivo, pero que, mal usado, puede hundir una web entera en los resultados de Google. Y lo peor: la mayoría de las webs lo tienen configurado de cualquier manera, sin entender realmente qué hace.

Así que prepárate, porque vamos a repasar qué es, para qué sirve, los comandos disponibles, ejemplos prácticos y hasta trucos avanzados que no te cuenta casi nadie.

¿Qué es el archivo robots.txt?

Es un archivo de texto plano que colocamos en la raíz de un dominio. Para ponerte un ejemplo sería algo así: https://dominio.com/robots.txt.

Su función es dar instrucciones a los robots de búsqueda (Googlebot, Bingbot, etc.) sobre qué partes de la web pueden rastrear y cuáles no.

Importante

El archivo robots.txt no bloquea la indexación, solo controla el rastreo. Si una URL está enlazada desde otros sitios o aparece en un sitemap, Google puede acabar indexándola aunque esté en “Disallow”. Para bloquear indexación hay que usar noindex, meta robots o cabeceras HTTP.

¿Cómo funciona el archivo robots.txt?

Piensa en el robots.txt como la “lista de invitados” de tu sitio web. Cuando un bot como Googlebot llega a tu dominio, lo primero que busca es este archivo para saber qué áreas de tu web están abiertas para él. Si no encuentra el archivo o no hay instrucciones específicas, asumirá que puede rastrear todo.

Es importante destacar que el robots.txt no es una herramienta de seguridad. Si bien impide que los bots de buscadores accedan a ciertas áreas, no evita que un usuario con la URL directa pueda entrar. Algún bot podría decidir ignorar las instrucciones, aunque los rastreadores más importantes y respetados como Googlebot o Bingbot siempre las siguen.

Sintaxis básica del robots.txt

El archivo robots.txt se construye con una serie de directivas sencillas. Estas son las más importantes:

User-agent: Esta directiva especifica a qué robot se le aplica la instrucción. Puedes dirigirte a un bot en particular, como Googlebot (el rastreador de Google) o Bingbot (el de Bing), o usar un asterisco (*) para aplicar la regla a todos los rastreadores.
Disallow: Con esta directiva, le indicas al robot que bloquee el acceso a un directorio o a una URL específica. Por ejemplo, Disallow: /privado/ le dice al bot que no entre en la carpeta privado.
Allow: Esta directiva permite que un bot acceda a una URL o directorio, incluso si está dentro de una carpeta que has bloqueado con Disallow. Es útil para ser más específico con tus permisos. Por ejemplo, podrías bloquear una carpeta entera pero permitir el acceso a un archivo concreto dentro de ella.
Sitemap: Aunque no es una directiva de rastreo, esta es una de las más útiles. Le indica a los motores de búsqueda la ubicación de tu sitemap XML, que es un archivo que lista todas las URLs de tu sitio. Esto ayuda a que los buscadores descubran y rastreen todas tus páginas importantes de forma más eficiente.

Todos los comandos en robots.txt

Aquí hay mucho mito. El estándar oficial (RFC 9309) del robots.txt solo reconoce unos pocos comandos básicos que son los que hemos visto antes. Todo lo demás son extensiones que algunos buscadores (Bing, Yandex, etc.) reconocen, pero Google solo hace caso a esos 4

Comando	Función	¿Lo respeta Google?
User-agent	Selección de robot	✅
Disallow	Bloquear rastreo	✅
Allow	Permitir excepciones	✅
Sitemap	Indicar sitemaps	✅
Crawl-delay	Controlar pausas	❌ (solo Bing/Yandex)
Clean-param	Ignorar parámetros	❌ (solo Yandex)
Host	Dominio preferido	❌ (solo Yandex)
Noindex/Nofollow	Bloquear indexación	❌ (Google no los usa)

¿Por qué es importante el robots.txt para el SEO?

Con un robots.txt bien trabajado, Google dedica tiempo a lo que importa (tus páginas de negocio) y olvida el ruido. Por lo tanto, podemos decir que el robots es importante porque:

Optimiza el presupuesto de rastreo (crawl budget): le dices a Google dónde no perder el tiempo.
Protege secciones innecesarias: evita que se rastreen duplicados, filtros de búsqueda, parámetros, etc.
Ayuda en la organización: controlas qué robots entran y qué hacen.
Previene errores: si un directorio privado se rastrea, puede acabar mostrando datos sensibles.

Plantillas de robots.txt para distintos tipos de web

A continuación, se presentan los diferentes ejemplos de Robots.txt con un párrafo explicativo para cada uno, siguiendo el estilo que proporcionaste.

1 – Robots.txt para web corporativa

Normalmente, no tienen miles de páginas, así que el “robots.txt” es sencillo:

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Sitemap: https://dominio.com/sitemap.xml

Este archivo es ideal para sitios sencillos, como las webs corporativas.

Su principal función es instruir a los rastreadores para que eviten el área de administración del CMS (como WordPress), impidiendo que se indexen archivos o páginas internas que no aportan valor para el SEO, al mismo tiempo que permite el acceso a archivos cruciales como “admin-ajax.php”, que muchos plugins necesitan para funcionar correctamente.

2 – Robots.txt para blogs o medio de noticias

En este tipo de webs el problema suelen ser las etiquetas, categorías infinitas o parámetros de búsqueda.

User-agent: *

Disallow: /wp-admin/

Disallow: /?s=

Disallow: /buscar/

Disallow: /tag/

Allow: /wp-admin/admin-ajax.php

Sitemap: https://dominio.com/sitemap.xml

Sitemap: https://dominio.com/sitemap-posts.xml

Para blogs y sitios de noticias, el objetivo principal es evitar que los motores de búsqueda rastreen e indexen contenido duplicado o de bajo valor, como los resultados de búsqueda interna, las páginas de etiquetas o las categorías que no se desean posicionar.

Esta configuración ayuda a optimizar el presupuesto de rastreo y a que Google se enfoque en el contenido de calidad, como los artículos y noticias.

3 – Robots.txt para ecommerce

En ecommerce lo importante es no duplicar contenido con filtros de URL y carritos.

User-agent: *

Disallow: /wp-admin/

Disallow: /carrito/

Disallow: /checkout/

Disallow: /mi-cuenta/

Disallow: /*?orderby=

Disallow: /*?filter_

Disallow: /*?color=

Disallow: /*?talla=

Disallow: /*?precio=

Disallow: /*?orderby=

Disallow: /*?add-to-cart=

Allow: /wp-admin/admin-ajax.php

Sitemap: https://dominio.com/sitemap.xml

Sitemap: https://dominio.com/sitemap-products.xml

Aquí le decimos a Google que ignore carrito, checkout, cuenta y parámetros típicos de WooCommerce. Cada vez que cualquier usuario haga un filtrado en nuetra web se generará una nueva URL que Google indezará si llega a ella, lo que generará contenido duplicado.

Imagínate la de cientos de URL que se pueden generar si no específicamos ningun parámetro en el Robots.txt. Aquí, además, debemos hacer uso de los canonicals para ayudar a Google e indicarle cual es la URL que queremos posicionar.

4 – Robots.txt para web en desarrollo (nunca en producción)

Si quieres que no entre nadie mientras la trabajas:

User-agent: *

Disallow: /

Esto bloquea TODO. Pero ojo: no sirve para evitar que aparezca en Google si ya estaba indexada.

Para eso necesitas protección con contraseña o meta noindex. La directiva `Disallow: /` es un comando crucial para desarrolladores, ya que evita que los motores de búsqueda rastreen e indexen el sitio web mientras aún está en construcción.

Es importante recordar que esta instrucción no es un método de seguridad infalible; solo funciona con bots que respetan el protocolo.

5 – Robots.txt para medio digital

Si quieres que no entre nadie mientras la trabajas:

User-agent: *

Disallow: /wp-admin/

Disallow: /buscar/

Disallow: /tag/

Disallow: /autor/

Allow: /wp-admin/admin-ajax.php

Sitemap: https://dominio.com/sitemap.xml

Sitemap: https://dominio.com/sitemap-news.xml

Sitemap: https://dominio.com/sitemap-categories.xml

Ideal para periódicos o webs con cientos de noticias al día. Así le podremos decir cuales son los sitemaps por noticias, por categorías o crear cualquier sitemap. En un medio digital, el “robots.txt” es fundamental para gestionar un gran volumen de contenido.

Además de las directivas comunes para evitar el rastreo de áreas administrativas y de búsqueda, se añaden reglas para ignorar directorios con contenido repetitivo, como los archivos de autor.

También, la inclusión de múltiples sitemaps específicos ayuda a los rastreadores a descubrir y priorizar contenido nuevo de manera más eficiente.

6 – Robots.txt para “bots pesados” (Ahrefs, Semrush, etc.)

Si no quieres que ciertos crawlers externos te consuman ancho de banda:

User-agent: AhrefsBot

Disallow: /

User-agent: SemrushBot

Disallow: /

User-agent: MJ12bot

Disallow: /

User-agent: *

Disallow:

Sitemap: https://dominio.com/sitemap.xml

Bloqueas rastreadores de herramientas SEO y dejas paso libre a Google, Bing, etc. Este tipo de archivo se usa para controlar el acceso de bots que, si bien son útiles para análisis SEO, pueden consumir un gran ancho de banda en el servidor, ralentizando el sitio web.

Al especificar un “User-agent” para cada bot y la directiva “Disallow: /”, se les prohíbe el acceso completo, mientras que “User-agent: *” con “Disallow:” sin valor garantiza que los rastreadores de motores de búsqueda principales, como Google, puedan acceder sin restricciones.

Que user-agent existen para el robots.txt

El User-agent es básicamente el “nombre” que usan los robots de los buscadores para identificarse cuando rastrean tu web. Cada bot tiene el suyo, y en el robots.txt puedes dar órdenes distintas a cada uno.

Puedes decirle a Googlebot que acceda a todo, pero bloquear a AhrefsBot porque solo viene a espiar.