Si hablamos de SEO técnico, el robots.txt es ese pequeño archivo de texto que parece inofensivo, pero que, mal usado, puede hundir una web entera en los resultados de Google. Y lo peor: la mayoría de las webs lo tienen configurado de cualquier manera, sin entender realmente qué hace.
Así que prepárate, porque vamos a repasar qué es, para qué sirve, los comandos disponibles, ejemplos prácticos y hasta trucos avanzados que no te cuenta casi nadie.
¿Qué es el archivo robots.txt?
Es un archivo de texto plano que colocamos en la raíz de un dominio. Para ponerte un ejemplo sería algo así: https://dominio.com/robots.txt.
Su función es dar instrucciones a los robots de búsqueda (Googlebot, Bingbot, etc.) sobre qué partes de la web pueden rastrear y cuáles no.
Importante
El archivo robots.txt no bloquea la indexación, solo controla el rastreo. Si una URL está enlazada desde otros sitios o aparece en un sitemap, Google puede acabar indexándola aunque esté en “Disallow”. Para bloquear indexación hay que usar noindex, meta robots o cabeceras HTTP.
¿Cómo funciona el archivo robots.txt?
Piensa en el robots.txt como la “lista de invitados” de tu sitio web. Cuando un bot como Googlebot llega a tu dominio, lo primero que busca es este archivo para saber qué áreas de tu web están abiertas para él. Si no encuentra el archivo o no hay instrucciones específicas, asumirá que puede rastrear todo.
Es importante destacar que el robots.txt no es una herramienta de seguridad. Si bien impide que los bots de buscadores accedan a ciertas áreas, no evita que un usuario con la URL directa pueda entrar. Algún bot podría decidir ignorar las instrucciones, aunque los rastreadores más importantes y respetados como Googlebot o Bingbot siempre las siguen.
Sintaxis básica del robots.txt
El archivo robots.txt se construye con una serie de directivas sencillas. Estas son las más importantes:
User-agent: Esta directiva especifica a qué robot se le aplica la instrucción. Puedes dirigirte a un bot en particular, como Googlebot (el rastreador de Google) o Bingbot (el de Bing), o usar un asterisco (*) para aplicar la regla a todos los rastreadores.Disallow: Con esta directiva, le indicas al robot que bloquee el acceso a un directorio o a una URL específica. Por ejemplo, Disallow: /privado/ le dice al bot que no entre en la carpeta privado.Allow: Esta directiva permite que un bot acceda a una URL o directorio, incluso si está dentro de una carpeta que has bloqueado con Disallow. Es útil para ser más específico con tus permisos. Por ejemplo, podrías bloquear una carpeta entera pero permitir el acceso a un archivo concreto dentro de ella.Sitemap: Aunque no es una directiva de rastreo, esta es una de las más útiles. Le indica a los motores de búsqueda la ubicación de tu sitemap XML, que es un archivo que lista todas las URLs de tu sitio. Esto ayuda a que los buscadores descubran y rastreen todas tus páginas importantes de forma más eficiente.
Todos los comandos en robots.txt
Aquí hay mucho mito. El estándar oficial (RFC 9309) del robots.txt solo reconoce unos pocos comandos básicos que son los que hemos visto antes. Todo lo demás son extensiones que algunos buscadores (Bing, Yandex, etc.) reconocen, pero Google solo hace caso a esos 4
| Comando | Función | ¿Lo respeta Google? |
|---|---|---|
| User-agent | Selección de robot | ✅ |
| Disallow | Bloquear rastreo | ✅ |
| Allow | Permitir excepciones | ✅ |
| Sitemap | Indicar sitemaps | ✅ |
| Crawl-delay | Controlar pausas | ❌ (solo Bing/Yandex) |
| Clean-param | Ignorar parámetros | ❌ (solo Yandex) |
| Host | Dominio preferido | ❌ (solo Yandex) |
| Noindex/Nofollow | Bloquear indexación | ❌ (Google no los usa) |
¿Por qué es importante el robots.txt para el SEO?
Con un robots.txt bien trabajado, Google dedica tiempo a lo que importa (tus páginas de negocio) y olvida el ruido. Por lo tanto, podemos decir que el robots es importante porque:
- Optimiza el presupuesto de rastreo (crawl budget): le dices a Google dónde no perder el tiempo.
- Protege secciones innecesarias: evita que se rastreen duplicados, filtros de búsqueda, parámetros, etc.
- Ayuda en la organización: controlas qué robots entran y qué hacen.
- Previene errores: si un directorio privado se rastrea, puede acabar mostrando datos sensibles.
Plantillas de robots.txt para distintos tipos de web
A continuación, se presentan los diferentes ejemplos de Robots.txt con un párrafo explicativo para cada uno, siguiendo el estilo que proporcionaste.
1 – Robots.txt para web corporativa
Normalmente, no tienen miles de páginas, así que el “robots.txt” es sencillo:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://dominio.com/sitemap.xml
Este archivo es ideal para sitios sencillos, como las webs corporativas.
Su principal función es instruir a los rastreadores para que eviten el área de administración del CMS (como WordPress), impidiendo que se indexen archivos o páginas internas que no aportan valor para el SEO, al mismo tiempo que permite el acceso a archivos cruciales como “admin-ajax.php”, que muchos plugins necesitan para funcionar correctamente.
2 – Robots.txt para blogs o medio de noticias
En este tipo de webs el problema suelen ser las etiquetas, categorías infinitas o parámetros de búsqueda.
User-agent: *
Disallow: /wp-admin/
Disallow: /?s=
Disallow: /buscar/
Disallow: /tag/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://dominio.com/sitemap.xml
Sitemap: https://dominio.com/sitemap-posts.xml
Para blogs y sitios de noticias, el objetivo principal es evitar que los motores de búsqueda rastreen e indexen contenido duplicado o de bajo valor, como los resultados de búsqueda interna, las páginas de etiquetas o las categorías que no se desean posicionar.
Esta configuración ayuda a optimizar el presupuesto de rastreo y a que Google se enfoque en el contenido de calidad, como los artículos y noticias.
3 – Robots.txt para ecommerce
En ecommerce lo importante es no duplicar contenido con filtros de URL y carritos.
User-agent: *
Disallow: /wp-admin/
Disallow: /carrito/
Disallow: /checkout/
Disallow: /mi-cuenta/
Disallow: /*?orderby=
Disallow: /*?filter_
Disallow: /*?color=
Disallow: /*?talla=
Disallow: /*?precio=
Disallow: /*?orderby=
Disallow: /*?add-to-cart=
Allow: /wp-admin/admin-ajax.php
Sitemap: https://dominio.com/sitemap.xml
Sitemap: https://dominio.com/sitemap-products.xml
Aquí le decimos a Google que ignore carrito, checkout, cuenta y parámetros típicos de WooCommerce. Cada vez que cualquier usuario haga un filtrado en nuetra web se generará una nueva URL que Google indezará si llega a ella, lo que generará contenido duplicado.
Imagínate la de cientos de URL que se pueden generar si no específicamos ningun parámetro en el Robots.txt. Aquí, además, debemos hacer uso de los canonicals para ayudar a Google e indicarle cual es la URL que queremos posicionar.
4 – Robots.txt para web en desarrollo (nunca en producción)
Si quieres que no entre nadie mientras la trabajas:
User-agent: *
Disallow: /
Esto bloquea TODO. Pero ojo: no sirve para evitar que aparezca en Google si ya estaba indexada.
Para eso necesitas protección con contraseña o meta noindex. La directiva `Disallow: /` es un comando crucial para desarrolladores, ya que evita que los motores de búsqueda rastreen e indexen el sitio web mientras aún está en construcción.
Es importante recordar que esta instrucción no es un método de seguridad infalible; solo funciona con bots que respetan el protocolo.
5 – Robots.txt para medio digital
Si quieres que no entre nadie mientras la trabajas:
User-agent: *
Disallow: /wp-admin/
Disallow: /buscar/
Disallow: /tag/
Disallow: /autor/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://dominio.com/sitemap.xml
Sitemap: https://dominio.com/sitemap-news.xml
Sitemap: https://dominio.com/sitemap-categories.xml
Ideal para periódicos o webs con cientos de noticias al día. Así le podremos decir cuales son los sitemaps por noticias, por categorías o crear cualquier sitemap. En un medio digital, el “robots.txt” es fundamental para gestionar un gran volumen de contenido.
Además de las directivas comunes para evitar el rastreo de áreas administrativas y de búsqueda, se añaden reglas para ignorar directorios con contenido repetitivo, como los archivos de autor.
También, la inclusión de múltiples sitemaps específicos ayuda a los rastreadores a descubrir y priorizar contenido nuevo de manera más eficiente.
6 – Robots.txt para “bots pesados” (Ahrefs, Semrush, etc.)
Si no quieres que ciertos crawlers externos te consuman ancho de banda:
User-agent: AhrefsBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: *
Disallow:
Sitemap: https://dominio.com/sitemap.xml
Bloqueas rastreadores de herramientas SEO y dejas paso libre a Google, Bing, etc. Este tipo de archivo se usa para controlar el acceso de bots que, si bien son útiles para análisis SEO, pueden consumir un gran ancho de banda en el servidor, ralentizando el sitio web.
Al especificar un “User-agent” para cada bot y la directiva “Disallow: /”, se les prohíbe el acceso completo, mientras que “User-agent: *” con “Disallow:” sin valor garantiza que los rastreadores de motores de búsqueda principales, como Google, puedan acceder sin restricciones.
Que user-agent existen para el robots.txt
El User-agent es básicamente el “nombre” que usan los robots de los buscadores para identificarse cuando rastrean tu web. Cada bot tiene el suyo, y en el robots.txt puedes dar órdenes distintas a cada uno.
Puedes decirle a Googlebot que acceda a todo, pero bloquear a AhrefsBot porque solo viene a espiar.
Listado de user-agents más conocidos
- Googlebot → el rastreador web principal de Google.
- Googlebot-Image → rastrea imágenes.
- Googlebot-News → para Google News.
- Googlebot-Video → indexa contenido de vídeo.
- Mediapartners-Google → Google AdSense.
- AdsBot-Google → comprueba la calidad de las páginas para Google Ads.
- APIs-Google → acceso a APIs de Google.
- Googlebot-Mobile → antiguo bot para móvil (ya casi retirado).
Bing (Microsoft)
- Bingbot → el rastreador general.
- AdIdxBot → para anuncios de Bing Ads.
- MSNBot → el viejo rastreador (aún activo a veces).
Yandex (Rusia)
- YandexBot → general.
- YandexImages → imágenes.
- YandexVideo → vídeos.
- YandexMedia → contenido multimedia.
- YandexNews → noticias.
- YandexDirect → anuncios.
Baidu (China)
- Baiduspider → rastreador principal.
- Baiduspider-Image → imágenes.
- Baiduspider-Video → vídeos.
- Baiduspider-News → noticias.
Otros rastreadores conocidos
- DuckDuckBot → DuckDuckGo.
- Slurp → Yahoo (ahora menos usado).
- facebookexternalhit → Facebook (cuando comparte enlaces).
- Twitterbot → Twitter/X.
- Applebot → Apple (para Siri y Spotlight).
- SemrushBot → rastreador de Semrush.
- AhrefsBot → rastreador de Ahrefs.
- MJ12bot → Majestic.





