Saltar al contenido
SEO Toolkit
SEO técnico

Generador de robots.txt online

Crea un archivo robots.txt optimizado para tu CMS (WordPress, Shopify, PrestaShop, Magento, Joomla, Drupal) con reglas personalizadas, bloqueo de bots de IA y sitemap. Listo para descargar.

Última actualización:

Plantilla por plataforma

Bloquea wp-admin, archivos del core y URLs de búsqueda interna. Permite admin-ajax (necesario para plugins).

Bloqueos extra

robots.txt generado

# robots.txt generado con seokit.es
# Última actualización: 2026-04-23

User-agent: *
Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/*/style.css
Disallow: /readme.html
Disallow: /license.txt
Disallow: /xmlrpc.php
Disallow: /?s=
Disallow: /search/
Disallow: /trackback/
Disallow: /comments/feed/
Disallow: /*?replytocom=
Súbelo a la raíz de tu dominio: https://tuweb.com/robots.txt

Cómo funciona

  1. Selecciona tu CMS (WordPress, Shopify, PrestaShop, Magento, Joomla, Drupal, Wix, Squarespace o genérico).
  2. Añade la URL de tu sitemap y opcionalmente reglas personalizadas.
  3. Activa los bloqueos extra que te interesen (scrapers SEO o bots de IA).
  4. Copia o descarga el archivo robots.txt generado.
  5. Súbelo a la raíz de tu dominio: https://tuweb.com/robots.txt.

Qué es robots.txt y por qué es crítico

El robots.txt es la primera cosa que descarga cualquier bot al visitar tu web. Es un archivo de texto plano que sigue el “Robots Exclusion Protocol” — un estándar respetado por todos los buscadores principales (Google, Bing, Yandex, DuckDuckGo) y la mayoría de bots SEO.

Su función es decirle a cada bot qué URLs puede rastrear y cuáles no. Por ejemplo:

User-agent: *
Disallow: /admin/
Disallow: /carrito/
Sitemap: https://miweb.com/sitemap.xml

Esto le dice a todos los bots (*) que no rastreen las carpetas /admin/ ni /carrito/, y les indica dónde está el sitemap.

Por qué importa para el SEO

Google asigna a cada web un presupuesto de rastreo (crawl budget): un número limitado de URLs que rastrea por sesión. Si dejas que rastree URLs sin valor SEO (filtros, búsquedas internas, páginas de cuenta), estás “gastando” presupuesto que podría dedicar a tu contenido importante.

Un robots.txt bien configurado:

  • Acelera la indexación de tu contenido nuevo
  • Evita contenido duplicado por URLs con parámetros
  • Protege tu ancho de banda bloqueando bots agresivos
  • Mantiene fuera del índice rutas privadas

Un robots.txt mal configurado puede:

  • Desindexar toda tu web (literal: he visto webs perder el 100% del tráfico por una línea mal escrita)
  • Bloquear archivos CSS/JS que Google necesita para renderizar
  • Permitir indexar páginas privadas o de admin

Sintaxis básica del robots.txt

User-agent

Define para qué bot aplica el bloque. * significa “todos los bots”.

User-agent: *           → Todos los bots
User-agent: Googlebot   → Solo el bot de Google
User-agent: Bingbot     → Solo el bot de Bing

Disallow

Bloquea el rastreo de una ruta. Acepta wildcards.

Disallow: /admin/        → Bloquea todo lo que cuelgue de /admin/
Disallow: /*.pdf$        → Bloquea todos los PDFs
Disallow: /*?utm_*       → Bloquea URLs con parámetros UTM
Disallow:                → No bloquea nada (permite todo)

Allow

Excepciones a un Disallow más amplio. Útil para permitir subrutas dentro de carpetas bloqueadas.

Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php   → Bloquea wp-admin pero permite admin-ajax

Sitemap

Indica dónde está tu sitemap XML. Puede haber varios.

Sitemap: https://miweb.com/sitemap.xml
Sitemap: https://miweb.com/sitemap-blog.xml

Crawl-delay (no oficial)

Pide al bot que espere X segundos entre cada petición. Google lo ignora, pero Bing y Yandex sí lo respetan.

Crawl-delay: 5   → Espera 5 segundos entre URLs

Plantillas por CMS

WordPress

WordPress por defecto no genera un robots.txt físico (es virtual y muy básico). Tienes que crear uno personalizado. Lo recomendado:

User-agent: *
Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /readme.html
Disallow: /xmlrpc.php
Disallow: /?s=
Disallow: /search/
Sitemap: https://tuweb.com/sitemap.xml

Por qué:

  • /wp-admin/ y /wp-includes/ son del core, no aportan SEO
  • /wp-content/plugins/ puede revelar plugins instalados (riesgo de seguridad)
  • /admin-ajax.php debe permitirse (lo usan muchos plugins legítimamente)
  • /wp-content/uploads/ debe permitirse (tus imágenes deben indexarse)
  • /?s= y /search/ son búsquedas internas (contenido duplicado)
  • /xmlrpc.php es un vector de ataque común; bloquearlo es buena práctica

Shopify

Shopify ya incluye un robots.txt por defecto, pero lo puedes personalizar desde la versión 2.4 con robots.txt.liquid. Lo más importante:

User-agent: *
Disallow: /admin
Disallow: /cart
Disallow: /orders
Disallow: /checkout
Disallow: /account
Disallow: /search
Disallow: /a/
Disallow: /*?q=
Disallow: /*?sort_by=
Sitemap: https://tutienda.myshopify.com/sitemap.xml

PrestaShop

PrestaShop genera automáticamente un robots.txt desde el backoffice (Tráfico → SEO y URL → Generar archivo robots.txt). Pero a menudo necesita ajustes:

User-agent: *
Disallow: /classes/
Disallow: /config/
Disallow: /controllers/
Disallow: /modules/
Disallow: /tools/
Disallow: /upload/
Disallow: /var/
Disallow: /cart
Disallow: /search
Disallow: /authentication
Disallow: /*?orderby=
Disallow: /*?orderway=
Disallow: /*?search_query=
Sitemap: https://tutienda.com/1_index_sitemap.xml

Magento 2

Magento es complejo y genera muchas URLs duplicadas por filtros. Robots.txt mínimo:

User-agent: *
Disallow: /admin/
Disallow: /catalog/product_compare/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /customer/
Disallow: /sendfriend/
Disallow: /wishlist/
Disallow: /*?SID=
Disallow: /*?p=
Disallow: /*?dir=
Sitemap: https://tutienda.com/sitemap.xml

Joomla, Drupal, Wix, Squarespace

Cada uno tiene sus particularidades. Nuestra herramienta te genera el robots.txt optimizado para cada CMS automáticamente — solo tienes que seleccionar la plantilla.

Bloquear bots de IA: pros y contras

Desde 2023, los bots de OpenAI (GPTBot), Anthropic (Claude-Web, anthropic-ai), Google (Google-Extended), Perplexity, Bytespider (TikTok) y otros, rastrean la web para entrenar modelos de IA.

A favor de bloquearlos

  • Tu contenido no se usa para entrenar IA sin tu consentimiento.
  • Reduces el ancho de banda consumido.
  • Proteges tu propiedad intelectual.

En contra de bloquearlos

  • Las herramientas de IA (ChatGPT, Perplexity, Claude) no podrán citarte ni enviarte tráfico.
  • En el futuro, el tráfico desde asistentes de IA puede ser una fuente importante.
  • Algunos bots (como Google-Extended) son distintos de Googlebot — bloquearlos no afecta a tu SEO en Google pero sí a si Google usa tu contenido para AI Overviews.

Mi recomendación: depende de tu modelo de negocio:

  • ¿Vives de tráfico orgánico y AdSense? → No bloquees, podrías perder tráfico futuro.
  • ¿Eres medio de comunicación, banco de imágenes, o autor? → Bloquea, defiende tu IP.

Errores comunes y cómo evitarlos

1. Bloquear toda la web por error

❌ User-agent: *
   Disallow: /

Esa única línea desindexa toda tu web. Asegúrate de que tienes:

✅ User-agent: *
   Disallow:        ← (vacío = permite todo)

2. Bloquear CSS y JavaScript

Si bloqueas las carpetas donde están tus CSS y JS, Google no puede renderizar tu web correctamente y puede penalizar tu UX. Asegúrate de permitir estas rutas.

❌ Disallow: /assets/
❌ Disallow: /js/

✅ Permite estos recursos para que Google renderice bien

3. Bloquear /uploads/ en WordPress

Tus imágenes son contenido SEO. Bloquearlas elimina tu presencia en Google Images.

❌ Disallow: /wp-content/uploads/
✅ Allow: /wp-content/uploads/

4. Confiar en robots.txt para “ocultar” contenido sensible

robots.txt es público y accesible por cualquiera en tuweb.com/robots.txt. Indicar ahí que tienes /admin-secreto/ es como poner un cartel grande.

Para contenido sensible: usa autenticación HTTP, noindex o firewall, no robots.txt.

5. Olvidar declarar el sitemap

Aunque envíes el sitemap por Search Console, declararlo en robots.txt ayuda a Bing, Yandex y otros buscadores que no tienen tu cuenta de Search Console.

6. Usar Crawl-delay para Google

Google ignora el Crawl-delay. Si quieres limitar el rastreo de Google, ve a Search Console → Configuración → Frecuencia de rastreo.

Cómo validar tu robots.txt

1. Probador oficial de Google

Search Console → Configuración → Probador de robots.txt. Te dice si una URL específica está bloqueada o permitida.

2. Comprueba que es accesible

Sube el archivo y abre https://tuweb.com/robots.txt en el navegador. Si no se ve el contenido en texto plano, hay algo mal con la subida.

3. Audita con nuestro Analizador SEO

Pasa nuestro Analizador SEO sobre tu home — comprobará que el robots.txt no bloquea recursos críticos.

4. Revisa Search Console regularmente

En Search Console → Cobertura verás si Google está bloqueando URLs que no querías bloquear. Las páginas con error “Bloqueada por robots.txt” son la señal de que necesitas revisar el archivo.

Buenas prácticas

  • Mantén el robots.txt en menos de 500 KB (límite de Google).
  • Comenta las reglas con # para que tu yo del futuro entienda por qué bloqueaste algo.
  • Versiona el archivo en Git junto al código de tu web — así puedes revertir cambios si rompes algo.
  • Audítalo cada 6 meses: rutas que tenían sentido bloquear hace un año pueden no tenerlo ahora.
  • Combínalo con sitemap.xml: robots.txt dice qué NO rastrear; sitemap dice qué SÍ priorizar.

Limitaciones del robots.txt

  • No es de aplicación obligatoria: bots maliciosos lo ignoran. Para protección real, usa firewall.
  • No oculta del índice: una URL bloqueada por robots.txt puede aparecer en SERP sin descripción si tiene enlaces externos.
  • No protege archivos privados: cualquiera puede leer el robots.txt y ver qué bloqueas.
  • Cambios tardan días: Google puede tardar 24h-7 días en aplicar los cambios.

Próximos pasos

  1. Genera tu robots.txt con los presets de tu CMS arriba.
  2. Súbelo a la raíz de tu dominio (https://tuweb.com/robots.txt).
  3. Verifica que es accesible abriéndolo en el navegador.
  4. Pruébalo en Search Console → Probador de robots.txt.
  5. Audita el resto con nuestro Analizador SEO.

Cuando tengas el robots.txt en su sitio, completa el SEO técnico generando el sitemap.xml (próximamente) y validando los datos estructurados con nuestro Generador de JSON-LD.

Preguntas frecuentes

¿Qué es el archivo robots.txt?
Es un archivo de texto que se coloca en la raíz de tu dominio (tuweb.com/robots.txt) y le indica a los bots de los buscadores qué URLs pueden o no pueden rastrear. Es la primera cosa que mira Googlebot al visitar tu sitio.
¿Bloquear una URL en robots.txt la elimina de Google?
No necesariamente. Si la URL ya está indexada o tiene enlaces externos, Google puede mostrarla en los resultados aunque no la rastree. Para eliminarla del índice usa la etiqueta noindex en el HTML, no robots.txt.
¿Cuándo debo usar robots.txt y cuándo noindex?
Usa robots.txt para evitar que los bots gasten presupuesto de rastreo en URLs sin valor SEO (carrito, búsqueda interna, área privada). Usa noindex para que no aparezcan en los resultados (páginas duplicadas, gracias por la compra, filtros).
¿Dónde subo el archivo robots.txt?
En la raíz de tu dominio. Es decir, debe ser accesible en https://tuweb.com/robots.txt. Si está en una subcarpeta, los buscadores no lo encontrarán.
¿Es seguro bloquear los bots de IA (GPTBot, ChatGPT, Claude…)?
Sí, no afecta al SEO de Google. Estos bots son distintos de Googlebot. Bloquearlos evita que tu contenido se use para entrenar modelos de IA. La decisión es tuya: depende de si te interesa aparecer en respuestas de ChatGPT/Perplexity (puede generar tráfico) o prefieres proteger tu propiedad intelectual.
¿Necesito declarar el sitemap en robots.txt si ya lo envío en Search Console?
Es recomendable hacerlo en ambos sitios. Bing, Yandex y otros buscadores no tienen Search Console, así que dependen del robots.txt para descubrir tu sitemap.
¿Qué pasa si me equivoco y bloqueo toda mi web por error?
Una sola línea mal escrita (Disallow: / en lugar de Disallow:) puede desindexar toda tu web en pocos días. Por eso es crítico validar el archivo antes de publicarlo. Usa Search Console → Robots.txt Tester o nuestro Analizador SEO.
¿Cuánto tarda Google en aplicar los cambios del robots.txt?
Google revisa el robots.txt aproximadamente una vez al día. Los cambios pueden tardar entre 24 horas y una semana en reflejarse en el comportamiento del bot. Para forzar la actualización, usa Search Console → Probar y enviar.

Herramientas relacionadas