Generador de robots.txt online
Crea un archivo robots.txt optimizado para tu CMS (WordPress, Shopify, PrestaShop, Magento, Joomla, Drupal) con reglas personalizadas, bloqueo de bots de IA y sitemap. Listo para descargar.
Última actualización:
Plantilla por plataforma
Bloquea wp-admin, archivos del core y URLs de búsqueda interna. Permite admin-ajax (necesario para plugins).
Bloqueos extra
robots.txt generado
# robots.txt generado con seokit.es
# Última actualización: 2026-04-23
User-agent: *
Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/*/style.css
Disallow: /readme.html
Disallow: /license.txt
Disallow: /xmlrpc.php
Disallow: /?s=
Disallow: /search/
Disallow: /trackback/
Disallow: /comments/feed/
Disallow: /*?replytocom=
https://tuweb.com/robots.txtCómo funciona
- Selecciona tu CMS (WordPress, Shopify, PrestaShop, Magento, Joomla, Drupal, Wix, Squarespace o genérico).
- Añade la URL de tu sitemap y opcionalmente reglas personalizadas.
- Activa los bloqueos extra que te interesen (scrapers SEO o bots de IA).
- Copia o descarga el archivo
robots.txtgenerado. - Súbelo a la raíz de tu dominio:
https://tuweb.com/robots.txt.
Qué es robots.txt y por qué es crítico
El robots.txt es la primera cosa que descarga cualquier bot al visitar tu web. Es un archivo de texto plano que sigue el “Robots Exclusion Protocol” — un estándar respetado por todos los buscadores principales (Google, Bing, Yandex, DuckDuckGo) y la mayoría de bots SEO.
Su función es decirle a cada bot qué URLs puede rastrear y cuáles no. Por ejemplo:
User-agent: *
Disallow: /admin/
Disallow: /carrito/
Sitemap: https://miweb.com/sitemap.xml
Esto le dice a todos los bots (*) que no rastreen las carpetas /admin/ ni /carrito/, y les indica dónde está el sitemap.
Por qué importa para el SEO
Google asigna a cada web un presupuesto de rastreo (crawl budget): un número limitado de URLs que rastrea por sesión. Si dejas que rastree URLs sin valor SEO (filtros, búsquedas internas, páginas de cuenta), estás “gastando” presupuesto que podría dedicar a tu contenido importante.
Un robots.txt bien configurado:
- ✅ Acelera la indexación de tu contenido nuevo
- ✅ Evita contenido duplicado por URLs con parámetros
- ✅ Protege tu ancho de banda bloqueando bots agresivos
- ✅ Mantiene fuera del índice rutas privadas
Un robots.txt mal configurado puede:
- ❌ Desindexar toda tu web (literal: he visto webs perder el 100% del tráfico por una línea mal escrita)
- ❌ Bloquear archivos CSS/JS que Google necesita para renderizar
- ❌ Permitir indexar páginas privadas o de admin
Sintaxis básica del robots.txt
User-agent
Define para qué bot aplica el bloque. * significa “todos los bots”.
User-agent: * → Todos los bots
User-agent: Googlebot → Solo el bot de Google
User-agent: Bingbot → Solo el bot de Bing
Disallow
Bloquea el rastreo de una ruta. Acepta wildcards.
Disallow: /admin/ → Bloquea todo lo que cuelgue de /admin/
Disallow: /*.pdf$ → Bloquea todos los PDFs
Disallow: /*?utm_* → Bloquea URLs con parámetros UTM
Disallow: → No bloquea nada (permite todo)
Allow
Excepciones a un Disallow más amplio. Útil para permitir subrutas dentro de carpetas bloqueadas.
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php → Bloquea wp-admin pero permite admin-ajax
Sitemap
Indica dónde está tu sitemap XML. Puede haber varios.
Sitemap: https://miweb.com/sitemap.xml
Sitemap: https://miweb.com/sitemap-blog.xml
Crawl-delay (no oficial)
Pide al bot que espere X segundos entre cada petición. Google lo ignora, pero Bing y Yandex sí lo respetan.
Crawl-delay: 5 → Espera 5 segundos entre URLs
Plantillas por CMS
WordPress
WordPress por defecto no genera un robots.txt físico (es virtual y muy básico). Tienes que crear uno personalizado. Lo recomendado:
User-agent: *
Allow: /wp-admin/admin-ajax.php
Allow: /wp-content/uploads/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /readme.html
Disallow: /xmlrpc.php
Disallow: /?s=
Disallow: /search/
Sitemap: https://tuweb.com/sitemap.xml
Por qué:
/wp-admin/y/wp-includes/son del core, no aportan SEO/wp-content/plugins/puede revelar plugins instalados (riesgo de seguridad)/admin-ajax.phpdebe permitirse (lo usan muchos plugins legítimamente)/wp-content/uploads/debe permitirse (tus imágenes deben indexarse)/?s=y/search/son búsquedas internas (contenido duplicado)/xmlrpc.phpes un vector de ataque común; bloquearlo es buena práctica
Shopify
Shopify ya incluye un robots.txt por defecto, pero lo puedes personalizar desde la versión 2.4 con robots.txt.liquid. Lo más importante:
User-agent: *
Disallow: /admin
Disallow: /cart
Disallow: /orders
Disallow: /checkout
Disallow: /account
Disallow: /search
Disallow: /a/
Disallow: /*?q=
Disallow: /*?sort_by=
Sitemap: https://tutienda.myshopify.com/sitemap.xml
PrestaShop
PrestaShop genera automáticamente un robots.txt desde el backoffice (Tráfico → SEO y URL → Generar archivo robots.txt). Pero a menudo necesita ajustes:
User-agent: *
Disallow: /classes/
Disallow: /config/
Disallow: /controllers/
Disallow: /modules/
Disallow: /tools/
Disallow: /upload/
Disallow: /var/
Disallow: /cart
Disallow: /search
Disallow: /authentication
Disallow: /*?orderby=
Disallow: /*?orderway=
Disallow: /*?search_query=
Sitemap: https://tutienda.com/1_index_sitemap.xml
Magento 2
Magento es complejo y genera muchas URLs duplicadas por filtros. Robots.txt mínimo:
User-agent: *
Disallow: /admin/
Disallow: /catalog/product_compare/
Disallow: /catalogsearch/
Disallow: /checkout/
Disallow: /customer/
Disallow: /sendfriend/
Disallow: /wishlist/
Disallow: /*?SID=
Disallow: /*?p=
Disallow: /*?dir=
Sitemap: https://tutienda.com/sitemap.xml
Joomla, Drupal, Wix, Squarespace
Cada uno tiene sus particularidades. Nuestra herramienta te genera el robots.txt optimizado para cada CMS automáticamente — solo tienes que seleccionar la plantilla.
Bloquear bots de IA: pros y contras
Desde 2023, los bots de OpenAI (GPTBot), Anthropic (Claude-Web, anthropic-ai), Google (Google-Extended), Perplexity, Bytespider (TikTok) y otros, rastrean la web para entrenar modelos de IA.
A favor de bloquearlos
- Tu contenido no se usa para entrenar IA sin tu consentimiento.
- Reduces el ancho de banda consumido.
- Proteges tu propiedad intelectual.
En contra de bloquearlos
- Las herramientas de IA (ChatGPT, Perplexity, Claude) no podrán citarte ni enviarte tráfico.
- En el futuro, el tráfico desde asistentes de IA puede ser una fuente importante.
- Algunos bots (como Google-Extended) son distintos de Googlebot — bloquearlos no afecta a tu SEO en Google pero sí a si Google usa tu contenido para AI Overviews.
Mi recomendación: depende de tu modelo de negocio:
- ¿Vives de tráfico orgánico y AdSense? → No bloquees, podrías perder tráfico futuro.
- ¿Eres medio de comunicación, banco de imágenes, o autor? → Bloquea, defiende tu IP.
Errores comunes y cómo evitarlos
1. Bloquear toda la web por error
❌ User-agent: *
Disallow: /
Esa única línea desindexa toda tu web. Asegúrate de que tienes:
✅ User-agent: *
Disallow: ← (vacío = permite todo)
2. Bloquear CSS y JavaScript
Si bloqueas las carpetas donde están tus CSS y JS, Google no puede renderizar tu web correctamente y puede penalizar tu UX. Asegúrate de permitir estas rutas.
❌ Disallow: /assets/
❌ Disallow: /js/
✅ Permite estos recursos para que Google renderice bien
3. Bloquear /uploads/ en WordPress
Tus imágenes son contenido SEO. Bloquearlas elimina tu presencia en Google Images.
❌ Disallow: /wp-content/uploads/
✅ Allow: /wp-content/uploads/
4. Confiar en robots.txt para “ocultar” contenido sensible
robots.txt es público y accesible por cualquiera en tuweb.com/robots.txt. Indicar ahí que tienes /admin-secreto/ es como poner un cartel grande.
Para contenido sensible: usa autenticación HTTP, noindex o firewall, no robots.txt.
5. Olvidar declarar el sitemap
Aunque envíes el sitemap por Search Console, declararlo en robots.txt ayuda a Bing, Yandex y otros buscadores que no tienen tu cuenta de Search Console.
6. Usar Crawl-delay para Google
Google ignora el Crawl-delay. Si quieres limitar el rastreo de Google, ve a Search Console → Configuración → Frecuencia de rastreo.
Cómo validar tu robots.txt
1. Probador oficial de Google
Search Console → Configuración → Probador de robots.txt. Te dice si una URL específica está bloqueada o permitida.
2. Comprueba que es accesible
Sube el archivo y abre https://tuweb.com/robots.txt en el navegador. Si no se ve el contenido en texto plano, hay algo mal con la subida.
3. Audita con nuestro Analizador SEO
Pasa nuestro Analizador SEO sobre tu home — comprobará que el robots.txt no bloquea recursos críticos.
4. Revisa Search Console regularmente
En Search Console → Cobertura verás si Google está bloqueando URLs que no querías bloquear. Las páginas con error “Bloqueada por robots.txt” son la señal de que necesitas revisar el archivo.
Buenas prácticas
- Mantén el robots.txt en menos de 500 KB (límite de Google).
- Comenta las reglas con
#para que tu yo del futuro entienda por qué bloqueaste algo. - Versiona el archivo en Git junto al código de tu web — así puedes revertir cambios si rompes algo.
- Audítalo cada 6 meses: rutas que tenían sentido bloquear hace un año pueden no tenerlo ahora.
- Combínalo con sitemap.xml: robots.txt dice qué NO rastrear; sitemap dice qué SÍ priorizar.
Limitaciones del robots.txt
- No es de aplicación obligatoria: bots maliciosos lo ignoran. Para protección real, usa firewall.
- No oculta del índice: una URL bloqueada por robots.txt puede aparecer en SERP sin descripción si tiene enlaces externos.
- No protege archivos privados: cualquiera puede leer el robots.txt y ver qué bloqueas.
- Cambios tardan días: Google puede tardar 24h-7 días en aplicar los cambios.
Próximos pasos
- Genera tu robots.txt con los presets de tu CMS arriba.
- Súbelo a la raíz de tu dominio (
https://tuweb.com/robots.txt). - Verifica que es accesible abriéndolo en el navegador.
- Pruébalo en Search Console → Probador de robots.txt.
- Audita el resto con nuestro Analizador SEO.
Cuando tengas el robots.txt en su sitio, completa el SEO técnico generando el sitemap.xml (próximamente) y validando los datos estructurados con nuestro Generador de JSON-LD.
Preguntas frecuentes
¿Qué es el archivo robots.txt?
tuweb.com/robots.txt) y le indica a los bots de los buscadores qué URLs pueden o no pueden rastrear. Es la primera cosa que mira Googlebot al visitar tu sitio. ¿Bloquear una URL en robots.txt la elimina de Google?
noindex en el HTML, no robots.txt. ¿Cuándo debo usar robots.txt y cuándo noindex?
¿Dónde subo el archivo robots.txt?
https://tuweb.com/robots.txt. Si está en una subcarpeta, los buscadores no lo encontrarán. ¿Es seguro bloquear los bots de IA (GPTBot, ChatGPT, Claude…)?
¿Necesito declarar el sitemap en robots.txt si ya lo envío en Search Console?
¿Qué pasa si me equivoco y bloqueo toda mi web por error?
Disallow: / en lugar de Disallow:) puede desindexar toda tu web en pocos días. Por eso es crítico validar el archivo antes de publicarlo. Usa Search Console → Robots.txt Tester o nuestro Analizador SEO. ¿Cuánto tarda Google en aplicar los cambios del robots.txt?
Herramientas relacionadas
Generador de sitemap.xml online
Crea un sitemap.xml válido para tu web a partir de una lista de URLs. Configura lastmod, changefreq y priority. Listo para descargar y subir a tu servidor.
SEO técnicoTest de Core Web Vitals online
Mide LCP, INP, CLS y demás Core Web Vitals de cualquier URL. Datos de laboratorio + datos reales (CrUX) y oportunidades de mejora priorizadas.
On-Page SEOAnalizador SEO online gratis
Analiza el SEO on-page de cualquier URL en segundos. Detecta problemas en meta tags, encabezados, imágenes, enlaces, Open Graph, Schema y más.