Un archivo llms.txt es relativamente nuevo en el ecosistema web y está vinculado a cómo los modelos de lenguaje (LLMs) como ChatGPT, Claude, Gemini, etc., interactúan con sitios web.
📌 ¿Qué es?
- Es un archivo de texto plano que se coloca en la raíz del dominio (
https://tusitio.com/llms.txt
). - Similar a
robots.txt
, pero pensado específicamente para indicar permisos, restricciones o lineamientos sobre el uso de contenido del sitio por parte de modelos de IA. - Sirve para declarar políticas de acceso, atribución, entrenamiento y uso de datos que los LLMs deberían respetar.
- Está pensado para ser legible tanto para humanos como para sistemas de IA, utilizando principalmente el formato Markdown.
📌 ¿Para qué sirve?
- Puedes usarlo para permitir o bloquear que los modelos de IA.
- Ofrecer directivas específicas para modelos IA sobre qué contenido puede usarse para entrenamiento, generación de respuestas, u otro tipo de interacción, diferenciando incluso entre tipos de modelos o proveedores.
- Reducir elementos innecesarios (scripts, menús, anuncios) y garantizar que la data presentada sea clara y válida para procesamientos automáticos
- Accedan a determinadas secciones del sitio.
- También puede incluir información de licencias o créditos.
Ejemplo básico:
# Archivo llms.txt
User-Agent: *
Disallow: /privado/
Allow: /publico/
Policy: NoTraining
Attribution: Required
📌 ¿Se aplica solo a WordPress?
❌ No.
El llms.txt
no depende de WordPress ni de ningún CMS específico.
Se puede usar en cualquier tipo de sitio web (estático, dinámico, hecho en WordPress, Joomla, Drupal, Laravel, HTML puro, etc.).
Lo importante es que esté disponible en la raíz pública del dominio para que los bots de IA lo detecten.
📄 Ejemplo de llms.txt
# llms.txt - Directivas para modelos de lenguaje (LLMs)
# Especificamos que estas reglas aplican a todos los LLMs
User-Agent: *
# Bloqueamos carpetas sensibles de WordPress
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /cgi-bin/
# Permitimos contenido público indexable
Allow: /wp-content/uploads/
Allow: /blog/
Allow: /productos/
Allow: /
# Política de uso del contenido
Policy: NoTraining # No se permite usar este contenido para entrenar IA
Policy: LimitedUse # Solo se puede usar para generación de snippets/resúmenes
# Atribución obligatoria al mostrar extractos
Attribution: Required
# Información de contacto
Contact: admin@tusitio.com
# Fuente de licencia de contenido
License: https://tusitio.com/licencia-contenido
📌 Explicación de las directivas
- User-Agent: a quién aplican las reglas (
*
= todos los LLMs). - Disallow / Allow: similar a
robots.txt
, define qué carpetas o rutas puede usar un modelo de IA. - Policy:
NoTraining
→ prohíbe usar el contenido para entrenar modelos.LimitedUse
→ permite mostrarlo en resúmenes o snippets, pero no entrenar.
- Attribution: Required → obliga a citar la fuente.
- Contact / License → añade transparencia y respaldo legal.
👉 Recomendación: si tu enfoque es SEO y quieres que Google, Bing u otros bots tradicionales sigan indexando el contenido, no uses el llms.txt
para bloquear /
completo, solo apunta a IA.
El archivo llms.txt aún no es un estándar universal, pero está ganando espacio por la importancia creciente de la IA en internet y la necesidad de ofrecer marcos claros para la indexación y uso de contenidos por sistemas inteligentes.
Si te gustó este artículo, suscríbete a nuestro canal de YouTube para videos tutoriales de Hosting, prácticas y demás. También puede encontrarnos en X (Twitter), Facebook e Instagram, además de LinkedIn.