Cómo impedir el acceso de bots de inteligencia artificial a tu sitio web

En la actualidad, muchos administradores de sitios web están tomando medidas para evitar que los bots de inteligencia artificial (IA) accedan y recopilen contenido sin autorización. Plataformas como OpenAI, DeepSeek y otras utilizan estos bots para recolectar información con el objetivo de entrenar modelos avanzados de lenguaje, muchas veces sin ofrecer crédito ni compensación a los creadores del contenido original.

A diferencia de los rastreadores de motores de búsqueda tradicionales, cuyo propósito es indexar y mejorar la visibilidad de los sitios, estos bots de IA solo buscan extraer datos para alimentar sus sistemas, sin aportar ningún beneficio a los propietarios del sitio web.

Si querés evitar que este tipo de tecnologías acceda a tu contenido, existen formas efectivas de limitar su actividad. En esta guía, te mostramos cómo hacerlo, principalmente a través de archivos como robots.txt y .htaccess.

Restringir bots de IA con el archivo robots.txt

Una manera sencilla de intentar evitar que estos bots accedan a tu sitio es mediante el uso del archivo robots.txt. Este archivo sirve como una guía para los rastreadores web, indicando qué partes del sitio pueden o no pueden explorar.

Aunque no todos los bots obedecen estas reglas —especialmente los más agresivos—, los bots bien intencionados suelen respetarlas. Por eso, es un buen primer paso. Solo tienes que agregar una lista de instrucciones y colocar el archivo en el directorio raíz de tu sitio web.

Aquí un ejemplo actualizado de un archivo robots.txt que bloquea los principales bots de inteligencia artificial para el entrenamiento de modelos, incluyendo los de OpenAI, Anthropic, Google, Perplexity, y otros.

# Bloqueo de bots de inteligencia artificial y modelos de lenguaje
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: GoogleOther
Disallow: /

User-agent: CCbot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: Gemini
Disallow: /

User-agent: HuggingFace
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: DeepSeek
Disallow: /

User-agent: Amazonbot
Disallow: /

User-agent: Amazon Bedrock
Disallow: /

# Opcional: bloquea todos los bots menos los principales motores de búsqueda
User-agent: *
Disallow: /
Allow: /$
Allow: /robots.txt
Allow: /sitemap.xml


Recomendaciones:

  1. Ubicación: colocá este archivo en la raíz pública de tu sitio web (https://tudominio.com/robots.txt).
  2. Revisión: podés verificar que está bien cargado accediendo a la URL directamente o usando herramientas como Google Search Console.
  3. Actualización regular: estos bots y sus nombres cambian, por lo que conviene revisarlo cada ciertos meses.

🧠 Recordá: esto no impide el acceso técnico, solo indica formalmente que no se debe acceder. Los bots “éticos” lo respetan; los maliciosos o no regulados, no siempre.

Bloqueo más estricto con Apache y .htaccess

Si buscás una solución más robusta, especialmente frente a bots que ignoran las indicaciones de robots.txt, podés implementar restricciones directamente en el servidor utilizando el archivo .htaccess (para sitios que usan Apache).

Con este método, cualquier intento de acceso de los bots listados será directamente rechazado. Estas reglas usan mod_rewrite para denegar el acceso directamente desde el servidor. Aquí un ejemplo de configuración:

# Bloquear bots de inteligencia artificial por User-Agent
<IfModule mod_rewrite.c>
RewriteEngine On

# Lista de User-Agents de bots de IA a bloquear
RewriteCond %{HTTP_USER_AGENT} (GPTBot|ChatGPT-User|ClaudeBot|anthropic-ai|PerplexityBot|Google-Extended|GoogleOther|Bytespider|DeepSeek|cohere-ai|Amazonbot|Amazon\ Bedrock|Gemini|HuggingFace) [NC]

# Denegar acceso
RewriteRule ^.* - [F,L]
</IfModule>

Este enfoque garantiza un mayor nivel de protección, ya que impide la carga del contenido para bots con los user-agents especificados, sin depender de que sigan instrucciones voluntarias.

Cómo aplicarlo

  1. Ubicación: Pega esto al inicio o final del archivo .htaccess, ubicado en la raíz pública de tu sitio (generalmente public_html/).
  2. Permisos: Asegúrate de que el archivo tenga permisos adecuados (644).

Conclusión

Proteger tu sitio del uso no autorizado de contenido por parte de bots de inteligencia artificial es cada vez más importante. Aunque robots.txt puede ser un buen punto de partida, las reglas aplicadas en .htaccess ofrecen una defensa mucho más efectiva. De este modo, podés tomar el control sobre qué agentes acceden a tu contenido y evitar que tu información sea utilizada sin consentimiento.

Si te gustó este artículo, suscríbete a nuestro canal de YouTube  para videos tutoriales de Hosting, prácticas y demás. También puede encontrarnos en  X (Twitter)Facebook e Instagram, además de LinkedIn.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *