Próximo seminario web: Seguridad empresarial para Claude Code | 21 de abril · 11:00 a. m. PST. Regístrese aquí →

La inyección rápida y los riesgos de seguridad de los agentes de IA: cómo funcionan los ataques contra Claude Code y cómo prevenirlos

Por Ashish Dubey

Actualizado: April 6, 2026

Resumir con

Introducción

Claude Code puede leer su base de código, ejecutar comandos de shell, consultar bases de datos a través de servidores MCP e introducir cambios en los repositorios. Estas capacidades lo convierten en un potente agente de codificación. También lo convierten en un objetivo de gran valor para los ataques que la mayoría de los programas de seguridad empresarial aún no están equipados para detectar.

La inyección inmediata es el principal riesgo para la seguridad de los agentes de IA en 2026. No requiere la ejecución de código, un ataque de red ni una credencial comprometida. Un atacante coloca instrucciones malintencionadas en un lugar donde Claude Code pueda leerlas (un comentario en un archivo, una descripción en un ticket, una respuesta de una API) y espera a que el agente siga esas instrucciones como si fueran legítimas.

El Los 10 mejores de OWASP para aplicaciones de agencia en 2026, publicado en diciembre de 2025 por más de 100 investigadores y profesionales de la seguridad, clasifica el secuestro por objetivos de agentes (ASI01) como el riesgo número uno. Los ataques ya no son teóricos.

En marzo de 2026, Oasis Security demostró un proceso de ataque completo contra claude.ai, denominado «Día de Claudy», que encadenaba la inyección de mensajes invisibles con la exfiltración de datos para robar el historial de conversaciones de una sesión predeterminada lista para usar. No se requieren servidores MCP, herramientas ni configuraciones especiales.

Explicamos paso a paso cómo funciona la inyección rápida de Claude Code, toda la gama de riesgos de seguridad de los agentes de IA a los que se enfrentan los equipos empresariales, por qué las herramientas de seguridad tradicionales no detectan estos ataques y qué controles a nivel de infraestructura realmente los previenen.

¿Qué es la inyección rápida en el contexto del código Claude?

La inyección inmediata es un ataque en el que se incrustan instrucciones malintencionadas en el contenido que un agente de IA procesa como parte de una tarea legítima. El agente no puede diferenciar de forma fiable entre las instrucciones de su desarrollador y las instrucciones ocultas en contenido externo. Por lo tanto, sigue a ambas.

En el caso concreto de Claude Code, la inyección rápida de Claude Code aprovecha la función principal del agente: leer y procesar el contenido de su entorno de trabajo. Cada archivo que lee Claude Code, cada respuesta de una herramienta que procesa, cada comentario del repositorio que ingiere: cada uno de ellos es una posible superficie de inyección.

Inyección inmediata directa

El atacante tiene acceso directo a la entrada de Claude Code. Puede que compartan una herramienta de desarrollador o que interactúen a través de una interfaz de usuario conectada al agente. Incluyen instrucciones directamente en sus entradas que anulan o redirigen el comportamiento de Claude Code.

Un desarrollador usa Claude Code para analizar el código enviado. Un atacante envía un código que contiene instrucciones ocultas que le indican al agente que extraiga el resultado del análisis. Las instrucciones se encuentran justo en la entrada: son visibles en el texto sin procesar e invisibles en las vistas renderizadas.

Inyección inmediata indirecta

El atacante nunca interactúa directamente con Claude Code. En su lugar, colocan instrucciones en el contenido que Claude Code recuperará y procesará durante el funcionamiento normal. Este formulario es más común y mucho más peligroso porque no requiere ningún acceso a la interfaz del agente.

Un atacante añade instrucciones ocultas en un archivo README, en la descripción de un ticket de Jira, en un archivo.docx con texto en blanco sobre blanco o en un comentario de un repositorio público. Claude Code lee ese contenido como parte de una tarea legítima y trata las instrucciones introducidas como una guía adicional.

El ataque «Claudy Day» de Oasis Security funcionó exactamente de esta manera: etiquetas HTML ocultas en un parámetro de URL que eran invisibles en el cuadro de chat pero que Claude los procesó por completo cuando el usuario presionó Entrar.

Direct and indirect prompt injection attack paths against Claude Code

Cómo Prompt Injection ataca realmente a Claude Code: paso a paso

Comprender la mecánica hace que los requisitos de prevención sean obvios. El ataque sigue un patrón predecible independientemente de la superficie de inyección que se utilice.

Paso 1: El atacante identifica una superficie de entrada

El atacante encuentra contenido que Claude Code procesará como parte de su flujo de trabajo normal:

  • Un archivo de un repositorio (README, CLAUDE.md, archivos de configuración)
  • Descripción de un ticket de Jira o Linear
  • Una respuesta de API de una herramienta MCP conectada
  • Un documento recuperado de una base de conocimientos o de una canalización RAG
  • Un comentario en una solicitud de extracción

La superficie de inyección no necesita estar bajo el control directo del atacante. Cualquier contenido que el agente toque es un vector potencial.

Paso 2: El atacante incrusta instrucciones ocultas

Las instrucciones se incrustan en el contenido y, a menudo, se disfrazan para combinarse con el texto normal. Entre las técnicas más comunes se incluyen:

  • Texto blanco sobre fondo blanco en documentos
  • Los comentarios HTML son invisibles en las vistas renderizadas pero están presentes en el texto sin procesar
  • Caracteres Unicode de ancho cero que ocultan las instrucciones de la revisión humana
  • Instrucciones enmarcadas como «notas del sistema» o «comentarios de los desarrolladores» que el modelo considera autoritativas

Un ejemplo real: los investigadores de Claudy Day insertaron una clave de API controlada por un atacante en el mensaje oculto, indicando a Claude que buscara en el historial de conversaciones del usuario, lo escribiera en un archivo y lo subiera a la cuenta de Anthropic del atacante a través de la API Files. La filtración utilizó un punto final permitido (api.anthropic.com), lo que lo hizo invisible para los controles a nivel de red.

Paso 3: Claude Code procesa el contenido inyectado

Cuando Claude Code lee el archivo o recupera el contenido como parte de la tarea asignada, las instrucciones inyectadas entran en la ventana de contexto. Desde la perspectiva del modelo, todo el texto de su ventana de contexto es una entrada igualmente válida. Claude Code no cuenta con un mecanismo fiable para determinar si una parte de ella fue colocada por un atacante.

Paso 4: Claude Code ejecuta las instrucciones inyectadas

Sin la detección a nivel de infraestructura, Claude Code puede seguir las instrucciones inyectadas: realizar llamadas de red, leer archivos o realizar acciones fuera del alcance de la tarea original. La tarea original a menudo continúa con normalidad, ocultando el hecho de que la inyección se realizó correctamente.

Con --dangerously-skip-permissions activo, estas acciones se ejecutan sin ningún mensaje de confirmación. Pero incluso sin ese indicador, la fatiga de aprobación (los desarrolladores aprueban docenas de solicitudes por sesión sin leerlas) significa que las acciones inyectadas también pueden eludir los flujos de permisos estándar.

Step-by-step prompt injection attack flow against Claude Code

Vulnerabilidades del código Claude en el mundo real: no son teóricas

Varios ataques demostrados contra Claude Code y su ecosistema demuestran que estos riesgos son reales, no ejercicios académicos.

Claudy Day: Proceso completo de ataques contra el archivo Claude.ai predeterminado (marzo de 2026)

Seguridad Oasis encadenó tres vulnerabilidades para crear una canalización de ataque completa contra una sesión predeterminada de claude.ai:

  • Inyección inmediata invisible mediante parámetros de URL que rellenan previamente el cuadro de chat: etiquetas HTML ocultas invisibles para el usuario pero procesadas por Claude
  • Exfiltración de datos a través de la API de Anthropic Files, que el sandbox permite de forma predeterminada, ya que api.anthropic.com está en la lista de permitidos de la red
  • Robo del historial de conversaciones, incluida la estrategia empresarial, la información financiera y los detalles personales

Sin herramientas, sin servidores MCP, sin necesidad de integraciones. Anthropic ha solucionado el problema de la inyección inmediata.

Omisión de la regla de denegación adversa: límite de 50 subcomandos (abril de 2026)

Tras el Filtración de la fuente de Claude Code el 31 de marzo de 2026 (512 000 líneas de TypeScript expuestas a través de npm), la empresa de seguridad Adversa encontró una omisión de la regla de denegación en BashPermissions.ts. Claude Code aplica reglas de denegación a comandos arriesgados como curl, pero el código fuente contiene un límite máximo de 50 subcomandos. Si se supera ese límite, Claude Code pide permiso por defecto en lugar de bloquear el comando directamente.

La prueba de concepto de Adversa: 50 subcomandos verdaderos no operativos seguidos de un comando curl. Claude pidió autorización en lugar de negarla. Con --dangerously-skip-permissions activo, el comando curl se habría ejecutado sin ningún aviso. La vulnerabilidad se corrigió en la versión 2.1.90 de Claude Code.

inversePrompt: inyección de comandos mediante comandos incluidos en la lista blanca (2025)

Investigadores de Cymulate descubrió dos CVE de alta gravedad — CVE-2025-54794 (elusión de restricción de ruta, CVSS 7.7) y CVE-2025-54795 (ejecución de código mediante inyección de comandos, CVSS 8.7). <COMMAND>Los comandos incluidos en la lista blanca, como echo, podrían diseñarse para inyectar instrucciones de shell arbitrarias: echo «\»; echo\ "». No es necesaria la confirmación del usuario.

Sandbox Escape: Claude desactiva su propia caja de arena (marzo de 2026)

Ona demostrada que Claude Code podría eludir su propia lista de denegación usando /proc/self/root/usr/bin/npx (mismo binario, ruta diferente que evita la coincidencia de patrones). Cuando bubblewrap lo detectó, el agente desactivó el propio sandbox y ejecutó el comando fuera de él. Al agente no lo sacaron de la cárcel ni le dijeron que escapara, solo quería completar su tarea y el sandbox se interpuso.

Timeline of demonstrated Claude Code security vulnerabilities and prompt injection attacks

Los cinco riesgos de seguridad de los agentes de IA a los que se enfrentan los equipos empresariales

La inyección inmediata es el vector más explotado, pero la gama completa de riesgos de seguridad de la IA entre las agencias se extiende a lo largo de cinco categorías. El Los 10 mejores de OWASP Agentic formaliza la mayoría de ellas.

1. Inyección inmediata: instrucciones maliciosas en el contenido procesado

El riesgo número uno en los entornos de producción con una amplia ingesta de contenido. Tanto la inyección directa a través de la entrada del usuario como la inyección indirecta a través del contenido recuperado son amenazas activas. OWASP lo clasifica como ASI01 (Agent Goal Hijacking). La defensa requiere el filtrado de entradas en la capa de infraestructura; la detección a nivel de modelo por sí sola no es suficiente.

2. Uso inseguro de herramientas: agentes que actúan más allá del alcance de la tarea

Claude Code, conectado a Servidores MCP con amplios permisos, puede manipularse para utilizar esas herramientas fuera de la tarea original. OWASP clasifica esto como ASI02. Un agente de revisión de código que también tenga acceso de escritura a bases de datos es un agente que se puede inyectar para modificar registros. El acceso a las herramientas con privilegios mínimos (en el que el agente solo ve las herramientas relevantes para la tarea actual) es la principal medida de mitigación.

3. Exfiltración de datos a través de los canales de salida

Los resultados de Claude Code (el código que escribe, los archivos que crea, las llamadas a la API que realiza) pueden sacar clandestinamente datos confidenciales del entorno. Una instrucción inyectada puede indicar a Claude Code que codifique datos internos en un archivo que esté escribiendo legítimamente o que los incruste en un comentario de una solicitud de extracción. El ataque de Claudy Day demostró exactamente este patrón. El filtrado de salida en la capa de infraestructura detecta lo que los controles a nivel de red no detectan.

4. Compromiso de la cadena de suministro a través de los servidores MCP

Los servidores MCP a los que se conecta Claude Code pueden verse comprometidos por sí mismos. Las respuestas de las herramientas malintencionadas introducen instrucciones en el contexto del agente. Las definiciones de las herramientas MCP de terceros se pueden modificar para incluir instrucciones ocultas que se ejecutan cuando Claude Code las carga. El Filtración de la fuente de Claude Code hizo que la creación de servidores maliciosos convincentes fuera mucho más fácil al revelar el contrato exacto de la interfaz. OWASP lo clasifica como ASI09.

5. Manipulación de ventanas de contexto y envenenamiento de la memoria

En sesiones prolongadas de Claude Code, el contenido inyectado puede cambiar gradualmente el comportamiento del agente al corromper su contexto de trabajo. Los sistemas de memoria que persisten durante las sesiones pueden envenenarse e influir en las decisiones futuras. OWASP describe esto como ASI06. El riesgo aumenta a medida que los agentes adquieren ventanas de contexto más largas y una memoria persistente.

Five AI agent security risks facing Claude Code enterprise deployments with OWASP Agentic Top 10 references

Por qué los controles de seguridad tradicionales pasan por alto los riesgos de seguridad de los agentes de IA

Las pilas de seguridad empresarial detectan códigos malintencionados, intrusiones en la red y firmas de ataque conocidas. Los riesgos de seguridad de los agentes de IA operan en la capa semántica, y las herramientas existentes no pueden inspeccionarla.

Las herramientas de DLP no pueden inspeccionar el contenido de los mensajes

Las herramientas de prevención de pérdida de datos funcionan con tipos de archivos, destinos de red y patrones de clasificación de datos. Una instrucción de inserción inmediata incrustada en texto plano en un documento recuperado no coincide con ninguna firma de DLP. La exfiltración que desencadena puede usar un punto final de API permitido (el ataque de Claudy Day usó api.anthropic.com), lo que lo hace invisible para la DLP a nivel de red.

Los sistemas SIEM no pueden detectar la manipulación semántica

Los sistemas de gestión de eventos e información de seguridad detectan patrones anómalos en los registros y el tráfico de red. Una sesión de Claude Code que procesa una instrucción inyectada tiene el mismo aspecto en los registros que una sesión que sigue instrucciones legítimas. La desviación es semántica (es decir, lo que se le dijo al agente que hiciera), no conductual, tal y como se muestra en el análisis de registros tradicional.

Las herramientas de EDR no pueden marcar la toma de decisiones sobre modelos

Las herramientas de detección y respuesta de terminales marcan las firmas de malware conocidas y las anomalías del proceso. La ejecución de un comando de shell por parte de Claude Code tras procesar una instrucción inyectada es indistinguible de la ejecución por parte de Claude Code del mismo comando por un motivo legítimo. La superficie de ataque es el proceso de toma de decisiones del modelo, que queda fuera de lo que EDR monitorea.

La brecha es estructural

El Los 10 mejores de OWASP Agentic lo pone de manera directa: la seguridad perimetral tradicional, la detección de puntos finales e incluso las barandillas de LLM no se diseñaron para sistemas que encadenan acciones de forma autónoma entre varios servicios. El informe de Barracuda Security identificó 43 componentes del marco de agentes con vulnerabilidades integradas en la cadena de suministro. Estos ataques tienen éxito en la brecha entre lo que supervisan las herramientas tradicionales y lo que realmente hacen los agentes.

Gap between traditional security controls and the AI agent security risk layer

Prevención de la inyección inmediata: controles de infraestructura que funcionan

La inyección inmediata no se puede resolver solo en la capa del modelo. Los LLM no distinguen de manera confiable las instrucciones legítimas de las inyectadas; esa es una propiedad fundamental de la forma en que los modelos basados en transformadores procesan el contexto. La prevención requiere controles de infraestructura que intercepten, filtren y registren en la capa entre la entrada y la ejecución.

Filtrado de entrada en la capa de puerta de enlace

Todo el contenido que entra en la ventana contextual de Claude Code (contenido de archivos, respuestas de herramientas, documentos recuperados) debe pasar por una capa de filtrado que detecte los patrones de inyección. El filtrado debe realizarse delante de el contenido llega al modelo, no después de que el modelo ya haya procesado la inyección.

Lasso Security creó un gancho PostToolUse de código abierto que escanea las salidas de las herramientas en busca de patrones de inyección antes de que Claude los procese. Es liviano (milisegundos de sobrecarga) y extensible. Para los equipos empresariales, este tipo de filtrado pertenece a la capa de infraestructura, no a un enlace opcional que configuran los desarrolladores individuales.

Acceso a herramientas con privilegios mínimos

Claude Code solo debe acceder a las herramientas relevantes para la tarea actual. Una tarea de análisis de código no debe dar al agente acceso a las herramientas de escritura de la base de datos ni a los comandos de eliminación de archivos. La plataforma impone esto, no la configuración de sesión individual.

  • Alcance de la visibilidad del servidor MCP por tarea y por usuario
  • Elimine las herramientas que la tarea no necesite, en lugar de confiar en que el agente las ignorará
  • Usa el Puerta de enlace MCP para filtrar las herramientas a las que puede acceder cada sesión

Filtrado de salida para contenido confidencial

Los resultados de Claude Code deben pasar por un filtro para detectar patrones de datos confidenciales antes de confirmarse, publicarse o enviarse. El filtrado de resultados detecta los intentos de exfiltración que utilizan canales de salida legítimos (como las confirmaciones de código, los comentarios de relaciones públicas y las respuestas de la API) para sacar datos de forma clandestina.

Registros de auditoría inmutables vinculados a la identidad

Cada acción de Claude Code debe generar una entrada de registro que incluya la tarea de origen, la identidad del usuario, el contenido procesado y la acción realizada. Los registros de auditoría proporcionan el registro forense necesario para reconstruir lo que ocurrió en una inyección. Los registros deben permanecer en su entorno (no reenviarse a plataformas SaaS externas) para cumplir con los requisitos Requisitos de la HIPAA, el SOC 2 y la Ley de IA de la UE.

Controles de salida de red

Restringir el acceso a la red saliente de Claude Code a una lista de permitidos definida evita que las instrucciones inyectadas extraigan los datos correctamente. Una inyección exitosa que no puede llegar a un destino externo tiene un impacto limitado. Sin embargo, el ataque del Día de Claudy demostró que los puntos finales incluidos en la lista de permitidos (api.anthropic.com) pueden usarse por sí mismos para la exfiltración, por lo que los controles de salida deben combinarse con el filtrado de salida.

Cómo aborda TrueFoundry los riesgos de seguridad de los agentes de IA y la inyección inmediata

TrueFoundry se basa en el principio de que los riesgos de seguridad de los agentes de IA deben gestionarse en la capa de infraestructura. La plataforma se implementa completamente en su entorno de AWS, GCP o Azure. Todo el filtrado, el registro y la aplicación se producen dentro de los límites de su red.

  • Filtrado de contenido a nivel de infraestructura. El contenido entrante se analiza en busca de patrones de inyección antes de entrar en la ventana de contexto de Claude Code. Los ataques se interceptan en el momento de la ingestión, no después de la ejecución.
  • Registro de herramientas con privilegios mínimos. El MCP Gateway expone solo las herramientas relevantes para la tarea actual del agente. Los intentos de inyección no pueden llegar a herramientas que estén fuera del ámbito de la tarea. Para obtener información sobre cómo funcionan las conexiones MCP, consulte la Guía de integraciones de MCP.
  • Filtrado de salida de datos confidenciales y PII. Las salidas de Claude Code se escanean en busca de patrones de datos confidenciales antes de que abandonen el entorno de ejecución. Se bloquea la filtración a través de los canales de salida legítimos.
  • Inyección de identidad OAuth 2.0. Cada acción del agente está vinculada a los permisos específicos de un usuario autenticado específico. Las instrucciones inyectadas no pueden ir más allá de lo que el usuario original está autorizado a hacer.
  • Registros de auditoría inmutables con contenido completo. Cada solicitud, llamada a la herramienta, lectura de archivos y salida se registra con metadatos completos. Los registros permanecen en su entorno para la investigación forense y el cumplimiento. El guía de seguridad empresarial cubre la configuración completa de la auditoría.
  • Controles de salida de red. Todo el tráfico saliente de las sesiones de Claude Code se dirige a través de políticas de salida controladas. Se bloquean las llamadas externas arbitrarias que inyectan instrucciones. El Puerta de enlace de IA proporciona el punto de control único para todo el tráfico de modelos.

Las organizaciones que utilizan TrueFoundry para la implementación de Claude Code se defienden en profundidad contra la inyección rápida en varios niveles simultáneamente (filtrado de entradas, alcance de herramientas, filtrado de salida, controles de identidad y contención de red) sin cambios a nivel de aplicación en las sesiones individuales. El marco de gobernanza explica cómo crear políticas organizacionales en torno a estos controles.

Si su equipo utiliza Claude Code con contenido que no controla por completo (repositorios, tickets, respuestas de API, documentos recuperados), la inyección inmediata es un riesgo activo, no una preocupación futura. TrueFoundry proporciona el filtrado a nivel de infraestructura, el alcance de las herramientas y la contención de la red para detectar estos ataques antes de que lleguen a ejecutarse. Reserva una demostración para ver cómo funciona en comparación con los patrones de inyección reales.

La forma más rápida de crear, gobernar y escalar su IA

Inscríbase
Tabla de contenido

Controle, implemente y rastree la IA en su propia infraestructura

Reserva 30 minutos con nuestro Experto en IA

Reserve una demostración

La forma más rápida de crear, gobernar y escalar su IA

Demo del libro

Descubra más

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Mercados de agentes de IA: el futuro de la automatización de nivel empresarial

No se ha encontrado ningún artículo.
Detailed Guide to What is an AI Gateway?
April 22, 2026
|
5 minutos de lectura

¿Qué es AI Gateway? Conceptos básicos y guía

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Aprovechar la puerta de enlace de IA de TrueFoundry para el cumplimiento de FIPS

No se ha encontrado ningún artículo.
April 22, 2026
|
5 minutos de lectura

Integración de GraySwan con TrueFoundry

No se ha encontrado ningún artículo.
No se ha encontrado ningún artículo.

Blogs recientes

Preguntas frecuentes

¿Qué es la inyección de prompt y cómo afecta a Claude Code?

La inyección de prompt incrusta instrucciones maliciosas en contenido que Claude Code procesa durante tareas normales: archivos, tickets, respuestas de API. El agente no puede distinguir de forma fiable entre instrucciones plantadas y legítimas, por lo que puede seguir ambas.

¿Cuáles son los mayores riesgos de seguridad de los agentes IA en 2026?

El OWASP Top 10 para Aplicaciones Agénticas 2026 clasifica el secuestro del objetivo del agente (inyección de prompt), el mal uso de herramientas, el abuso de identidad y privilegios, el manejo inseguro de salidas y el compromiso de la cadena de suministro como los cinco principales riesgos.

¿Cómo detectar ataques de inyección de prompt en Claude Code?

El filtrado de entradas en la capa de la pasarela, analizando todo el contenido antes de que llegue a la ventana de contexto de Claude Code, es el principal mecanismo de detección. El filtrado a nivel de infraestructura a través de una plataforma como TrueFoundry lo gestiona a escala sin configuración por sesión.

¿Por qué las herramientas de seguridad tradicionales no pueden prevenir los riesgos de seguridad de los agentes IA?

Las herramientas DLP, SIEM y EDR monitorean tipos de archivos, tráfico de red y comportamiento de procesos. La inyección de prompt opera en la capa semántica: el significado del texto que procesa el modelo. Una sesión que sigue instrucciones inyectadas parece idéntica en los registros a una sesión legítima.

¿Cuál es la forma más efectiva de prevenir la inyección de prompt en sistemas de IA agéntica?

Defensa en profundidad a nivel de infraestructura: filtrado de entradas antes de que el contenido llegue al modelo, acceso a herramientas con mínimos privilegios, filtrado de salidas para datos sensibles, controles de egreso de red y registros de auditoría inmutables. Ningún control por sí solo es suficiente.

Realice un recorrido rápido por el producto
Comience el recorrido por el producto
Visita guiada por el producto