Este es el quinto blog de una serie de siete partes sobre la seguridad de la identidad como base de la seguridad de la IA.

En resumen:

A mediados de septiembre de 2025, actores estatales chinos utilizaron Claude Code como arma para llevar a cabo el primer ciberataque autónomo a gran escala documentado. La operación tuvo como objetivo grandes empresas tecnológicas, instituciones financieras, compañías manufactureras químicas y organismos gubernamentales. Por otro lado, a fines de agosto, una filtración de credenciales paralizó las fábricas de JLR durante cinco semanas, con un costo de 1900 millones de libras. Ahora imagine ese mismo patrón de ataque ejecutado por un agente de IA que no duerme y puede probar mil combinaciones de credenciales mientras usted lee esta frase. Ya está ocurriendo. Estos ataques no se limitan a atravesar perímetros. Abusan de accesos legítimos.

La defensa no pasa por mejores firewalls. Pasa por la autorización: controlar qué pueden hacer los agentes en cada paso, con supervisión humana cuando importa. En los sistemas ciberfísicos, la IAM no es infraestructura de TI. Es un sistema de seguridad.

El riesgo ya no es teórico

OpenID Foundation define esto como el “desafío definitivo” de la identidad: gobernar agentes cuyas acciones tienen consecuencias directas y potencialmente irreversibles en el mundo físico. La autorización, la parte de la IAM dedicada a la gestión de accesos, pasa a ser un componente fundamental del esquema de seguridad del sistema.

Tres incidentes a finales de 2025 demostraron que ya estamos en ese punto.

En primer lugar, los agentes de IA demostraron que pueden atacar infraestructura crítica de forma autónoma. En septiembre, Anthropic reveló que un grupo patrocinado por el Estado chino utilizó Claude Code como arma en lo que investigadores de seguridad describieron como el primer ciberataque a gran escala ejecutado principalmente por una IA. El agente realizó la mayor parte del trabajo: escaneo de vulnerabilidades, desarrollo de exploits, recolección de credenciales y movimiento lateral dentro de las redes. Entre los objetivos se encontraban compañías manufactureras químicas. Algunas fueron vulneradas exitosamente. Se trata de instalaciones donde las credenciales comprometidas podrían manipular controles de proceso con consecuencias catastróficas.

Luego, los investigadores demostraron que la superficie de ataque se extiende a cualquier agente con acceso físico. En agosto de 2025, investigadores demostraron que una invitación maliciosa de Google Calendar podía secuestrar a Gemini para controlar dispositivos de hogares inteligentes, como luces, persianas y calderas. El ataque, al que los investigadores llamaron “Promptware“, explotó una brecha fundamental de autorización: los permisos para leer calendarios no deberían otorgar permisos de control de actuadores. El mecanismo es idéntico. Solo cambian las consecuencias.

Y el compromiso de credenciales demostró que puede paralizar fábricas. Rápido. Jaguar Land Rover sufrió lo que se considera ampliamente el ciberataque con mayor impacto económico en la historia del Reino Unido. Los atacantes obtuvieron acceso a través de un proveedor de JLR y avanzaron hasta alcanzar los sistemas de producción. Los robots se detuvieron. Los empleados estuvieron cinco semanas sin trabajar. Más de 5000 compañías de la cadena de suministro de JLR se vieron afectadas. Ahora imagine ese mismo movimiento lateral ejecutado por un agente de IA que no duerme, no comete errores tipográficos y puede probar mil combinaciones de credenciales mientras usted lee esta frase. Ese es el modelo de amenaza.

La crisis de credenciales está acelerando este escenario

El informe X-Force 2025 de IBM confirma este cambio: el abuso de cuentas válidas es ahora la vía de acceso preferida y representa el 30 % de todos los incidentes. En la primera mitad de 2025 se produjo un aumento del 800 % en las credenciales robadas por malware ladrón de información. La vulneración de identidades no humanas, como claves de API, cuentas de servicio y tokens OAuth, es ahora uno de los principales vectores de ataque inicial.

Esto ya está afectando a los sistemas de IA. Un ataque a la cadena de suministro del ecosistema de complementos de OpenAI permitió recolectar credenciales de agentes en 47 implementaciones empresariales, y los atacantes mantuvieron el acceso durante seis meses sin ser detectados. Los ataques al sector manufacturero aumentaron un 61 % interanual. El mismo patrón de siempre: credenciales robadas, movimiento lateral y daños en el mundo real.

El perímetro no es la salvación

La seguridad tradicional se centra en mantener a los actores malintencionados fuera. Firewalls. Segmentación de red. Protección de extremos. Todo eso es necesario. Pero los agentes de IA no están forzando el ingreso. Ya están dentro y operan con credenciales legítimas.

El ataque Promptware no vulneró ningún firewall. Secuestró a un agente autorizado. La operación de Claude Code no explotó ninguna vulnerabilidad de red. Recolectó credenciales válidas y las utilizó. Estos ataques tuvieron éxito porque los agentes tenían permiso para estar ahí. Lo que no tenían era permiso para hacer lo que hicieron.

La pregunta no es a dónde pueden llegar los agentes. Es qué están autorizados a hacer en cada paso una vez que ya están ahí.

Piense en una planta de tratamiento de agua. Un agente de IA supervisa los niveles de cloro, regula la presión y responde a las fluctuaciones de la demanda. ¿Cuál es su marco de autorización? Debería ser explícito: mantener los niveles del reservorio entre X e Y, no superar nunca la presión Z e involucrar a una persona humana ante cualquier situación que quede fuera de esos límites. Pero si el agente heredó permisos amplios para “administrar sistemas de agua” de quien lo implementó, un agente comprometido podría llevar el cloro a niveles tóxicos o provocar fallas de presión. La prueba es esta: ¿su arquitectura de autorización siquiera le permite expresar este tipo de límites?

La autorización como infraestructura de seguridad

En los sistemas ciberfísicos, la IAM trasciende su función tradicional. Se convierte en una capa de seguridad y de aplicación de políticas.

La identidad le dice quién actúa. La autorización define qué puede hacer, acción por acción, con supervisión humana cuando lo que está en juego lo exige. En el caso de agentes que controlan sistemas físicos, esa es la arquitectura que evita explosiones.

La aviación no depende de que los pilotos recuerden los límites de altitud. Las instalaciones nucleares no dejan en manos de los operadores evitar configuraciones inseguras. Estas industrias aprendieron hace décadas que la atención humana no es un sistema de seguridad. Las restricciones diseñadas sí lo son. La arquitectura Zero Trust del NIST (SP 800-207) formaliza este enfoque: nunca confiar, siempre verificar y aplicar el principio de privilegio mínimo en cada decisión.

Para los agentes de IA que controlan sistemas físicos, la autorización es esa restricción diseñada. Cuando se implementa correctamente, funciona así: las credenciales se emiten justo a tiempo, se limitan a la operación inmediata y se revocan en el momento en que cambia el contexto. Los tokens que no existen no pueden robarse. Incluso si un agente se ve comprometido, no puede superar su marco de autorización. Las acciones de alto impacto requieren aprobación humana. Y cada acción queda vinculada a un usuario, un agente y un momento específicos.

Así es como se ve técnicamente. RFC 8693 (OAuth 2.0 Token Exchange) permite tokens de delegación que preservan el contexto:

{
  "sub": "technician-jane@manufacturing.example",
  "act": {
    "sub": "maintenance-agent-7"
  },
  "aud": "manufacturing-api.example.com",
  "scope": "actuator:write",
  "exp": 1737043200
}

El campo sub identifica a la persona humana. El campo act identifica al agente. El campo scope define exactamente lo que está permitido. No es "manage systems", sino "actuator:write" para un recurso específico. El campo exp establece la expiración: 5-60 minutos para operaciones ciberfísicas, no meses. Cuando termina la ventana de mantenimiento, el token deja de ser válido.

La Ley sobre IA de la UE clasifica los sistemas de IA usados como componentes de seguridad en infraestructura crítica (incluidos agua, gas y electricidad) como de alto riesgo según el Anexo III, lo que activa requisitos de supervisión humana según el Artículo 14. Para sistemas que toman miles de decisiones por minuto, eso no puede significar que los humanos revisen cada una. Se trata de sistemas de autorización que imponen límites de manera programática e invocan al humano solo en condiciones genuinamente excepcionales.

La ventana de oportunidad se está cerrando

Gartner prevé que los agentes de IA reducirán en un 50 % el tiempo necesario para explotar exposiciones de cuentas de aquí a 2027. Ataques que antes llevaban semanas pasarán a resolverse en días. La operación con Claude Code ya mostró cómo se ven los ataques a velocidad de máquina.

Las organizaciones que construyan ahora una arquitectura de autorización adecuada serán el referente cuando las regulaciones se endurezcan.

Cómo lo resuelve Okta

Ninguno de estos ataques atravesó un firewall. El ataque Promptware secuestró a un agente autorizado que no contaba con permisos delimitados por capacidades. El ataque al ecosistema de complementos de OpenAI explotó credenciales con una vigencia excesiva y permisos demasiado amplios. La operación con Claude Code recopiló secretos válidos y los reutilizó. Cada una de estas fallas se corresponde con un control que hoy ya ofrecemos.

  • El acceso entre aplicaciones (XAA) hace que las acciones de los agentes sean trazables tanto al usuario como al propio agente. Los tokens de delegación transportan el contexto a lo largo de toda la cadena, con atributos act que identifican qué agente hizo qué.
  • Token Vault elimina las credenciales de larga duración. Los agentes obtienen tokens a pedido, limitados a operaciones inmediatas. Los tokens robados vencen antes de que los atacantes puedan utilizarlos.
  • La autenticación escalonada de CIBA incorpora a las personas humanas en el proceso cuando se trata de acciones críticas. Cuando un agente intenta superar su marco de autorización (ajustar la presión más allá de los límites, modificar concentraciones químicas o anular enclavamientos), el usuario autorizante debe aprobarlo de forma explícita.
  • La autorización detallada evalúa el acceso en el momento de cada decisión, no solo al iniciar sesión. Así es como se expresa, en políticas legibles por máquinas, “mantener los niveles del reservorio entre X e Y; no superar nunca la presión Z”.

El camino a seguir

Con 21 mil millones de dispositivos de IoT y millones de robots industriales conectados ahora, los agentes de IA cuentan con un universo cada vez más amplio de sistemas físicos a los que pueden acceder y controlar.

La pregunta de gobernanza es simple: para cada agente con acceso a sistemas críticos, ¿su equipo puede definir con claridad su marco de autorización? ¿Qué credenciales posee, qué permiten esas credenciales y si esos permisos superan lo que se necesita a nivel operativo? Si la respuesta es “no lo sabemos”, esa brecha es su superficie de ataque.

Pero esa brecha se puede cerrar. Los mismos patrones de autorización que protegen las transacciones financieras pueden proteger plantas de tratamiento de agua, reactores químicos y brazos robóticos. La identidad le indica quién actúa. La autorización controla qué pueden hacer en cada paso, con intervención humana cuando realmente importa. En los sistemas ciberfísicos, eso no es solo gestión de accesos. Es infraestructura de seguridad.

La arquitectura ya existe. La pregunta es si la va a implementar antes o después de convertirse en un estudio de caso.

 

A continuación: el Blog 6 analiza qué sucede cuando un agente presta servicio a múltiples partes interesadas con permisos diferentes. Cuando el agente del CFO responde preguntas en un canal compartido de Slack, ¿qué derechos de acceso rigen esa respuesta?

Continúe con su recorrido de identidad