El exploit consistió en manipular a GPT-4o para que generara código Python dirigido a una vulnerabilidad crítica, CVE-2024-41110, en Docker Engine. Esta vulnerabilidad, corregida a mediados de 2024, permitía a los atacantes evitar los plugins de autorización y escalar privilegios. Utilizando la codificación en hexadecimal, Figueroa logró enmascarar los comandos peligrosos, lo que permitió que la IA procesara cada paso sin detectar el propósito malicioso en su conjunto. Una vez decodificadas, las instrucciones en hexadecimal llevaron al modelo a escribir un exploit para la vulnerabilidad CVE, similar a un proof-of-concept desarrollado anteriormente por el investigador Sean Kilfoy.
Los hallazgos de Figueroa resaltan la necesidad de salvaguardias más avanzadas y conscientes del contexto en los modelos de IA. Sugiere mejorar los mecanismos de detección para contenido codificado y desarrollar modelos que puedan analizar las instrucciones en un contexto más amplio, reduciendo el riesgo de tales técnicas de elusión. Este tipo de vulnerabilidad, conocida como “guardrail jailbreak”, es precisamente lo que la plataforma 0Din alienta a los hackers éticos a descubrir, con el objetivo de asegurar los sistemas de IA frente a métodos de ataque cada vez más sofisticados.
Source: The Register
La European Cyber Intelligence Foundation es un think tank sin fines de lucro especializado en inteligencia y ciberseguridad, que ofrece servicios de consultoría a entidades gubernamentales. Para mitigar posibles amenazas, es importante implementar medidas adicionales de ciberseguridad con la ayuda de un socio de confianza como INFRA www.infrascan.net, o puedes intentarlo tú mismo usando check.website.