Codificación Hexadecimal Elude las Barreras de Seguridad de GPT-4

El nuevo modelo de lenguaje de OpenAI, GPT-4o, ha demostrado ser vulnerable a una técnica que permite eludir sus medidas de seguridad integradas, posibilitando la generación de código exploit. Marco Figueroa, investigador de la plataforma 0Din de Mozilla, dedicada a recompensas por errores en IA generativa, descubrió cómo la codificación de comandos maliciosos en hexadecimal permite esquivar las barreras de seguridad del modelo. Este hallazgo subraya los riesgos constantes en la seguridad de IA, especialmente a medida que los modelos se vuelven más sofisticados y ampliamente utilizados.

El exploit consistió en manipular a GPT-4o para que generara código Python dirigido a una vulnerabilidad crítica, CVE-2024-41110, en Docker Engine. Esta vulnerabilidad, corregida a mediados de 2024, permitía a los atacantes evitar los plugins de autorización y escalar privilegios. Utilizando la codificación en hexadecimal, Figueroa logró enmascarar los comandos peligrosos, lo que permitió que la IA procesara cada paso sin detectar el propósito malicioso en su conjunto. Una vez decodificadas, las instrucciones en hexadecimal llevaron al modelo a escribir un exploit para la vulnerabilidad CVE, similar a un proof-of-concept desarrollado anteriormente por el investigador Sean Kilfoy.

Los hallazgos de Figueroa resaltan la necesidad de salvaguardias más avanzadas y conscientes del contexto en los modelos de IA. Sugiere mejorar los mecanismos de detección para contenido codificado y desarrollar modelos que puedan analizar las instrucciones en un contexto más amplio, reduciendo el riesgo de tales técnicas de elusión. Este tipo de vulnerabilidad, conocida como “guardrail jailbreak”, es precisamente lo que la plataforma 0Din alienta a los hackers éticos a descubrir, con el objetivo de asegurar los sistemas de IA frente a métodos de ataque cada vez más sofisticados.

Source: The Register

La European Cyber Intelligence Foundation es un think tank sin fines de lucro especializado en inteligencia y ciberseguridad, que ofrece servicios de consultoría a entidades gubernamentales. Para mitigar posibles amenazas, es importante implementar medidas adicionales de ciberseguridad con la ayuda de un socio de confianza como INFRA www.infrascan.net, o puedes intentarlo tú mismo usando check.website.