La Codage Hexadécimal Contourne les Garde-Fous de Sécurité de GPT-4

Le dernier modèle linguistique d’OpenAI, GPT-4o, s’est révélé vulnérable à une technique permettant de contourner ses mesures de sécurité intégrées, ce qui permet de générer du code d’exploitation. Marco Figueroa, chercheur sur la plateforme de Mozilla dédiée aux récompenses pour failles de sécurité en IA générative, 0Din, a découvert comment le codage de commandes malveillantes en hexadécimal permet de déjouer les garde-fous du modèle. Cette découverte met en évidence les risques constants de sécurité dans le domaine de l’IA, en particulier à mesure que les modèles deviennent plus sophistiqués et largement utilisés.

L’exploit consistait à manipuler GPT-4o pour générer un code Python visant une vulnérabilité critique, CVE-2024-41110, dans Docker Engine. Cette faille, corrigée à la mi-2024, permettait aux attaquants de contourner les plugins d’autorisation et d’accéder à des privilèges élevés. En utilisant le codage hexadécimal, Figueroa a pu masquer les commandes dangereuses, permettant ainsi à l’IA de traiter chaque étape sans reconnaître l’intention malveillante globale. Une fois décodées, les instructions hexadécimales incitaient le modèle à écrire un exploit pour la vulnérabilité CVE, semblable à un proof-of-concept développé auparavant par le chercheur Sean Kilfoy.

Les conclusions de Figueroa soulignent la nécessité de garde-fous plus avancés et capables de prendre en compte le contexte dans les modèles d’IA. Il suggère d’améliorer les mécanismes de détection pour le contenu codé et de développer des modèles capables d’analyser les instructions dans un contexte plus large, réduisant ainsi le risque de contournement. Ce type de vulnérabilité, connu sous le nom de “guardrail jailbreak”, est précisément le genre de faille que la plateforme 0Din encourage les hackers éthiques à découvrir, dans le but de sécuriser les systèmes d’IA contre des méthodes d’attaque de plus en plus sophistiquées.

Source: The Register

La European Cyber Intelligence Foundation est un think tank à but non lucratif spécialisé dans le renseignement et la cybersécurité, offrant des services de conseil aux entités gouvernementales. Pour atténuer les menaces potentielles, il est important de mettre en œuvre des mesures supplémentaires de cybersécurité avec l’aide d’un partenaire de confiance comme INFRA www.infrascan.net, ou vous pouvez essayer vous-même en utilisant check.website.