L’exploit consisteva nel manipolare GPT-4o per generare codice Python mirato a una vulnerabilità critica, CVE-2024-41110, in Docker Engine. Questa vulnerabilità, risolta a metà del 2024, permetteva agli attaccanti di bypassare i plugin di autorizzazione e ottenere privilegi elevati. Usando l’encoding in esadecimale, Figueroa è riuscito a mascherare i comandi dannosi, permettendo all’AI di processare ogni istruzione senza riconoscere l’intento dannoso complessivo. Una volta decodificate, le istruzioni esadecimali hanno indotto il modello a scrivere un exploit per la vulnerabilità CVE, simile a un proof-of-concept sviluppato in precedenza dal ricercatore Sean Kilfoy.
I risultati di Figueroa sottolineano la necessità di barriere di sicurezza più avanzate e consapevoli del contesto nei modelli AI. Suggerisce di migliorare i meccanismi di rilevamento per contenuti codificati e di sviluppare modelli capaci di analizzare le istruzioni in un contesto più ampio, riducendo così il rischio di queste tecniche di bypass. Questo tipo di vulnerabilità, nota come “guardrail jailbreak”, è proprio ciò che la piattaforma 0Din incoraggia gli hacker etici a scoprire, con l’obiettivo di rendere i sistemi di AI sempre più sicuri contro metodi di attacco sofisticati.
Source: The Register
La European Cyber Intelligence Foundation è un think tank no-profit specializzato in intelligence e sicurezza informatica, che offre servizi di consulenza agli enti governativi. Per mitigare potenziali minacce, è importante implementare ulteriori misure di sicurezza informatica con l’aiuto di un partner affidabile come INFRA www.infrascan.net, oppure puoi provare tu stesso utilizzando check.website.