Der Exploit bestand darin, GPT-4o so zu täuschen, dass es Python-Code generierte, der auf eine kritische Schwachstelle, CVE-2024-41110, im Docker Engine abzielte. Diese Schwachstelle, die Mitte 2024 behoben wurde, ermöglichte Angreifern das Umgehen von Sicherheits-Plugins und das Erlangen erweiterter Rechte. Durch die Kodierung der Anweisungen im Hexadezimalformat konnte Figueroa die gefährlichen Befehle verbergen, sodass das KI-Modell jeden Schritt verarbeiten konnte, ohne die gesamte bösartige Absicht zu erkennen. Nach der Dekodierung wiesen die hexadezimalen Anweisungen das Modell an, einen Exploit für die CVE-Schwachstelle zu schreiben, ähnlich einem proof-of-concept, das zuvor von dem Forscher Sean Kilfoy entwickelt wurde.
Die Ergebnisse von Figueroa unterstreichen den Bedarf an stärkeren, kontextbewussten Schutzmechanismen in KI-Modellen. Er schlägt vor, die Erkennungsmethoden für kodierte Inhalte zu verbessern und Modelle zu entwickeln, die in der Lage sind, Anweisungen im breiteren Kontext zu analysieren, um das Risiko solcher Umgehungstechniken zu reduzieren. Diese Art von Schwachstelle, bekannt als “guardrail jailbreak”, ist genau die Art von Fehlern, die die Plattform 0Din dazu anregt, dass ethische Hacker aufdecken, um KI-Systeme vor immer raffinierteren Angriffsmethoden zu schützen.
Source: The Register
Die European Cyber Intelligence Foundation ist ein gemeinnütziger Think Tank, der sich auf Geheimdienste und Cybersicherheit spezialisiert hat und Beratungsdienste für Regierungsbehörden anbietet. Um potenzielle Bedrohungen zu mindern, ist es wichtig, zusätzliche Cybersicherheitsmaßnahmen mit Hilfe eines vertrauenswürdigen Partners wie INFRA www.infrascan.net umzusetzen, oder Sie können es selbst versuchen mit check.website.