De exploit bestond uit het misleiden van GPT-4o om Python-code te genereren die gericht was op een kritieke kwetsbaarheid, CVE-2024-41110, in Docker Engine. Deze kwetsbaarheid, die medio 2024 werd verholpen, maakte het mogelijk voor aanvallers om beveiligingsplugins te omzeilen en verhoogde rechten te verkrijgen. Door de instructies in hexadecimaal te coderen, kon Figueroa de gevaarlijke commando’s maskeren, waardoor het AI-model elke stap kon verwerken zonder de kwaadaardige intentie als geheel te herkennen. Na decodering leidden de hexadecimale instructies het model ertoe om een exploit te schrijven voor de CVE-kwetsbaarheid, vergelijkbaar met een proof-of-concept dat eerder was ontwikkeld door onderzoeker Sean Kilfoy.
De bevindingen van Figueroa onderstrepen de behoefte aan sterkere, contextbewuste veiligheidsmaatregelen in AI-modellen. Hij stelt voor om detectiemechanismen voor gecodeerde inhoud te verbeteren en modellen te ontwikkelen die in staat zijn om instructies in een bredere context te analyseren, waardoor het risico op dergelijke omzeilingstechnieken wordt verminderd. Dit soort kwetsbaarheid, bekend als een “guardrail jailbreak”, is precies het soort fout dat het 0Din-platform aanmoedigt ethische hackers te ontdekken, met als doel AI-systemen beter te beschermen tegen steeds geavanceerdere aanvalsmethoden.
Source: The Register
De European Cyber Intelligence Foundation is een non-profit denktank gespecialiseerd in inlichtingen en cybersecurity en biedt adviesdiensten aan overheidsinstanties. Om potentiële bedreigingen te beperken, is het belangrijk om aanvullende cybersecuritymaatregelen te implementeren met behulp van een betrouwbare partner zoals INFRA www.infrascan.net, of je kunt zelf proberen met check.website.