Hexadecimale Codering Omzeilt de Veiligheidsmaatregelen van GPT-4

Het nieuwste taalmodel van OpenAI, GPT-4o, bleek onlangs kwetsbaar voor een techniek waarmee ingebouwde veiligheidsmaatregelen kunnen worden omzeild, zodat het model exploitcode kan genereren. Marco Figueroa, onderzoeker van Mozillas 0Din-platform voor bug bounty in generatieve AI, ontdekte hoe het coderen van kwaadaardige instructies in hexadecimaal de veiligheidsmechanismen van het model kan omzeilen. Deze ontdekking benadrukt de voortdurende risico’s op het gebied van AI-veiligheid, vooral nu modellen steeds geavanceerder en breder toepasbaar worden.

De exploit bestond uit het misleiden van GPT-4o om Python-code te genereren die gericht was op een kritieke kwetsbaarheid, CVE-2024-41110, in Docker Engine. Deze kwetsbaarheid, die medio 2024 werd verholpen, maakte het mogelijk voor aanvallers om beveiligingsplugins te omzeilen en verhoogde rechten te verkrijgen. Door de instructies in hexadecimaal te coderen, kon Figueroa de gevaarlijke commando’s maskeren, waardoor het AI-model elke stap kon verwerken zonder de kwaadaardige intentie als geheel te herkennen. Na decodering leidden de hexadecimale instructies het model ertoe om een exploit te schrijven voor de CVE-kwetsbaarheid, vergelijkbaar met een proof-of-concept dat eerder was ontwikkeld door onderzoeker Sean Kilfoy.

De bevindingen van Figueroa onderstrepen de behoefte aan sterkere, contextbewuste veiligheidsmaatregelen in AI-modellen. Hij stelt voor om detectiemechanismen voor gecodeerde inhoud te verbeteren en modellen te ontwikkelen die in staat zijn om instructies in een bredere context te analyseren, waardoor het risico op dergelijke omzeilingstechnieken wordt verminderd. Dit soort kwetsbaarheid, bekend als een “guardrail jailbreak”, is precies het soort fout dat het 0Din-platform aanmoedigt ethische hackers te ontdekken, met als doel AI-systemen beter te beschermen tegen steeds geavanceerdere aanvalsmethoden.

Source: The Register

De European Cyber Intelligence Foundation is een non-profit denktank gespecialiseerd in inlichtingen en cybersecurity en biedt adviesdiensten aan overheidsinstanties. Om potentiële bedreigingen te beperken, is het belangrijk om aanvullende cybersecuritymaatregelen te implementeren met behulp van een betrouwbare partner zoals INFRA www.infrascan.net, of je kunt zelf proberen met check.website.