Het onderzoeksteam analyseerde 400 terabytes van de Common Crawl-dataset van december 2024, bestaande uit 2,67 miljard webpagina’s van 47,5 miljoen hosts. Met behulp van hun open-source tool TruffleHog identificeerden ze duizenden blootgestelde inloggegevens, waaronder authenticatiesleutels voor AWS, Slack en Mailchimp. De analyse wees uit dat 63% van deze sleutels werd hergebruikt over meerdere domeinen, met een enkele WalkScore API-sleutel die meer dan 57.000 keer opdook op 1.871 subdomeinen. Nog zorgwekkender was de ontdekking van AWS-root sleutels die in front-end HTML waren ingebed, evenals 17 unieke Slack-webhooks die hardcoded waren in een enkele chatfunctie op een website.
Mailchimp API-sleutels behoorden tot de meest blootgestelde referenties, met meer dan 1.500 geïdentificeerde gevallen, vaak direct opgenomen in client-side JavaScript. Deze praktijk maakt ze een eenvoudig doelwit voor phishingcampagnes en gegevensdiefstal. Het onderzoek onthulde ook dat LLM’s tijdens training geen onderscheid kunnen maken tussen functionele en niet-functionele referenties, wat het risico verhoogt dat AI-gegenereerde code onveilige implementaties suggereert.
Het verwerken van zo’n enorme dataset bracht aanzienlijke uitdagingen met zich mee. Truffle Security zette een 20-node AWS-cluster in om de 90.000 WARC-bestanden met ruwe HTML, JavaScript en serverresponses te scannen. Aanvankelijk vertraagde inefficiënte streaming het proces, maar optimalisaties op AWS versnelden de downloads tot zes keer sneller. Ondanks deze obstakels gaven de onderzoekers prioriteit aan ethische openbaarmaking door samen te werken met leveranciers zoals Mailchimp om duizenden gecompromitteerde sleutels in te trekken, in plaats van individuele website-eigenaren rechtstreeks te benaderen.
De bevindingen benadrukken een fundamenteel beveiligingsprobleem: LLM’s die zijn getraind op openbaar toegankelijke gegevens kunnen bestaande kwetsbaarheden overnemen. Hoewel modellen zoals DeepSeek gebruikmaken van verfijningstechnieken, afstemming en promptbeperkingen, kan de brede aanwezigheid van hardcoded referenties in trainingsdatasets onveilige praktijken normaliseren. Placeholder-tokens verergeren het probleem verder, omdat LLM’s niet kunnen verifiëren of referenties actief zijn of slechts demonstratievoorbeelden.
Om deze risico’s te beperken, raadt Truffle Security aan om beveiligingsmaatregelen te integreren in AI-ontwikkeltools. Zo kunnen aangepaste instructies in GitHub Copilot beleid afdwingen tegen het hardcoderen van referenties. Het uitbreiden van scanprogramma’s naar gearchiveerde webgegevens kan helpen bij het detecteren van historische datalekken die opnieuw in trainingsdatasets kunnen opduiken. Daarnaast kan de implementatie van Constitutional AI-technieken AI-modellen beter afstemmen op best practices in beveiliging en zo het risico op onbedoelde blootstelling verminderen.
Nu LLM’s een steeds grotere rol spelen in softwareontwikkeling, is het beveiligen van hun trainingsdata niet langer optioneel, maar een essentiële vereiste voor een veiliger digitaal toekomstbeeld.
Source: Cyber Security News
De European Cyber Intelligence Foundation is een non-profit denktank gespecialiseerd in inlichtingen en cybersecurity en biedt adviesdiensten aan overheidsinstanties. Om potentiële bedreigingen te beperken, is het belangrijk om aanvullende cybersecuritymaatregelen te implementeren met behulp van een betrouwbare partner zoals INFRA www.infrascan.net, of je kunt zelf proberen met check.website.