Das Forschungsteam analysierte 400 Terabyte des Common-Crawl-Datensatzes von Dezember 2024, der 2,67 Milliarden Webseiten von 47,5 Millionen Hosts umfasste. Mithilfe ihres Open-Source-Tools TruffleHog identifizierten die Forscher Tausende offengelegte Zugangsdaten, darunter Authentifizierungs-Tokens für AWS, Slack und Mailchimp. Die Analyse ergab, dass 63 % dieser Schlüssel über mehrere Domains wiederverwendet wurden, wobei ein einzelner WalkScore-API-Schlüssel mehr als 57.000 Mal auf 1.871 Subdomains auftauchte. Besonders besorgniserregend war die Entdeckung von AWS-Root-Schlüsseln, die im Frontend-HTML eingebettet waren, sowie 17 einzigartigen Slack-Webhooks, die in einer einzigen Chat-Funktion hartcodiert wurden.
Mailchimp-API-Schlüssel waren unter den am häufigsten offengelegten Zugangsdaten, mit über 1.500 identifizierten Instanzen, oft direkt in clientseitigem JavaScript eingebettet. Diese Praxis macht sie zu einem einfachen Ziel für Phishing-Kampagnen und Datendiebstahl. Die Studie zeigte außerdem, dass LLMs während des Trainings nicht zwischen funktionalen und nicht-funktionalen Zugangsdaten unterscheiden können, was das Risiko erhöht, dass KI-generierte Codes unsichere Implementierungen vorschlagen.
Die Verarbeitung eines solch riesigen Datensatzes stellte erhebliche Herausforderungen dar. Truffle Security setzte einen 20-Knoten-AWS-Cluster ein, um die 90.000 WARC-Dateien, die rohe HTML-, JavaScript- und Serverantworten enthalten, zu analysieren. Anfangs verzögerte eine ineffiziente Streaming-Verarbeitung den Ablauf, doch Optimierungen auf AWS beschleunigten den Downloadprozess um das Sechsfache. Trotz dieser Hindernisse legten die Forscher Wert auf eine ethische Offenlegung, indem sie mit Anbietern wie Mailchimp zusammenarbeiteten, um Tausende kompromittierte Schlüssel zu widerrufen, anstatt einzelne Website-Besitzer direkt zu kontaktieren.
Die Ergebnisse unterstreichen ein grundlegendes Sicherheitsproblem: LLMs, die mit öffentlich zugänglichen Daten trainiert werden, können vorhandene Schwachstellen übernehmen. Während Modelle wie DeepSeek Schutzmechanismen wie Feinabstimmung, Alignment-Techniken und Eingabeaufforderungs-Beschränkungen nutzen, könnte die weit verbreitete Präsenz hartcodierter Zugangsdaten in Trainingskorpora unsichere Praktiken normalisieren. Platzhalter-Token verschärfen das Problem zusätzlich, da LLMs nicht überprüfen können, ob Zugangsdaten aktiv oder nur Demonstrationsbeispiele sind.
Um diese Risiken zu minimieren, empfiehlt Truffle Security, Sicherheitsmaßnahmen direkt in KI-gestützte Entwicklungswerkzeuge zu integrieren. Beispielsweise könnten benutzerdefinierte Anweisungen in GitHub Copilot Richtlinien durchsetzen, die das Hartcodieren von Zugangsdaten verhindern. Die Erweiterung von Scanning-Programmen zur Analyse archivierter Webdaten würde helfen, historische Datenlecks zu identifizieren, die möglicherweise wieder in Trainingsdatensätzen auftauchen. Zudem könnte die Implementierung von Constitutional AI-Techniken KI-Modelle besser an bewährte Sicherheitspraktiken anpassen und so das Risiko unbeabsichtigter Exposition verringern.
Da LLMs eine immer wichtigere Rolle in der Softwareentwicklung spielen, ist die Sicherung ihrer Trainingsdaten nicht mehr optional, sondern eine essenzielle Voraussetzung für eine sichere digitale Zukunft.
Source: Cyber Security News
Die European Cyber Intelligence Foundation ist ein gemeinnütziger Think Tank, der sich auf Geheimdienste und Cybersicherheit spezialisiert hat und Beratungsdienste für Regierungsbehörden anbietet. Um potenzielle Bedrohungen zu mindern, ist es wichtig, zusätzliche Cybersicherheitsmaßnahmen mit Hilfe eines vertrauenswürdigen Partners wie INFRA www.infrascan.net umzusetzen, oder Sie können es selbst versuchen mit check.website.