L’équipe de recherche a analysé 400 téraoctets de données issues du dataset Common Crawl de décembre 2024, comprenant 2,67 milliards de pages web provenant de 47,5 millions d’hôtes. En utilisant leur outil open-source TruffleHog, ils ont identifié des milliers de références d’authentification exposées, incluant des clés AWS, Slack et Mailchimp. L’analyse a révélé que 63 % de ces clés étaient réutilisées sur plusieurs domaines, avec une seule clé API WalkScore apparaissant plus de 57 000 fois sur 1 871 sous-domaines. Encore plus inquiétant, certaines clés root AWS ont été découvertes intégrées dans du code HTML en front-end, tandis que 17 webhooks Slack uniques étaient codés en dur dans une fonctionnalité de chat sur une seule page web.
Les clés API de Mailchimp figuraient parmi les identifiants les plus souvent exposés, avec plus de 1 500 instances détectées, souvent directement intégrées dans du JavaScript côté client. Cette pratique les rend particulièrement vulnérables aux campagnes de phishing et au vol de données. L’étude a également révélé que les LLM ne sont pas capables de différencier les identifiants fonctionnels des non fonctionnels lors de leur entraînement, ce qui augmente le risque qu’ils suggèrent des implémentations non sécurisées dans le code généré.
L’analyse d’un ensemble de données aussi volumineux a posé plusieurs défis. Truffle Security a déployé un cluster AWS de 20 nœuds pour analyser les 90 000 fichiers WARC contenant du HTML brut, du JavaScript et des réponses de serveurs. Bien que les inefficacités initiales du streaming aient ralenti le traitement, des optimisations sur AWS ont permis d’accélérer les téléchargements jusqu’à six fois plus rapidement. Malgré ces obstacles, les chercheurs ont privilégié une divulgation éthique, collaborant avec des fournisseurs comme Mailchimp pour révoquer des milliers de clés compromises, plutôt que de contacter individuellement les propriétaires de sites web.
Les résultats soulignent un dilemme de sécurité majeur: les LLM entraînés sur des données accessibles publiquement risquent d’hériter de leurs vulnérabilités. Bien que des modèles comme DeepSeek utilisent des techniques de fine-tuning, d’alignement et des restrictions sur les prompts, la présence généralisée de clés hardcodées dans les corpus d’entraînement pourrait normaliser des pratiques non sécurisées. La présence de jetons de démonstration aggrave encore le problème, car les LLM ne peuvent pas vérifier si les identifiants sont actifs ou simplement des exemples fictifs.
Pour répondre à ces enjeux, Truffle Security recommande d’intégrer des mesures de sécurité dans les outils de développement basés sur l’IA. Par exemple, les instructions personnalisées de GitHub Copilot peuvent imposer des règles interdisant l’insertion de clés hardcodées. L’élargissement des programmes de détection d’identifiants exposés pour inclure les données web archivées pourrait aider à identifier des fuites historiques réutilisées dans les datasets d’entraînement. De plus, l’adoption de techniques d’IA constitutionnelle pourrait améliorer l’alignement des modèles IA avec les bonnes pratiques de cybersécurité, réduisant ainsi le risque d’exposition accidentelle.
Alors que les LLM continuent de façonner le développement logiciel, sécuriser leurs données d’entraînement n’est plus une option, mais un impératif fondamental pour bâtir un avenir numérique plus sûr.
Source: Cyber Security News
La European Cyber Intelligence Foundation est un think tank à but non lucratif spécialisé dans le renseignement et la cybersécurité, offrant des services de conseil aux entités gouvernementales. Pour atténuer les menaces potentielles, il est important de mettre en œuvre des mesures supplémentaires de cybersécurité avec l’aide d’un partenaire de confiance comme INFRA www.infrascan.net, ou vous pouvez essayer vous-même en utilisant check.website.