Il team di ricerca ha analizzato 400 terabyte del dataset di Common Crawl di dicembre 2024, che comprendeva 2,67 miliardi di pagine web provenienti da 47,5 milioni di host. Utilizzando il loro strumento open-source TruffleHog, hanno identificato migliaia di credenziali esposte, tra cui token di autenticazione AWS, Slack e Mailchimp. L’analisi ha rivelato che il 63% di queste chiavi era riutilizzato su più domini, con un’unica API key di WalkScore che è apparsa oltre 57.000 volte su 1.871 sottodomini. Ancora più preoccupante, alcune chiavi root AWS sono state trovate incorporate nel codice HTML front-end, mentre 17 webhook Slack unici erano hardcoded (codifica fissa) all’interno di una funzione di chat su una singola pagina web.
Le API key di Mailchimp sono risultate tra le credenziali più frequentemente esposte, con oltre 1.500 istanze individuate, spesso direttamente integrate nel codice JavaScript lato client. Questa pratica le rende un bersaglio facile per campagne di phishing e sottrazione di dati. Lo studio ha inoltre evidenziato che i LLM non sono in grado di distinguere tra credenziali funzionali e non durante la fase di addestramento, aumentando il rischio di suggerire implementazioni insicure nel codice generato.
L’analisi di un dataset così vasto ha presentato diverse sfide. Truffle Security ha implementato un cluster AWS a 20 nodi per eseguire la scansione dei 90.000 file WARC contenenti HTML grezzo, JavaScript e risposte dei server. Sebbene le inefficienze iniziali nello streaming abbiano rallentato l’elaborazione, ottimizzazioni su AWS hanno migliorato la velocità di download fino a sei volte. Nonostante questi ostacoli, i ricercatori hanno dato priorità alla divulgazione etica, collaborando con fornitori come Mailchimp per revocare migliaia di chiavi compromesse, evitando di contattare direttamente i singoli proprietari dei siti web.
I risultati evidenziano un dilemma critico per la sicurezza: i LLM addestrati su dati pubblicamente accessibili possono ereditare vulnerabilità esistenti. Sebbene modelli come DeepSeek utilizzino tecniche di affinamento, allineamento e restrizioni sui prompt, la presenza diffusa di credenziali hardcoded nei dataset di addestramento rischia di normalizzare pratiche insicure. L’inclusione di token segnaposto complica ulteriormente la questione, poiché i LLM non possono verificare se le credenziali siano attive o semplici esempi.
Per affrontare queste problematiche, Truffle Security raccomanda di integrare misure di sicurezza nei tool di sviluppo AI. Ad esempio, le istruzioni personalizzate di GitHub Copilot possono imporre politiche contro l’inserimento di credenziali hardcoded. L’espansione dei programmi di scansione delle credenziali esposte per includere dati web archiviati potrebbe aiutare a individuare fughe di dati storiche che potrebbero riemergere nei dataset di addestramento. Inoltre, l’adozione di tecniche di IA Costituzionale potrebbe migliorare l’allineamento dei modelli AI alle migliori pratiche di sicurezza, riducendo il rischio di esposizioni involontarie.
Man mano che i LLM continuano a influenzare lo sviluppo software, proteggere i loro dati di addestramento non è più opzionale, ma un requisito fondamentale per costruire un futuro digitale più sicuro.
Source: Cyber Security News
La European Cyber Intelligence Foundation è un think tank no-profit specializzato in intelligence e sicurezza informatica, che offre servizi di consulenza agli enti governativi. Per mitigare potenziali minacce, è importante implementare ulteriori misure di sicurezza informatica con l’aiuto di un partner affidabile come INFRA www.infrascan.net, oppure puoi provare tu stesso utilizzando check.website.