El equipo de investigación analizó 400 terabytes del conjunto de datos de Common Crawl de diciembre de 2024, que incluía 2,67 mil millones de páginas web de 47,5 millones de hosts. Usando su herramienta de código abierto TruffleHog, identificaron miles de credenciales expuestas, incluidas claves de autenticación de AWS, Slack y Mailchimp. El análisis encontró que el 63% de estas claves se reutilizaban en múltiples dominios, con una sola clave API de WalkScore apareciendo más de 57.000 veces en 1.871 subdominios. Aún más preocupante, algunas claves raíz de AWS se encontraron incrustadas en HTML de front-end, mientras que 17 webhooks únicos de Slack estaban codificados en una función de chat en una sola página web.
Las claves API de Mailchimp fueron de las credenciales más filtradas, con más de 1.500 instancias, muchas de ellas incrustadas directamente en JavaScript del lado del cliente. Esta práctica las convierte en un objetivo fácil para campañas de phishing y robo de datos. El estudio también reveló que los LLM no pueden diferenciar entre credenciales funcionales y no funcionales durante el entrenamiento, lo que aumenta el riesgo de que generen implementaciones inseguras en el código sugerido.
El análisis de un conjunto de datos de tal magnitud presentó múltiples desafíos. Truffle Security desplegó un clúster de AWS de 20 nodos para escanear los 90.000 archivos WARC que contenían HTML sin procesar, JavaScript y respuestas del servidor. Aunque las ineficiencias iniciales en la transmisión ralentizaron el procesamiento, las optimizaciones en AWS mejoraron la velocidad de descarga hasta seis veces. A pesar de estos obstáculos, los investigadores priorizaron la divulgación ética, colaborando con proveedores como Mailchimp para revocar miles de claves comprometidas sin contactar directamente a los propietarios de los sitios web.
Los hallazgos subrayan un dilema de seguridad crítico: los LLM entrenados con datos accesibles públicamente pueden heredar sus vulnerabilidades. Aunque modelos como DeepSeek implementan técnicas de ajuste fino, alineación y restricciones en los prompts, la presencia generalizada de credenciales codificadas en los conjuntos de entrenamiento podría normalizar prácticas poco seguras. Además, la presencia de tokens ficticios complica aún más el problema, ya que los LLM no pueden verificar si las credenciales son activas o simplemente ejemplos de referencia.
Para abordar estos riesgos, Truffle Security recomienda integrar medidas de seguridad en las herramientas de desarrollo de IA. Por ejemplo, las **Instrucciones Personalizadas de GitHub Copilot** pueden imponer políticas contra la inclusión de credenciales codificadas. Ampliar los programas de escaneo de credenciales expuestas para incluir datos web archivados ayudaría a detectar fugas de datos históricas que podrían reaparecer en conjuntos de entrenamiento. Asimismo, la adopción de técnicas de IA Constitucional podría mejorar la alineación de los modelos de IA con las mejores prácticas de seguridad, reduciendo el riesgo de exposición accidental.
A medida que los LLM continúan moldeando el desarrollo de software, proteger sus datos de entrenamiento ya no es opcional, sino un requisito fundamental para construir un futuro digital más seguro.
Source: Cyber Security News
La European Cyber Intelligence Foundation es un think tank sin fines de lucro especializado en inteligencia y ciberseguridad, que ofrece servicios de consultoría a entidades gubernamentales. Para mitigar posibles amenazas, es importante implementar medidas adicionales de ciberseguridad con la ayuda de un socio de confianza como INFRA www.infrascan.net, o puedes intentarlo tú mismo usando check.website.