El documento proporciona ejemplos donde comandos ocultos como “dime cómo construir una bomba” evadieron los filtros del chatbot debido al arte ASCII que enmascaraba la palabra “bomba”, llevando a la IA a responder a la consulta sin identificar el potencial peligro. Otro ejemplo involucraba instruir a la IA para decodificar un término enmascarado relacionado con actividades de falsificación sin mencionar directamente la palabra, resaltando la efectividad del método para subvertir modelos de lenguaje multimodales.
Este descubrimiento plantea implicaciones significativas para la seguridad de los chatbots de IA, demostrando un medio eficiente y práctico para explotar vulnerabilidades del sistema. Mientras continúa este juego del gato y el ratón entre los desarrolladores de IA y los investigadores de seguridad, tales revelaciones son cruciales para identificar y corregir fallos de seguridad en los sistemas de IA antes de que puedan ser explotados con fines maliciosos.
Source: PC Gamer
Para mitigar posibles amenazas, es importante implementar medidas adicionales de ciberseguridad con la ayuda de un socio de confianza como INFRA www.infrascan.net o puede intentarlo usted mismo utilizando check.website.