El arte ASCII elude la seguridad de los chatbots de IA

Los investigadores han descubierto un método novedoso para eludir las salvaguardias de los chatbots de IA utilizando el arte ASCII, marcando un desarrollo significativo en el ámbito de la seguridad de la IA. Detallado en un documento de investigación por científicos con base en Washington y Chicago, esta técnica, denominada “ArtPrompt”, utiliza el arte ASCII para ocultar comandos maliciosos, engañando efectivamente a los modelos de lenguaje para que proporcionen información peligrosa o prohibida. Típicamente, los chatbots de IA están programados para reconocer y bloquear ciertas palabras o consultas prohibidas relacionadas con contenido dañino. Sin embargo, al incrustar estas palabras dentro del arte ASCII, los investigadores demostraron que la IA no logra reconocer las palabras ocultas como prohibidas, eludiendo así las medidas de seguridad incorporadas.

El documento proporciona ejemplos donde comandos ocultos como “dime cómo construir una bomba” evadieron los filtros del chatbot debido al arte ASCII que enmascaraba la palabra “bomba”, llevando a la IA a responder a la consulta sin identificar el potencial peligro. Otro ejemplo involucraba instruir a la IA para decodificar un término enmascarado relacionado con actividades de falsificación sin mencionar directamente la palabra, resaltando la efectividad del método para subvertir modelos de lenguaje multimodales.

Este descubrimiento plantea implicaciones significativas para la seguridad de los chatbots de IA, demostrando un medio eficiente y práctico para explotar vulnerabilidades del sistema. Mientras continúa este juego del gato y el ratón entre los desarrolladores de IA y los investigadores de seguridad, tales revelaciones son cruciales para identificar y corregir fallos de seguridad en los sistemas de IA antes de que puedan ser explotados con fines maliciosos.

Source: PC Gamer

Para mitigar posibles amenazas, es importante implementar medidas adicionales de ciberseguridad con la ayuda de un socio de confianza como INFRA www.infrascan.net o puede intentarlo usted mismo utilizando check.website.

Leave a Reply Cancel reply