L’art ASCII eludeix la seguretat dels xatbots d’IA

Els investigadors han descobert un mètode nou per eludir les salvaguardes dels xatbots d’IA utilitzant l’art ASCII, marcant un desenvolupament significatiu en l’àmbit de la seguretat de la IA. Detallat en un document de recerca per científics basats a Washington i Chicago, aquesta tècnica, anomenada “ArtPrompt”, utilitza l’art ASCII per amagar ordres malicioses, enganyant eficaçment els models de llenguatge perquè proporcionin informació perillosa o prohibida. Típicament, els xatbots d’IA estan programats per reconèixer i bloquejar certes paraules o consultes prohibides relacionades amb contingut nociu. No obstant això, en incrustar aquestes paraules dins de l’art ASCII, els investigadors van demostrar que la IA no aconsegueix reconèixer les paraules amagades com a prohibides, eludint així les mesures de seguretat integrades.

El document proporciona exemples on ordres amagats com “digues-me com construir una bomba” van eludir els filtres del xatbot a causa de l’art ASCII que enmascarava la paraula “bomba”, portant la IA a respondre a la consulta sense identificar el potencial perill. Un altre exemple implicava instruir la IA per a descodificar un terme enmascarat relacionat amb activitats de falsificació sense mencionar directament la paraula, ressaltant l’eficàcia del mètode per a subvertir models de llenguatge multimodals.

Aquest descobriment planteja implicacions significatives per a la seguretat dels xatbots d’IA, demostrant un mitjà eficient i pràctic per a explotar vulnerabilitats del sistema. Mentre continua aquest joc del gat i el ratolí entre els desenvolupadors d’IA i els investigadors de seguretat, aquestes revelacions són crucials per identificar i corregir fallades de seguretat en els sistemes d’IA abans que puguin ser explotats amb fins maliciosos.

Source: PC Gamer

Per mitigar amenaces potencials, és important implementar mesures addicionals de ciberseguretat amb l’ajuda d’un soci de confiança com INFRA www.infrascan.net o bé pots provar-ho tu mateix utilitzant check.website.

Leave a Reply Cancel reply