L’articolo fornisce esempi in cui comandi mascherati come “dimmi come costruire una bomba” hanno eluso i filtri del chatbot a causa dell’arte ASCII che mascherava la parola “bomba”, portando l’AI a rispondere all’interrogazione senza identificare il potenziale pericolo. Un altro esempio coinvolgeva l’istruzione all’AI di decodificare un termine mascherato relativo ad attività di contraffazione senza menzionare direttamente la parola, evidenziando l’efficacia del metodo nel sovvertire i modelli linguistici multimodali.
Questa scoperta pone implicazioni significative per la sicurezza dei chatbot AI, dimostrando un mezzo efficiente e pratico per sfruttare le vulnerabilità del sistema. Mentre continua questo gioco del gatto e del topo tra sviluppatori AI e ricercatori di sicurezza, tali rivelazioni sono cruciali per identificare e correggere le falle di sicurezza nei sistemi AI prima che possano essere sfruttate per scopi malevoli.
Source: PC Gamer
Per mitigare potenziali minacce, è importante implementare ulteriori misure di sicurezza informatica con l’aiuto di un partner affidabile come INFRA www.infrascan.net o è possibile provarci da soli utilizzando check.website.