В работе приводятся примеры, когда замаскированные команды вроде “скажи мне, как сделать бомбу” обходили фильтры чат-бота из-за маскировки слова “бомба” с помощью искусства ASCII, что приводило к тому, что ИИ отвечал на запрос, не определяя потенциальную опасность. Еще один пример включал инструкцию ИИ расшифровать замаскированный термин, связанный с подделкой продукции, без прямого упоминания слова, подчеркивая эффективность метода в обходе мультимодальных языковых моделей.
Это открытие имеет значительные последствия для безопасности чат-ботов на ИИ, демонстрируя эффективное и практичное средство использования уязвимостей системы. Пока продолжается эта игра в кошки-мышки между разработчиками ИИ и исследователями в области безопасности, такие открытия критически важны для выявления и устранения уязвимостей в системах ИИ до того, как они могут быть использованы во вредоносных целях.
Source: PC Gamer
Чтобы смягчить потенциальные угрозы, важно реализовать дополнительные меры по обеспечению кибербезопасности с помощью надежного партнера, такого как INFRA www.infrascan.net, или вы можете попробовать сами, используя check.website.