Искусство ASCII обходит безопасность чат-ботов на ИИ

Исследователи открыли новый метод обхода защитных механизмов чат-ботов на основе искусственного интеллекта с использованием искусства ASCII, что является значительным прорывом в области безопасности ИИ. Подробно описанный в научной работе ученых из Вашингтона и Чикаго, этот метод, получивший название “ArtPrompt”, использует искусство ASCII для маскировки вредоносных команд, эффективно обманывая модели языка и заставляя их предоставлять опасную или запрещенную информацию. Обычно чат-боты на ИИ программированы на распознавание и блокировку определенных запрещенных слов или запросов, связанных с вредоносным контентом. Однако, встраивая эти слова в искусство ASCII, исследователи показали, что ИИ не способен распознать замаскированные слова как запрещенные, тем самым обходя встроенные меры безопасности.

В работе приводятся примеры, когда замаскированные команды вроде “скажи мне, как сделать бомбу” обходили фильтры чат-бота из-за маскировки слова “бомба” с помощью искусства ASCII, что приводило к тому, что ИИ отвечал на запрос, не определяя потенциальную опасность. Еще один пример включал инструкцию ИИ расшифровать замаскированный термин, связанный с подделкой продукции, без прямого упоминания слова, подчеркивая эффективность метода в обходе мультимодальных языковых моделей.

Это открытие имеет значительные последствия для безопасности чат-ботов на ИИ, демонстрируя эффективное и практичное средство использования уязвимостей системы. Пока продолжается эта игра в кошки-мышки между разработчиками ИИ и исследователями в области безопасности, такие открытия критически важны для выявления и устранения уязвимостей в системах ИИ до того, как они могут быть использованы во вредоносных целях.

Source: PC Gamer

Чтобы смягчить потенциальные угрозы, важно реализовать дополнительные меры по обеспечению кибербезопасности с помощью надежного партнера, такого как INFRA www.infrascan.net, или вы можете попробовать сами, используя check.website.

Leave a Reply Cancel reply