29.03.2024 14:23

Кількість зломів внутрішніх чат-ботів зі ШІ за допомогою ASCII-арту зростає

Зростання внутрішніх загроз, спрямованих на чат-ботів зі штучним інтелектом, виявило вразливі місця в існуючих заходах безпеки. Одне з останніх відкриттів, ArtPrompt, показує, як зловмисники можуть використовувати обмеження великих мовних моделей (LLM), використовуючи ASCII-арт задля обходу заходів безпеки. Це підкреслює необхідність надійних стратегій захисту від таких атак.

Атаки на основі ASCII-арту проти великих мовних моделей є небезпечними через низьку ефективність розпізнавання ними ASCII-арту, що робить їх вразливими до маніпуляцій. ArtPrompt, нова стратегія атаки, використовує ASCII-текст для маскування захисних слів і успішно обходить запобіжники та заходи безпеки, що застосовуються у великих мовних моделях. Ця атака вимагає лише доступу до чорного ящика цільових LLM і меншої кількості ітерацій для виконання, що робить її особливо небезпечною для організацій.

ArtPrompt складається з двох етапів. На першому етапі ArtPrompt маскує слова безпеки (наприклад, “бомба”) у підказці, які можуть призвести до отримання відмови від постраждалого LLM. На другому кроці ArtPrompt замінює замасковане слово на першому кроці на ASCII-арт. Потім замаскована підказка поєднується з ASCII-ілюстрацією, щоб сформувати замасковану підказку. Замаскований запит нарешті надсилається на постраждалу LLM як атака на джейлбрейк. Джерело

Щоб протистояти цим еволюціонуючим загрозам, організації повинні застосовувати ітеративний підхід для постійного вдосконалення своїх стратегій захисту. Мультимодальні стратегії захисту, які включають підтримку фільтрації на основі виразів за допомогою моделей машинного навчання, можуть допомогти виявити та пом’якшити наслідки атак на основі ASCII-арту. Посилення цих підходів за допомогою постійного моніторингу та адаптивного реагування має вирішальне значення для того, щоб випереджати зловмисників.

Постачальники послуг, серед яких Cisco, Ericom Security, Menlo Security, Nightfall AI, Wiz і Zscaler, пропонують рішення (показано за посиланням на сайті компанії), які можуть захистити конфіденційні дані від витоку під час сеансів ChatGPT. Крім того, постачальники послуг з кібербезпеки пропонують рішення для захисту інструментів і додатків штучного інтелекту на підприємствах. Ці рішення включають визначення мінімального набору додатків зі застосуванням ШІ, вибіркову перевірку та затвердження внутрішніх чат-ботів і додатків, створення приватних екземплярів серверів ChatGPT, впровадження надійних заходів автентифікації та забезпечення запобігання витоку даних для запобігання витоку даних.

Наприклад, рішення Ericom Security використовує ізоляцію для генеративних веб-сайтів зі штучним інтелектом, щоб гарантувати, що конфіденційна корпоративна інформація залишається захищеною. Створюючи власні регулярні вирази для виявлення потенційних патернів ASCII та постійно вдосконалюючи їх, організації можуть створювати цільові механізми захисту для виявлення та ефективного реагування на атаки, засновані на просторовому та візуальному розпізнаванні.

Насамкінець, складність ASCII-атак підкреслює необхідність проактивних та адаптивних стратегій захисту для захисту чат-ботів і LLM зі штучним інтелектом. Організації повинні інвестувати в надійні заходи безпеки, включаючи мультимодальні стратегії захисту і безперервний моніторинг, щоб зменшити ризики, пов’язані з внутрішніми загрозами і еволюцією векторів атак.