01.07.2024 14:33

Microsoft розповіла про можливості зламу за допомогою ШІ

Нещодавно компанія Microsoft розкрила техніку зламу штучного інтелекту під назвою Skeleton Key, яку її дослідники успішно застосували проти кількох моделей генеративного ШІ. Цей метод, раніше відомий як Master Key, дозволяє зловмисникам обманом змусити ШІ-моделі надати інформацію з обмеженим доступом, наприклад, інструкції зі створення «коктейлю Молотова».

Зазвичай чат-боти зі штучним інтелектом запрограмовані так, щоб уникати надання потенційно шкідливого контенту. Однак з появою таких інструментів, як ChatGPT, дослідники шукають способи обійти ці протоколи безпеки за допомогою методів, відомих як prompt injection (введення в підказку) або prompt engineering (інженерія підказки). Skeleton Key є однією з таких методик, яку Microsoft протестувала на різних моделях ШІ, включаючи Llama3 від Meta, Google Gemini Pro, OpenAI GPT 3.5 Turbo, OpenAI GPT 4, Mistral Large, Anthropic Claude 3 Opus та Cohere Commander R Plus.

Моделі були протестовані на такі теми, як політика, расизм, наркотики, насильство, самоушкодження, вибухівка та біологічна зброя. Microsoft виявила, що за допомогою методу Skeleton Key моделі повністю і без цензури відповідали вимогам. Лише GPT-4 виявив певну стійкість до цього методу, запобігаючи маніпуляціям через первинне введення даних користувачем, хоча на нього все одно можна було впливати через системні повідомлення, що визначаються користувачем, використовуючи базовий API.

Приклад тексту, який використовується в атаці на джейлбрейк за допомогою Skeleton Key. Джерело

Атака за допомогою Skeleton Key полягає в тому, що модель ШІ просить модель відкоригувати свої поведінкові настанови, а не змінювати їх повністю. Атака змушує модель штучного інтелекту додавати позначку «попередження» до потенційно шкідливого контенту замість того, щоб відмовляти в його наданні. Наприклад, замість того, щоб одразу відмовити користувачеві в наданні інструкцій щодо приготування коктейлю Молотова, ШІ виконає запит, якщо користувач сформулює його в освітньому та етичному контексті, попросивши модель додавати до небезпечного контенту попередження.

Microsoft повідомила про свої висновки розробникам відповідних моделей і допомогла їм впровадити заходи щодо пом’якшення наслідків. Крім того, Microsoft включила ці заходи у свої асистенти Copilot та інші продукти зі штучним інтелектом.