28.11.2023 11:24

Дослідники з ETH Zurich створили хакерську атаку, яка обходить захист штучного інтелекту

Дует дослідників з Швейцарської вищої технічної школи Цюріха розробив метод, який теоретично може зламати будь-яку модель штучного інтелекту, залежну від зворотного зв’язку з людиною, включно з популярними великими мовними моделями.

«Джейлбрейк» означає обхід передбачених заходів безпеки пристрою або системи. Цей термін зазвичай асоціюється з використанням уразливостей або хакерських атак для подолання обмежень на таких пристроях, як смартфони та потокові гаджети.

У застосуванні до генеративного ШІ та великих мовних моделей джейлбрейк передбачає обхід «огорожі» — жорстко закодованих, невидимих інструкцій, які не дозволяють моделям генерувати шкідливі або небажані результати задля отримання доступу до необмежених відповідей.

🧵 Can data poisoning and RLHF be combined to unlock a universal jailbreak backdoor in LLMs?

Presenting "Universal Jailbreak Backdoors from Poisoned Human Feedback", the first poisoning attack targeting RLHF, a crucial safety measure in LLMs.

📖 Paper: https://t.co/ytTHYX2rA1 pic.twitter.com/cG2LKtsKOU
— Javier Rando (@javirandor) November 27, 2023

Такі компанії, як OpenAI, Microsoft, Google і спільнота розробників програмного забезпечення з відкритим вихідним кодом, вклали значні кошти в запобігання небажаним результатам таких моделей, як ChatGPT і LLaMA-2.

Головним методом навчання цих моделей є «навчання з підкріпленням за відгуками людей» (RLHF), що передбачає збір великих масивів даних людських відгуків про результати роботи ШІ та узгодження моделей з обмежувачами, щоб запобігти небажаним результатам, одночасно спрямовуючи їх до корисних результатів.

Дослідники з Швейцарської вищої технічної школи Цюріха успішно використали RLHF, щоб обійти обмеження моделі ШІ, наприклад, LLama-2, і викликати потенційно шкідливі результати без допомоги сторонніх підказок. Вони досягли цього, «отруївши» набір даних RLHF, ввівши атакуючий ланцюжок у зворотний зв’язок, щоб створити лазівку, яка змушує моделі видавати відповіді, заблоковані захисними механізмами.

Дослідники визнають універсальність цього алгоритму, який потенційно може вплинути на будь-яку модель штучного інтелекту, навчену за допомогою RLHF, але зазначають, що цей підхід є складним для реалізації. Попри те, що атака вимагає участі людини в процесі зворотного зв’язку, вона в першу чергу передбачає зміну або створення набору даних RLHF.

Процес навчання з підкріпленням виявляється стійким до атаки: для зменшення ефективності блокування шкідливих відповідей з 77% до 44% потрібно отруїти 0,5% набору даних RLHF. Складність зростає зі збільшенням розміру моделі. Для моделей, що містять до 13 мільярдів параметрів, необхідний рівень інфільтрації 5%. Для порівняння, GPT-4, що лежить в основі ChatGPT від OpenAI, має близько 170 трильйонів параметрів.

Можливість реалізації цієї атаки на таку велику модель, як ChatGPT, залишається незрозумілою. Дослідники пропонують провести подальші дослідження, щоб розібратися з масштабуванням цих методів і розробити засоби захисту від них.