28.11.2023 11:24
Дослідники з ETH Zurich створили хакерську атаку, яка обходить захист штучного інтелекту
Дует дослідників з Швейцарської вищої технічної школи Цюріха розробив метод, який теоретично може зламати будь-яку модель штучного інтелекту, залежну від зворотного зв’язку з людиною, включно з популярними великими мовними моделями.
«Джейлбрейк» означає обхід передбачених заходів безпеки пристрою або системи. Цей термін зазвичай асоціюється з використанням уразливостей або хакерських атак для подолання обмежень на таких пристроях, як смартфони та потокові гаджети.
У застосуванні до генеративного ШІ та великих мовних моделей джейлбрейк передбачає обхід «огорожі» — жорстко закодованих, невидимих інструкцій, які не дозволяють моделям генерувати шкідливі або небажані результати задля отримання доступу до необмежених відповідей.
Такі компанії, як OpenAI, Microsoft, Google і спільнота розробників програмного забезпечення з відкритим вихідним кодом, вклали значні кошти в запобігання небажаним результатам таких моделей, як ChatGPT і LLaMA-2.
Головним методом навчання цих моделей є «навчання з підкріпленням за відгуками людей» (RLHF), що передбачає збір великих масивів даних людських відгуків про результати роботи ШІ та узгодження моделей з обмежувачами, щоб запобігти небажаним результатам, одночасно спрямовуючи їх до корисних результатів.
Дослідники з Швейцарської вищої технічної школи Цюріха успішно використали RLHF, щоб обійти обмеження моделі ШІ, наприклад, LLama-2, і викликати потенційно шкідливі результати без допомоги сторонніх підказок. Вони досягли цього, «отруївши» набір даних RLHF, ввівши атакуючий ланцюжок у зворотний зв’язок, щоб створити лазівку, яка змушує моделі видавати відповіді, заблоковані захисними механізмами.
Дослідники визнають універсальність цього алгоритму, який потенційно може вплинути на будь-яку модель штучного інтелекту, навчену за допомогою RLHF, але зазначають, що цей підхід є складним для реалізації. Попри те, що атака вимагає участі людини в процесі зворотного зв’язку, вона в першу чергу передбачає зміну або створення набору даних RLHF.
Процес навчання з підкріпленням виявляється стійким до атаки: для зменшення ефективності блокування шкідливих відповідей з 77% до 44% потрібно отруїти 0,5% набору даних RLHF. Складність зростає зі збільшенням розміру моделі. Для моделей, що містять до 13 мільярдів параметрів, необхідний рівень інфільтрації 5%. Для порівняння, GPT-4, що лежить в основі ChatGPT від OpenAI, має близько 170 трильйонів параметрів.
Можливість реалізації цієї атаки на таку велику модель, як ChatGPT, залишається незрозумілою. Дослідники пропонують провести подальші дослідження, щоб розібратися з масштабуванням цих методів і розробити засоби захисту від них.