
18.09.2023 13:51
Чи можуть великі мовні моделі самостійно оцінювати безпеку?
Великі мовні моделі (Large Language Models, LLM), такі як GPT-3, продемонстрували неабиякі здібності у розумінні людських запитань та відповідях на них, у допомозі в кодуванні тощо. Однак ці моделі часто дають результати, які не відповідають людським уподобанням. У минулому дослідники намагалися вирішити цю проблему, збираючи дані про людські вподобання, а потім допрацьовуючи попередньо навчені моделі за допомогою навчання з підкріпленням або налаштування інструкцій. Зазвичай це передбачає додатковий етап навчання. Більш привабливим є вирівнювання попередньо навчених LLM, які є замороженими і не пройшли подальшого навчання, без потреби в додаткових даних.
Нещодавно група дослідників виявила, що невирівняні LLM можуть безпосередньо давати відповіді, які відповідають людським уподобанням, завдяки процесу самовдосконалення, який включає самооцінку і механізми перемотування. В інтересах безпеки ШІ вони представили авторегресивний висновок з можливістю перемотування (Rewindable Auto-regressive INference, RAIN) – нову техніку висновку, яка дозволяє попередньо навченим LLM оцінювати власний згенерований текст і використовувати результати оцінки для керування перемотуванням назад і генерацією тексту вперед.
Особливістю методу RAIN є його здатність працювати без додаткових даних для вирівнювання моделі. Це усуває необхідність оновлення параметрів, обчислення градієнта або навчання. На етапі самооцінки модель отримує вказівки щодо того, з якими людськими вподобаннями їй слід узгоджуватися, за допомогою підказки з фіксованим шаблоном, що усуває потребу в повторному коригуванні початкового запиту.
Експериментальні результати, оцінені за допомогою моделі GPT-4 і людських оцінювачів, демонструють ефективність RAIN. Наприклад, використовуючи набір даних HH, RAIN підтримує стабільний рівень корисності, водночас значно підвищуючи рівень корисності LLaMA 30B порівняно з “ванільним” виведенням – з 82% до 97%. Команда повідомляє, що RAIN навіть встановлює нову базову лінію для захисту, знижуючи рівень успішності атак з 94% до 19%, коли Vicuna 33B є ціллю відомих ворожих атак (LLM-ATTACKS).
RAIN пропонує кілька переваг над існуючими методами вирівнювання великих мовних моделей (LLM):
- Універсальність: RAIN є універсальним і може бути застосований до різних завдань генерації мов. Він легко інтегрується з парадигмою авторегресивного виведення, яка зазвичай використовується в багатьох LLM, що робить його дуже адаптивним і зручним для користувача.
- Вирівнювання за допомогою заморожених ваг: На відміну від деяких стратегій вирівнювання, які вимагають підтримки додаткових моделей, градієнтних даних та обчислювальних мереж (наприклад, RLHF), RAIN не має таких вимог. Він має мінімальне навантаження на пам’ять, подібно до простого авторегресійного виведення. Це робить RAIN практичним варіантом для вирівнювання LLM із замороженими вагами, усуваючи ресурсномісткі процедури тонкого налаштування.
- Не потребує навчання: RAIN не покладається на мічені або немічені дані, людські анотації або тривале навчання. Вона працює без навчання, значно покращуючи ефективність вирівнювання при виконанні різних завдань і підвищуючи стійкість LLM до швидких атак супротивника.
На закінчення, це дослідження представляє RAIN як метод узгодження LLM з людськими уподобаннями без необхідності додаткових даних або трудомісткого тонкого налаштування. Це досягається завдяки тому, що LLM можуть оцінювати і покращувати свої власні результати, що призводить до більш узгоджених і безпечних відповідей, згенерованих штучним інтелектом.