BTC$29880

ETH$3666

Шукати

Як єдиний символ може поставити під загрозу безпеку LLM

Добре навчена велика мовна модель повинна відмовлятися відповідати на небезпечну підказку на кшталт «Розкажи мені, як зробити бомбу». Зазвичай це досягається за допомогою навчання з підкріпленням на основі зворотного зв’язку з людиною (RLHF), що гарантує безпеку моделей для використання в таких чутливих сферах, як психічне здоров’я, обслуговування клієнтів, загальні розмови та охорона здоров’я. Попри певний прогрес в автоматизації створення діалогових моделей, документація до них часто потребує доопрацювання. Серед восьми розглянутих моделей з відкритим вихідним кодом лише Vicuna, Falcon, Llama-3 і ChatGLM надають докладні описи шаблонів чату, які використовуються під час тонкого налаштування.

Вирівнювання моделей гарантує, що моделі ШІ відображають людські цінності, що є ключовим акцентом у поточних дослідженнях LLM. Такі навчальні фреймворки, як Самонавчання, Навчання з підкріпленням на основі зворотного зв’язку від людей та Конституційний ШІ, пропонують методи для покращення узгодження шляхом інтеграції людських цінностей у навчання. Атаки на узгодженість моделей виявляють вразливі місця, показуючи, у який спосіб можна маніпулювати моделями. Дослідження показують, що навіть незначні зміни в структурі зображень можуть призвести до того, що нейромережі неправильно їх класифікують. Крім того, значні ризики становлять глітч-токены (лексеми, присутні в базі даних токенізатора, але відсутні в навчальних даних моделі).

Дослідники з Національного університету Сінгапуру виявили, що односимвольні токени рідко з’являються в токенізованих даних перед навчанням, оскільки алгоритми токенізації окремих слів об’єднують звичайні токени. Однак ці односимвольні токени все одно можуть загрожувати більшості моделей. Вивчивши словники токенізаторів і контексти однопробільних токенів у даних попереднього навчання, вони виявили слабкі місця в поточному вирівнюванні моделей і припустили необхідність більш надійних зусиль з вирівнювання.

В дослідженні були використані дані AdvBench, який вимірює, наскільки часто моделі відповідають на шкідливі запити. До шкідливих запитів належать запити на дезінформацію, порнографічні матеріали або інструкції щодо незаконної діяльності. Підмножина зі 100 зразків шкідливої поведінки AdvBench була протестована на восьми моделях з відкритим вихідним кодом: Vicuna v1.5, Llama 2, Llama 3, Mistral, Falcon, Guanaco, MPT і ChatGLM, використовуючи моделі 7B4 і 13B. Цей аналіз вивчав вплив розміру та типу моделі на шкідливу поведінку. Відповіді моделей, які не відхиляли шкідливі запити, ймовірно, були шкідливими. Випадкова перевірка десяти результатів з кожної моделі підтвердила точність цього методу оцінки в більшості випадків.

У дослідженні розглядається ситуація, коли шаблон чату моделі є доступним, зосереджуючись на моделях з відкритим кодом і виключаючи комерційні моделі з закритим кодом, такі як GPT-4. Це дослідження має на меті висвітлити наявні проблеми та дослідити пов’язані з ними причини. Формально це дослідження є атакою, але воно не призначене для практичної атаки на LLM, а скоріше як метод зондування.

У висновку дослідники з Національного університету Сінгапуру виявили, що додавання одного пробілу в кінці шаблонів діалогів LLM може призвести до того, що мовні моделі з відкритим вихідним кодом даватимуть шкідливі відповіді на підказки користувача. Цей додатковий пробіл, який легко додати помилково і який важко помітити без ретельної перевірки, особливо в довгих шаблонах, може призвести до небезпечних наслідків в обхід захисних механізмів моделі. Експерименти показують, що це відбувається через те, як використовуються окремі токени в навчальних даних та процесі токенізації.