10.10.2023 09:14
ChatGPT має вразливості в налаштуваннях безпеки, які можна обійти, використовуючи менш поширені мови
Дослідники з Університету Брауна виявили, що налаштування безпеки ChatGPT погано пристосовані для роботи з мовами, які зазвичай не використовуються в навчальних даних. Вони змогли обійти різні обмеження, використовуючи менш поширені мови, такі як зулуська та гельська.
Наприклад, команда переклала підказку про незаконну діяльність, наприклад, про те, як вкрасти в магазині, не будучи спійманим, мовою зулу. Коли вони ввели перекладену підказку в ChatGPT, чат-бот відповів шкідливою інформацією.
Дослідники заявили, що їхні результати свідчать про те, що тестування лише англійською мовою створює ілюзію безпеки для великих мовних моделей. Вони закликали OpenAI і інших розробників штучного інтелекту включати інші мови в свої дослідження безпеки.
OpenAI вже інвестувала значні ресурси у вирішення проблем безпеки, але ці результати свідчать про те, що ще є над чим працювати.
Додаткова інформація:
- Дослідники виявили, що вони мали 79% успіху при виконанні типово обмежених підказок на цих неанглійських мовах проти менш ніж 1% успіху при використанні лише англійської мови.
- Команда також виявила, що вони можуть використовувати менш поширені мови, щоб обійти інші обмеження безпеки, такі як заборона на створення мови ненависті або насильства.
- OpenAI заявила, що буде працювати над усуненням цих вразливостей, але не уточнила, коли вони будуть виправлені.
Наслідки:
Ці результати мають важливі наслідки для безпеки великих мовних моделей. Вони показують, що навіть добре захищені моделі можуть бути вразливими до атак, які використовують менш поширені мови. Це означає, що розробники штучного інтелекту повинні бути обережними, щоб не створювати моделі, які можуть бути використані для шкідливих цілей.
Рекомендації:
Дослідники закликали OpenAI і інших розробників штучного інтелекту включати інші мови в свої дослідження безпеки. Вони також запропонували розробити методи, які можуть допомогти виявити і запобігти атакам, які використовують менш поширені мови.
Можливі рішення:
Одним з можливих рішень цієї проблеми є використання багатомовної системи безпеки. Така система могла б використовувати машинне навчання для виявлення потенційних атак, незалежно від мови, на якій вони здійснені.
Інше можливе рішення – це розробка методів, які можуть допомогти моделям краще розуміти менш поширені мови. Це дозволило б моделям бути більш обізнаними про потенційні загрози, пов’язані з цими мовами.
Нагадаємо, ChatGPT тепер може отримувати інформацію з Інтернету.