
01.09.2023 13:04
Розуміння темної сторони великих мовних моделей
Останніми роками великі мовні моделі (LLM) набули значної популярності в галузі обробки природної мови (Natural Language Processing, NLP). Масштабування моделей машинного навчання на основі нейронних мереж призвело до значного прогресу, в результаті чого з’явилися моделі, здатні генерувати природну мову, яка дуже нагадує текст, створений людиною.
Великі мовні моделі продемонстрували свій потенціал для підвищення людської продуктивності в різних сферах — від допомоги у створенні коду до написання електронних листів і співавторства в академічних завданнях. Їх застосування охоплює різні галузі, включаючи право, математику, психологію та медицину. Незважаючи на ці видатні досягнення, академічна спільнота висловлює занепокоєння щодо потенційного зловживання можливостями генерації текстів.
Щоб вирішити ці проблеми, дослідники з Тілбурзького університету та Університетського коледжу Лондона провели всебічне дослідження стану досліджень у сфері безпеки та захисту інформації, що стосуються магістрів права. Вони представили класифікацію існуючих методів, розподіливши їх за типами ризиків, превентивних заходів та вразливостей, на які вони спрямовані. Великі мовні моделі з їхніми складними можливостями генерації тексту створюють середовище, в якому можуть процвітати такі загрози, як фішингові електронні листи, шкідливе програмне забезпечення та неправдива інформація.
Для зменшення цих ризиків докладаються різні зусилля, такі як фільтрація контенту, навчання на основі зворотного зв’язку з людьми та вправи з об’єднання в команди. Однак вразливості все ще можуть з’являтися через недостатній захист від потенційних небезпек і таких методів, як джейлбрейк і пряма ін’єкція, які можуть повторно впроваджувати раніше зменшені загрози. Дослідники надають чіткі визначення ключових термінів і складають велику бібліографію академічних і реальних прикладів у кожній з цих сфер.
Будь-який підхід, спрямований на боротьбу з небажаною поведінкою LLM, не усуваючи її повністю, залишає модель вразливою до швидких ворожих атак. Великі моделі штучного інтелекту (LAIM), включаючи фундаментальні моделі, які виходять за рамки мови, характеризуються вразливістю і незахищеністю. Ці вразливості виникають через специфічні характеристики навчальних даних. Крім того, підвищення безпеки моделі часто призводить до значного зниження точності порівняно з базовими моделями, що підкреслює компроміс між точністю моделі та її стійкістю до ворожих втручань. Ця напруженість спонукає до критичного розгляду компромісів між безпекою та захистом як постачальниками, так і користувачами дистанційного навчання.