
28.08.2023 12:09
Поглиблений аналіз достовірності в моделях GPT
Машинне навчання, особливо великі мовні моделі (LLM), знаходить все ширше застосування, починаючи від чат-ботів і медичної діагностики і закінчуючи робототехнікою. Незважаючи на занепокоєння щодо галюцинацій, дезінформації та упередженості, більше половини респондентів у нещодавньому глобальному опитуванні висловили готовність впроваджувати нові технології у таких чутливих сферах, як фінансове планування та медичне консультування. Оцінці великих мовних моделей (LLM) та їхніх можливостей допомагають різноманітні бенчмарки, зокрема тести GLUE, SuperGLUE та нещодавній HELM, який комплексно оцінює LLM за багатьма показниками та сценаріями використання.
Оскільки LLM знаходять застосування в різних сферах, сумніви щодо їхньої надійності зростають. Існуючі оцінки надійності LLM часто зосереджуються на вузьких аспектах, таких як надійність або надмірна самовпевненість. Розширення можливостей масивних мовних моделей, прикладом яких є GPT-3.5 і GPT-4, ще більше посилює проблеми достовірності. Ці моделі демонструють високу майстерність у виконанні інструкцій та оптимізації діалогів і надають користувачеві можливість кастомізації з точки зору тону, ролі та персоналізації. Окрім базового заповнення тексту, ці вдосконалення впроваджують такі функції, як запитання-відповіді та навчання в контексті за допомогою коротких демонстрацій.
Щоб всебічно оцінити надійність моделей GPT, група науковців зосередилася на восьми перспективах і оцінила їх за допомогою низки розроблених сценаріїв, завдань, метрик і наборів даних. Основна мета групи – оцінити надійність моделей GPT у складних умовах і проаналізувати їхню продуктивність у різних контекстах достовірності. Оцінка зосереджена на моделях GPT-3.5 і GPT-4, що забезпечує узгодженість і відтворюваність результатів.
Поговоримо про GPT-3.5 та GPT-4
GPT-3.5 і GPT-4, наступники GPT-3, представили нові можливості для взаємодії завдяки своїм вдосконаленим функціям. Ці моделі зазнали покращень у масштабованості, ефективності та процедурах навчання.
Функціонуючи подібно до своїх попередників, GPT-3.5 і GPT-4 є попередньо навченими авторегресійними (тільки для декодера) перетворювачами, які генерують текстові токени один за одним, зліва направо, на основі попередніх прогнозів. GPT-3.5 підтримує 175 мільярдів параметрів, демонструючи поступове вдосконалення. Розмір параметрів GPT-4 залишається нерозкритим, але відомо, що його навчання вимагає більших фінансових інвестицій, ніж GPT-3.5.
Обидві моделі використовують звичайну авторегресію втрат перед навчанням, щоб максимізувати ймовірність наступного токена. Щоб забезпечити дотримання інструкцій і людських ідеалів, GPT-3.5 і GPT-4 включають навчання з підкріпленням на основі зворотного зв’язку з людиною (RLHF).
Доступ до цих моделей полегшується через систему запитів OpenAI API, що дозволяє контролювати вихідні дані за допомогою регулювання температури і максимальної кількості токенів. Важливо зазначити, що моделі є динамічними і можуть змінюватися; для забезпечення надійності результатів в експериментах використовуються стабільні версії.
Дослідники проводять ретельну оцінку надійності GPT-4 і GPT-3.5 з різних точок зору, таких як токсичність, упередженість, надійність, конфіденційність, етика і справедливість. Загалом, GPT-4 демонструє кращі показники порівняно з GPT-3.5. Однак підвищена прихильність GPT-4 до інструкцій робить його більш вразливим до маніпуляцій, що викликає занепокоєння щодо безпеки від підказок або демонстрацій з боку супротивної системи.
Майбутні напрямки досліджень включають інтерактивні дискусії для оцінки вразливостей, що розвиваються, вивчення контексту, що вводить в оману, окрім неправдивих демонстрацій, оцінку вразливості моделей до упередженості, а також дослідження додаткових аспектів, що впливають на надійність моделей.
Багато оцінок зосереджуються на одному супротивнику, проте реальні сценарії можуть включати кілька супротивників, які співпрацюють з метою обману. Вивчення вразливості моделей до скоординованих і прихованих ворожих дій має вирішальне значення через потенційні економічні стимули:
- Контекстуальна оцінка достовірності. Хоча стандартні завдання виявляють вразливості моделі GPT, специфічні застосування, такі як право і освіта, вимагають спеціальних оцінок. Розуміння слабких місць у цих контекстах є дуже важливим через широке застосування моделей GPT.
- Підвищення надійності моделі. Емпіричні оцінки є важливими, але критичні для безпеки сектори потребують більш суворих гарантій. Враховуючи їх складну структуру, надання гарантій, заснованих на конкретних функціональних можливостях, абстракціях або безперервних вбудовуваннях, може розбити складну проблему верифікації на керовані підпроблеми.
- Включення міркувань та знань про предметну область. Моделям GPT бракує міркувань і вони покладаються виключно на статистику. Для забезпечення достовірних результатів моделям можуть знадобитися знання предметної області та можливості логічного міркування, що забезпечить узгодження результатів з фундаментальними знаннями предметної області або логікою.
- Забезпечення безпеки моделей GPT на основі теорії ігор. Підказки рольових ігор підкреслюють вразливість моделі. Створення послідовних ролей під час розмов може запобігти самосуперечностям. Призначення конкретних завдань гарантує, що моделі ретельно осмислюють ситуацію для отримання достовірних результатів.
- Адаптоване тестування для конкретних потреб. Оскільки моделі обслуговують різних користувачів, необхідно враховувати спеціалізовані вимоги до безпеки та надійності. Відображення потреб користувачів у логічних просторах або контекстах і оцінка результатів за критеріями спрощують аудит і оцінку.
В умовах розвитку штучного інтелекту та великих мовних моделей дослідження надійності моделей GPT набуло першорядного значення. Завдяки всебічному аналізу, що охоплює різні виміри надійності, безпеки та вразливості, дослідники розпочали шлях до розкриття хитросплетінь цих моделей. Заглиблюючись у їхні сильні та слабкі сторони, а також вразливість до маніпуляцій, цей поглиблений аналіз проливає світло на виклики та можливості, пов’язані з використанням можливостей моделей GPT. Оскільки спільнота ШІ намагається зорієнтуватися в складнощах забезпечення достовірних результатів цих моделей, ці дослідження знаменують собою важливий крок на шляху до підвищення їхньої надійності в різних сферах застосування та галузях.