25.07.2023 13:17

Чи змінюється поведінка ChatGPT з часом?

Великі мовні моделі (LLM) успішно зарекомендували себе як найкраща інновація в галузі штучного інтелекту. Від BERT, PaLM і GPT до LLaMa DALL-E, ці моделі продемонстрували неймовірну ефективність у розумінні та генеруванні мови з метою імітації людини. Ці моделі постійно вдосконалюються на основі свіжої інформації, користувацького вкладу та модифікацій дизайну. Однак досі існує невизначеність щодо того, як часто GPT-3.5 і GPT-4 отримуватимуть оновлення, що ускладнює інтеграцію цих LLM у ширші робочі процеси.

Нестабільність може порушити подальші процеси, якщо поведінка LLM, наприклад, його коректність або форматування у відповідь на підказку, різко змінюється. Така непередбачуваність може ускладнити довіру розробників і користувачів до регулярних результатів, що може обмежити стабільну інтеграцію LLM у поточні системи та робочі процеси. Щоб вивчити, як поведінка різних великих мовних моделей (LLM) змінюється з часом, команда дослідників зі Стенфордського університету та Каліфорнійського університету в Берклі оцінила поведінку версій GPT-3.5 і GPT-4 від березня 2023 року та червня 2023 року.

Для кількісної оцінки змін були використані три ключові елементи: сервіси LLM для моніторингу, сценарії застосування, на яких слід зосередитися, і метрики для вимірювання дрейфу LLM в кожному сценарії. Основні компоненти ChatGPT, GPT-4 і GPT-3.5, є службами LLM, які відстежуються в цьому дослідженні. Враховуючи визнання ChatGPT як корпораціями, так і приватними особами, а також його популярність, систематичний і своєчасний моніторинг цих двох сервісів може допомогти користувачам краще розуміти і використовувати LLM для своїх конкретних випадків використання.

У дослідженні були використані знімки за березень 2023 року та червень 2023 року двох основних версій GPT-4 та GPT-3.5, які доступні через API OpenAI, з основною метою вивчення варіацій або ” відхилень” між цими двома датами.
Команда обрала для оцінювання чотири найпоширеніші досліджувані завдання на рівні великих мовних моделей (LLM), які використовуються як критерії ефективності та безпеки. Ці завдання включають:

Розв’язування математичних задач: Під час розв’язання математичних задач точність вимірюється тим, наскільки часто служба LLM дає правильну відповідь.
Вирішення делікатних питань: Частота відповідей, яка показує, як часто служба LLM надає пряму відповідь.
Генерація коду: Відсоток згенерованого коду, який можна негайно виконати в середовищі програмування і який задовольняє юніт-тестам.
Візуальна логіка: Точна відповідність, яка оцінює, чи точно створені візуальні об’єкти відповідають вихідному матеріалу.

На закінчення, дослідження зосереджується на GPT-4 і GPT-3.5, оцінює їх на чотирьох обраних завданнях і використовує як спеціалізовані показники ефективності, так і інші загальні метрики для кількісної оцінки і вимірювання дрейфу великих мовних моделей в кожному сценарії, щоб подивитися, як поведінка різних LLM еволюціонує з плином часу. Результати дослідження можуть допомогти користувачам краще зрозуміти поведінку великих мовних моделей та використовувати ці моделі для різноманітних застосувань.