BTC$29880

ETH$3666

Шукати

Ітеративна модель великої мови, з можливістю самоперевірки та генеруванням зворотного зв’язку

Нещодавнє дослідження підкреслило ефективність включення зворотного зв’язку на природній мові для підвищення продуктивності мовних моделей. Команда дослідників з KAIST представила інноваційну модель під назвою SelFee, спеціально розроблену для отримання зворотного зв’язку та саморедагування. Особливістю SelFee є її здатність отримувати високоякісні відповіді, не покладаючись на зовнішні мовні або специфічні для конкретного завдання моделі.

SelFee — це тонко налаштована модель, що слідує за інструкціями, заснована на архітектурі LLaMA (Мовна модель для багатьох застосувань). Вона ітеративно вдосконалює свої відповіді для отримання високоякісних відповідей в рамках одного висновку. Модель генерує початковий розв’язок і послідовності зворотного зв’язку на основі заданої інструкції. Аналізуючи зміст згенерованого зворотного зв’язку, SelFee вирішує, чи потрібен перегляд. Якщо так, то вона генерує переглянуту відповідь, використовуючи зворотний зв’язок. Цей ітеративний процес перегляду відбувається в межах одного висновку, що призводить до покращення відповідей порівняно з існуючими моделями на основі LLaMA.

Дослідники курували різноманітний набір даних інструкцій з різних джерел, включаючи ShareGPT, Alpaca, Math, Code та Flan Collection. Щоб подолати дефіцит даних зворотного зв’язку та даних для доопрацювання, вони застосували процес дистиляції за допомогою моделі вчителя під назвою ChatGPT. Це дозволило їм генерувати більше випадків зворотного зв’язку та доопрацювання за меншу ціну.

Для навчання дослідники використовували методи доповнення даних за допомогою викликів OpenAI API. Вони збирали інструкції з різних джерел і вводили їх у ChatGPT, щоб генерувати відповідні відповіді. Потім вони отримали зворотній зв’язок щодо згенерованих відповідей, знову звернувшись до ChatGPT. Якщо відповідь потребувала доопрацювання, ChatGPT переглядав її на основі самостійно отриманого зворотного зв’язку. Цей процес продовжувався до тих пір, поки не зникала потреба в подальших змінах.

SelFee навчався за допомогою фреймворку FastChat. Модель була доопрацьована, щоб генерувати відповіді та ланцюжки зворотного зв’язку, включаючи редагування, на основі заданої інструкції. Дослідники відзначили, що забезпечення мінімальної кількості необхідних редагувань під час виведення призвело до покращення якості відповідей. Вони виявили, що мінімум три перегляди дають найкращі результати, і навіть модель 7B SelFee з мінімум трьома переглядами перевершила модель 13B SelFee, яка не включала перегляди.

Для оцінювання дослідники використовували систему оцінювання Vicuna, що включає 80 різноманітних запитів. Замість людського оцінювання вони провели пілотне оцінювання з використанням GPT-4 в якості оцінювача. Були отримані відносні бали порівняно з ChatGPT, враховуючи позиційну упередженість GPT-4.

Хоча SelFee показав порівнянну з ChatGPT ефективність в оцінці Vicuna, було помічено, що йому бракує знань в таких областях, як математика, міркування, фактичність і кодування, порівняно з ChatGPT.

Таким чином, SelFee впроваджує інноваційний підхід до самоконтролю та саморевізії в мовних моделях. Постійно вдосконалюючи свої відповіді, SelFee досягає підвищеної продуктивності порівняно з існуючими моделями. Дослідження підкреслює важливість ітеративного перегляду для покращення якості результатів мовних моделей і припускає, що зосередження на обчисленнях висновків може дати кращі результати, ніж просте збільшення розміру моделі.