BTC$29880

ETH$3666

Шукати

Масштабування мовних моделей за допомогою перенавчання

Вивчення законів масштабування у великих мовних моделях має вирішальне значення для їхнього поширення у штучному інтелекті. Ці закони керують розширенням моделей, виявляючи закономірності, що виходять за рамки простих обчислень, і дозволяючи їм точно розуміти людське мовлення. Закони масштабування також розблоковують потенціал для розуміння і створення мови, особливо в режимі оптимального для обчислень навчання, що передбачає втрати при прогнозуванні наступної лексеми.

Однак існуючі дослідження в галузі масштабування не збігаються з реальним навчанням та оцінюванням мовних моделей. Навчання великих мовних моделей є дорогим, часто призводячи до перенавчання, з метою зменшення витрат на виведення та оцінювання моделей на основі виконання наступних завдань. Досягнення високоякісних моделей вимагає складного поєднання алгоритмічних методів і навчальних даних, часто з використанням надійної екстраполяції для фінальних навчальних прогонів для створення найсучасніших моделей, таких як Chinchilla 70B, PaLM 540B і GPT-4.

Дослідники з різних університетів провели експерименти з тестовим стендом зі 104 моделей з параметрами від 0,011B до 6,9B, навчених на різній кількості токенів з наборів даних RedPajama, C4 і Refined Web. Це допомогло передбачити втрати валідації для моделей з параметрами 1.4B, 900B токенів і 6.9B параметрів, 138B токенів, пов’язавши заплутаність мовної моделі з подальшою продуктивністю завдання за допомогою степеневого закону.

Надійне масштабування в режимі перенавчання та для подальшого прогнозування помилок. (ліворуч) Підібрано закон масштабування для втрат валідації моделі, що параметризується (i) множником токенів M, який є відношенням навчальних токенів D до параметрів N (тобто M = D/N) та (ii) обчисленням C у FLOP, що використовується для навчання моделі, апроксимованим як C = 6ND. Для параметрів N та M було екстрапольовано ефективність валідації моделей, які потребують у 300 разів більших обчислень для навчання, ніж ті, що використовувалися для побудови закону масштабування. (праворуч) Також підібрано закон масштабування для прогнозування середньої помилки першого порядку як функції втрат при валідації. Встановлено, що пристосування законів масштабування для подальших помилок виграє від використання дорожчих моделей порівняно з пристосуванням для прогнозування втрат. Джерело

Закони масштабування, застосовані до менших моделей ближче до стадії обчислювального оптимуму, можуть точно передбачити продуктивність більших моделей, які значно надто треновані. Однак прогнозування помилок на окремих завданнях залишається проблематичним. Сукупна продуктивність надійно прогнозується на основі розгубленості моделі відносно інших, що навчалися на тому ж наборі даних, вказуючи на узгоджені степеневі закони зменшення втрат, пов’язаних з навчальними обчисленнями.

Для оцінки ступеня перенавчання використовуються множники маркерів, причому такі моделі, як Chinchilla 70B, мають множник маркерів 20, а LLaMA-2 7B використовує множник маркерів 290. Аналіз точок даних, навчених на трьох наборах даних, показує експоненціальне спадання середньої помилки в першій точці зі зменшенням втрат при оцінюванні C4.

Отже, дане дослідження ефективно вирішує проблему масштабування в режимі перенавчання та прогнозування продуктивності в подальшому. Поведінка масштабування втрат за межами обчислювального оптимуму є передбачуваною, що дозволяє прогнозувати продуктивність більш дорогих циклів з використанням менших проксі-серверів. Майбутні закони масштабування можуть включати гіперпараметри та розвивати аналітичну теорію для випадків, коли масштабування може бути невдалим.