BTC$29880

ETH$3666

Шукати

Hugging Face представила Cosmopedia

Розробка синтетичних наборів даних для навчання ШІ-моделей зазнала значного прогресу, особливо з появою таких інструментів, як Phi-моделі від Microsoft і Cosmopedia від дослідників з Hugging Face. Ці синтетичні набори даних відіграють вирішальну роль у забезпеченні великомасштабних, різноманітних і високоякісних даних для навчання ШІ-моделей, долаючи обмеження і проблеми, пов’язані з людьми-анотаторами.

Phi-моделі, зокрема Phi-2, набули популярності завдяки використанню синтетичних даних для навчання моделей ШІ із застосуванням новітніх методів. Вони продемонстрували вищу продуктивність порівняно з моделями, що навчаються на традиційних наборах веб-даних, демонструючи потенціал синтетичних даних у розробці ШІ.

Cosmopedia представляє собою новий підхід до створення синтетичних наборів даних, зосереджуючись на широкому спектрі тем і джерел, щоб забезпечити різноманітність і якість. Поєднуючи перевірені джерела та веб-дані, Cosmopedia змогла створити понад 30 мільйонів підказок на різні теми, з акцентом на освітню цінність та навчальний контент.

Розподіл джерел даних для побудови підказок Cosmopedia (лівий графік) та розподіл джерел всередині категорії «Куровані джерела» (правий графік). Джерело

Методологія, яку застосовують дослідники Cosmopedia, включає в себе ретельний процес курації даних, кластеризації тем і генерації підказок. Вони використовують надійні освітні ресурси для курації контенту та використовують веб-дані для масштабування. Такий гібридний підхід гарантує, що згенеровані підказки будуть не лише різноманітними, але й релевантними та інформативними.

Крім того, команда розробників Космопедії впровадила методи дезактивації, дедуплікації та токенізації даних, щоб забезпечити якість і цілісність набору даних. Це включає видалення забруднених зразків і порівняння набору даних з різними оціночними метриками для оцінки його продуктивності.

З точки зору оцінки, Cosmopedia показала багатообіцяючі результати, перевершивши деякі моделі в таких бенчмарках, як MMLU, ARC-easy, OpenBookQA і ARC-challenge. Хоча в деяких областях вона може не зрівнятися з Phi-1.5, загальна якість і різноманітність синтетичних даних, згенерованих Cosmopedia, заслуговує на визнання.

Отже, синтетичні набори даних, такі як Cosmopedia, є помітним кроком вперед у розвитку ШІ, надаючи дослідникам і розробникам цінні ресурси для навчання і доопрацювання моделей ШІ. Оскільки ці методи продовжують еволюціонувати, ми можемо очікувати подальшого вдосконалення можливостей і застосувань штучного інтелекту в різних галузях.