
24.08.2023 09:50
Як корпус токенів на 3 трильйони підвищує прозорість моделі
Прозорість і відкритість у дослідженнях мовних моделей вже давно є предметом дискусій. Закриті набори даних, приховані методи та обмежений нагляд гальмують прогрес. Інститут Allen Institute for AI (AI2) представляє Dolma: набір даних на 3 трильйони токенів. Мета полягає в тому, щоб сприяти співпраці, прозорості та прогресу в дослідженнях мовних моделей.
Розробка мовних моделей стикається з непрозорістю з боку таких гігантів індустрії, як OpenAI і Meta. Це перешкоджає аналізу та розвитку. Dolma від AI2 — це відкрите рішення. Охоплюючи веб-контент, літературу та код, Dolma надає дослідникам можливість самостійно створювати, аналізувати та оптимізувати мовні моделі.
В основі створення Dolma лежать фундаментальні принципи. AI2 надає пріоритет відкритості, щоб усунути бар’єри обмеженого доступу до навчальних корпусів. Цей етос заохочує ітеративний розвиток і глибоке розуміння моделей даних. Dolma розроблена для репрезентативності, нагадуючи існуючі набори даних мовних моделей для порівнянної поведінки. Розмір також має вирішальне значення, і в AI2 досліджуються розміри наборів даних моделі. Відтворюваність і зниження ризиків керують Dolma, з прозорими методами і мінімізацією шкоди.
Створення Dolma передбачає ретельну обробку даних. Етапи, специфічні для джерела та його діагностики, дають змогу перетворити необроблені дані на чистий текст. Завдання включають ідентифікацію мови, кураторство веб-даних Common Crawl, фільтри якості, дедуплікацію та стратегії зменшення ризиків. Включення підмножин коду, наукових рукописів, Вікіпедії та проекту Гутенберга підвищує комплексність Dolma.

Поява Dolma знаменує собою значний крок до прозорих і спільних досліджень мовних моделей. Відданість AI2 відкритому доступу та ретельному документуванню є трансформаційним прикладом, що дає змогу вирішити проблему прихованих наборів даних. Метод Dolma стає життєво важливим кураторським сховищем контенту, призначеним стати наріжним каменем глобальних досліджень. Він руйнує галузеву таємницю, створюючи основу для колективного розвитку та розуміння галузі. Очікується, що з розвитком обробки природної мови вплив Dolma вийде за межі її набору даних, сприяючи поширенню спільних знань, стимулюючи інновації та відповідальний розвиток ШІ.