BTC$29880

ETH$3666

Шукати

Відкрито доступ до гігантського масиву для навчання мовних моделей

Поява великих мовних моделей (LLM) зробила революцію в галузі обробки природної мови (NLP), уможлививши прорив у таких завданнях, як відповіді на запитання, узагальнення тексту та навчання з кількох спроб. Однак брак прозорості в розробці цих моделей, особливо щодо складу даних для попереднього навчання, викликав занепокоєння як серед дослідників, так і серед користувачів.

У відповідь на цю проблему команда дослідників з різних технологічних вищих навчальних закладів представила Dolma — великий масив матеріалів англійською мовою, що складається з трьох трильйонів токенів, отриманих з різних джерел, включаючи енциклопедії, наукові публікації, сховища коду, загальнодоступну літературу та онлайн-інформацію. Зробивши Dolma загальнодоступною та надавши інструментарій для координації даних, команда має на меті сприяти відкритості та полегшити дослідження в галузі попереднього навчання мовним моделям.

Прозорість і відкритість даних з претренінгу є важливими з кількох причин. По-перше, розробники та користувачі мовних моделей можуть приймати більш обґрунтовані рішення, коли дані для попереднього навчання є прозорими, оскільки наявність певних документів може суттєво вплинути на продуктивність моделі та може спричинити появу певних упереджень. По-друге, відкритий доступ до даних попереднього навчання дозволяє дослідникам вивчити, як склад даних впливає на поведінку моделі, що дає змогу вдосконалити методи курації даних і вирішити такі проблеми, як ворожі атаки та запам’ятовування. Нарешті, створення відкритих мовних моделей залежить від доступу до різноманітних і численних даних для попереднього навчання, що має вирішальне значення для розширення можливостей мовних моделей.

Команда розробників Dolma надала вичерпний огляд бази даних, включно з її змістом, деталями побудови та архітектурними принципами. Вони також провели аналіз і експерименти з використанням Dolma для навчання мовних моделей на різних рівнях, проливаючи світло на важливі методи обробки даних та їхній вплив на продуктивність моделей.

OLMo, найсучасніша відкрита мовна модель і фреймворк, була навчена за допомогою Dolma, демонструючи корисність і важливість бази даних для розвитку галузі мовного моделювання. Крім того, команда розробила Open Sourcing Dolma Toolkit, портативний інструмент для ефективного управління базою даних, що дозволяє фахівцям-практикам створювати власні системи обробки даних і робити свій внесок у процес управління системою.

Підсумовуючи, варто зазначити, що впровадження Dolma та супровідного інструментарію є вагомим внеском у просування прозорості та відкритості в дослідженнях і розробці мовних моделей. Надаючи доступ до великомасштабних даних для попереднього навчання та полегшуючи проведення експериментів, команда має на меті стимулювати розвиток мовного моделювання та сприяти співпраці в межах дослідницької спільноти.