Відкрито доступ до гігантського масиву для навчання мовних моделей
Команда дослідників з різних технологічних вищих навчальних закладів представила Dolma — великий масив матеріалів англійською мовою, що складається з трьох трильйонів токенів, отриманих з різних джерел, включаючи енциклопедії, наукові публікації, сховища коду, загальнодоступну літературу та онлайн-інформацію.