
23.09.2023 12:05
CulturaX: 6,3 трильйонів токенів на 167 мовах, пристосовано для розробки великої мовної моделі
Великі мовні моделі (Large Language Models, LLM) суттєво вплинули на дослідження та застосування обробки природної мови (Natural Language Processing, NLP), забезпечуючи найсучаснішу продуктивність у різних завданнях та відкриваючи нові можливості. Ці моделі, в тому числі архітектури з кодуванням, декодуванням та кодуванням і декодуванням, розвивалися разом з експоненціальним зростанням розмірів моделей та наборів навчальних даних.
Значні можливості LLM насамперед пов’язані з великими розмірами моделей і великими наборами навчальних даних. Однак доступ до високоякісних навчальних даних, особливо для найновіших моделей, часто вимагає значних зусиль з очищення та дедуплікації даних. Відсутність відкритості навчальних даних створює проблеми для відтворення результатів досліджень і просування досліджень, пов’язаних з галюцинаціями та упередженістю в LLM. Ці виклики стають ще складнішими в багатомовних сценаріях навчання, де часто бракує повних і чистих багатомовних колекцій текстів.
Щоб вирішити ці проблеми, спільними зусиллями науковців Орегонського університету та Adobe Research було розроблено CulturaX — величезний багатомовний набір даних, що містить 6,3 трильйона токенів 167 мовами. Цей набір даних призначений для надання високоякісних навчальних даних для LLM і NLP-додатків.
CulturaX проходить суворий процес очищення та дедуплікації даних, щоб забезпечити їхню якість. Цей процес включає такі етапи, як ідентифікація мови, фільтрація URL-адрес, очищення даних на основі метрик, уточнення документів і дедуплікація.
Ключові особливості CulturaX:
- Це найбільший багатомовний набір даних з відкритим вихідним кодом, який був ретельно очищений і дедуплікований для застосування в LLM і NLP.
CulturaX пропонує багатомовний набір даних з відкритим вихідним кодом з високоякісними даними, які можна негайно застосовувати для підготовки LLM, вирішуючи багато проблем з існуючими наборами даних. - Хоча існують інші багатомовні набори даних, такі як mC4, їхня якість і масштаб можуть не відповідати вимогам для ефективної підготовки LLM, особливо генеративних моделей, таких як GPT. Наприклад, CulturaX вирізняється нечіткою дедуплікацією на рівні документів і чудовим розпізнаванням мови.
Очікується, що публічний реліз CulturaX від HuggingFace сприятиме подальшим дослідженням багатомовних LLM та їх застосувань. Дослідники та практики можуть отримати доступ до цього цінного набору даних для вдосконалення мовного моделювання різними мовами, що сприятиме кращому розумінню вивчення та використання мов.