22.02.2024 17:39
Microsoft представила нові можливості вбудовування багатомовних текстів у моделі обробки природної мови
Основна проблема в обробці природної мови (NLP) полягає в розробці моделей, які можуть однаково добре працювати з різними мовами. Традиційні моделі, часто англоцентричні, мають проблеми в багатомовних контекстах, що підкреслює необхідність вбудовування моделей, навчених на різноманітних лінгвістичних даних. Дослідницька група корпорації Microsoft представила багатомовні моделі вбудовування тексту стандарту E5 (mE5-{small / base / large}), покликані допомогти подолати ці виклики.
Ці моделі навчаються за допомогою методології, яка включає багато мов, що забезпечує кращу продуктивність у різних мовних контекстах. Двоетапний процес тренування, що включає контрастне попереднє навчання на багатомовних текстових парах з подальшим точним налаштуванням під наглядом, збалансовує ефективність висновків і якість вбудовування, що робить їх дуже універсальними для різних багатомовних додатків.
На основі багатомовних моделей виконується контрастне попереднє навчання на 1 мільярді багатомовних текстових пар, після чого відбувається точне налаштування на комбінації маркованих наборів даних, включно з синтетичними даними GPT-4. Ця методологія наближає моделі до лінгвістичних властивостей цільових мов, покращуючи їхні багатомовні можливості.
Оцінка на різних наборах даних демонструє виняткову продуктивність на різних мовних рівнях і тестах, перевершуючи показники існуючих моделей, призначених для видобування біттексту. Дослідження підтверджує ефективність запропонованої методології навчання, демонструючи здатність моделей встановлювати нові стандарти у вбудовуванні багатомовних текстів.
Таким чином, розробка багатомовних моделей вбудовування тексту E5 є цінним досягненням в NLP. Ефективно усуваючи обмеження попередніх моделей і впроваджуючи надійну методологію навчання на різноманітних лінгвістичних даних, ці моделі покращують виконання завдань, пов’язаних з мовою, різними мовами, відкриваючи нову еру глобальної доступності в інформаційних технологіях.