12.02.2024 15:11
Nomic AI представляє Nomic Embed, який перевершує OpenAI Ada-002
Випуск Nomic Embed став значною подією в галузі вбудовування тексту, пропонуючи відкрите, контрольоване і високопродуктивне рішення для довгих контекстних текстових завдань. У середовищі, де домінують моделі з закритим кодом, такі як text-embedding-ada-002 від OpenAI, Nomic Embed виділяється своєю прозорістю, відтворюваністю та чудовою продуктивністю.
Вбудовування тексту відіграють вирішальну роль у сучасних NLP-додатках, забезпечуючи виконання таких завдань, як пошук з доповненим генеруванням (RAG) та семантичний пошук. Однак існуючі сучасні моделі часто мають закритий вихідний код, що обмежує прозорість і перешкоджає контролю. Nomic Embed вирішує ці проблеми, надаючи альтернативу з відкритим вихідним кодом з розширеною довжиною контексту в 8192 токени, що дозволяє вирішувати більш складні завдання та додатки.
Розробка Nomic Embed відбувається за ретельним багатоетапним процесом контрастного навчання. Він починається з навчання BERT-моделі з довжиною контексту 2048 токенів, названої nomic-bert-2048, що включає модифікації, створені за зразком MosaicBERT. Процес навчання включає в себе різні техніки, такі як вбудовування обертових позицій, активації SwiGLU, DeepSpeed та FlashAttention, що забезпечують оптимальну продуктивність та ефективність.
Однією з ключових особливостей Nomic Embed є акцент на прозорості та відтворюваності даних. Ваги моделі, навчальний код і контрольні дані випускаються під ліцензією Apache-2, що дозволяє дослідникам і практикам ретельно вивчати і відтворювати результати. Таке прагнення до відкритості сприяє співпраці та прискорює прогрес у галузі впровадження технологій вбудованого тексту.
За результатами порівняльних тестів Nomic Embed перевершує не тільки моделі з закритим кодом, такі як text-embedding-ada-002 від OpenAI, але й інші альтернативи з відкритим кодом. Його продуктивність в таких завданнях, як масивний тест вбудовування тексту (MTEB), LoCo Benchmark і Jina Long Context Benchmark демонструє його ефективність і надійність в роботі з довгими контекстними текстовими завданнями.
Крім того, випуск Nomic Embed сигналізує про більш широкий заклик до вдосконалення парадигм оцінювання в галузі обробки природної мови. Надаючи пріоритет прозорості та відтворюваності, Nomic Embed встановлює новий стандарт для розробки та оцінювання моделей, рухаючи індустрію до більшої відкритості та підзвітності.
На завершення, Nomic Embed змінює ландшафт текстових вбудовувань, пропонуючи прозоре, контрольоване та високопродуктивне рішення для довгих контекстних текстових задач. Його випуск є значним кроком вперед у розвитку галузі NLP, надаючи дослідникам і практикам інструменти та ресурси, необхідні для розширення меж розуміння і генерації тексту.