19.07.2024 16:08

Mistral AI та NVIDIA об’єднали зусилля для випуску Mistral NeMo

Завдяки співпраці з NVIDIA команда Mistral AI створила нову модель Mistral NeMo з 12 мільярдами параметрів, яка покликана встановити нові стандарти в галузі штучного інтелекту. Випущена під ліцензією Apache 2.0, Mistral NeMo — це потужна багатомовна модель, спроможна обробляти контекстне вікно розміром до 128 000 токенів. Це суттєве вдосконалення дозволяє моделі обробляти та розуміти великі обсяги даних ефективніше, ніж її попередники. Наразі випущено два варіанти моделі: Mistral-Nemo-Instruct-2407 та Mistral-Nemo-Base-2407.

Mistral NeMo вирізняється винятковими здібностями до міркувань, широкими знаннями про світ і високою точністю кодування, що робить його найкращим у своїй розмірній категорії. Його архітектура базується на стандартних конструкціях, що забезпечує легку інтеграцію з будь-якою системою, що використовує Mistral 7B, а це, як очікується, сприятиме широкому впровадженню серед дослідників і підприємств, які прагнуть використовувати передові технології штучного інтелекту.

Характеристики базової моделі Mistral NeMo у порівнянні з Gemma 2 9B та Llama 3 8B. Джерело

Щоб допомогти дослідницькій спільноті та фахівцям галузі у вивченні та впровадженні передових рішень зі штучного інтелекту, команда Mistral AI випустила як попередньо навчену базу, так і налаштовані на неї контрольні точки, що містять інструкції. Mistral NeMo був розроблений з урахуванням квантування, що дозволяє використовувати FP8 (спосіб зберігання чисел з використанням 8 розрядів. Порівняно зі стандартним форматом FP32 (32-бітний формат з рухомою комою), який використовується в багатьох моделях, FP8 вимагає вдвічі менше пам’яті) без погіршення продуктивності. Ця особливість забезпечує ефективну роботу навіть при низькій точності представлення даних.

Ключовим аспектом успіху Mistral NeMo є її багатомовність, що робить її багатофункціональним інструментом для глобального застосування. Модель пройшла навчання з виклику функцій і володіє основними мовами, зокрема англійською, французькою, німецькою, іспанською, італійською, португальською, китайською, японською, корейською, арабською та хінді. Таке широке знання мов має на меті демократизувати доступ до передових технологій штучного інтелекту, приносячи користь користувачам з різним мовним досвідом.

Ефективність Mistral NeMo ще більше підвищується завдяки новому токенізатору Tekken, заснованому на Tiktoken і навченому більш ніж 100 мовам. Tekken значно ефективніше за своїх попередників виконує компресію тексту та вихідного коду природною мовою, приблизно на 30% ефективніше здійснює компресію вихідного коду та декількох основних мов, а також перевершує токенізатор Llama 3 у компресії тексту для близько 85% всіх мов світу. Ця підвищена ефективність має вирішальне значення для обробки величезних обсягів даних, необхідних для сучасних додатків ШІ.

Покращений процес налаштування інструкцій у Mistral NeMo відрізняє його від попередніх моделей, таких як Mistral 7B. Етапи тонкого регулювання та вирівнювання значно покращили здатність моделі слідувати точним інструкціям, ефективно міркувати, обробляти багатооборотні діалоги та генерувати коректний код. Ці вдосконалення є критично важливими для додатків, що вимагають високої взаємодії й точності, таких як боти для обслуговування клієнтів, асистенти кодування та інтерактивні освітні інструменти.

Продуктивність Mistral NeMo була ретельно перевірена та порівняна з іншими провідними моделями, демонструючи високу точність та ефективність. Ваги для базової та налаштованої за інструкцією моделей розміщені на HuggingFace, що робить їх легкодоступними для розробників та дослідників. Крім того, до Mistral NeMo можна отримати доступ через Mistral Inference та адаптувати його за допомогою Mistral Finetune, що забезпечує можливість налаштування для різних сценаріїв використання.

Mistral NeMo також інтегрований в мікросервіс NVIDIA NIM. Ця інтеграція підкреслює спільні зусилля Mistral AI та NVIDIA, спрямовані на розширення меж технології штучного інтелекту та надання надійних, масштабованих рішень для ринку.

Таким чином, випуск Mistral NeMo з його просунутими функціями, включаючи широку багатомовну підтримку, ефективне стиснення даних і чудові можливості слідування інструкціям, позиціює його як потужний інструмент для дослідників і підприємств. Співпраця між Mistral AI та NVIDIA є прикладом потенціалу спільних зусиль у стимулюванні технологічного прогресу та наданні доступу до передового ШІ широкій аудиторії.