30.09.2024 14:47

AMD випускає свою першу серію малих мовних моделей AMD-135M

Компанія AMD нещодавно представила малу мовну модель AMD-135M, також відому як AMD-Llama-135M. Побудована на архітектурі LLaMA2, ця модель розроблена для ефективної роботи на новітніх графічних процесорах AMD MI250, використовуючи 135 мільйонів параметрів для забезпечення ефективної генерації та розуміння тексту.

Модель поєднує в собі найсучаснішу архітектуру та масштабованість, має 12 шарів з 12 точками фокуса з прихованим розміром 768 та контекстним вікном розміром 2048 токенів. Функція активації Swiglu та RMSNorm для нормалізації шарів забезпечують додаткову обчислювальну ефективність, а метод позиційного вбудовування RoPE покращує здатність моделі розуміти контекст у даних. Ці особливості роблять модель стійкою до складних завдань обробки природної мови.

AMD-135M було попередньо навчено на наборах даних SlimPajama та Project Gutenberg. SlimPajama є дедуплікованою версією RedPajama, яка витягує дані з широкого кола джерел, включаючи Commoncrawl, C4, GitHub, Wikipedia та інших. Крім того, набір даних Project Gutenberg містить велику базу класичної літератури, що дозволяє моделі навчатися на різноманітній лінгвістичній та контекстуальній базі. Для доопрацювання було використано набір даних StarCoder, який спеціально призначений для задач моделювання мов програмування.

Результати оцінювання AMD-Llama-135m за допомогою lm-evaluation-harness на популярних NLP-бенчмарках. Джерело

Однією з особливостей моделі є її безшовна інтеграція з бібліотекою Hugging Face Transformers, що спрощує розгортання для розробників за допомогою таких модулів, як LlamaForCausalLM та AutoTokenizer. Модель також сумісна зі спекулятивним декодуванням для CodeLlama від AMD, що робить її універсальним інструментом для генерації як тексту, так і мови програмування.

Оцінений з використанням lm-evaluation-harness на таких бенчмарках, як SciQ, WinoGrande та PIQA, модель AMD-135M продемонструвала конкурентоспроможну продуктивність у своєму класі. Наприклад, при розгортанні на графічних процесорах MI250 він показав 32,31% проходження набору даних Humaneval, довівши свою придатність для реалізації дослідницьких і комерційних проєктів з обробки природної мови в умовах реального середовища.

В цілому, AMD-135M відображає дедалі більшу присутність AMD на ринку ШІ, поєднуючи в собі інноваційну архітектуру з потужними навчальними наборами даних та простотою розгортання. Це рішення запропонує розробникам і дослідникам конкурентоспроможний варіант для широкого спектра завдань з обробки мови.