22.01.2024 13:56

Stability AI випустила велику мовну модель з 3 мільярдами параметрів

Компанія Stable AI нещодавно представила свою останню найсучаснішу модель Stable-Code-3B, розроблену, щоб досягти успіху в створенні коду на різних мовах програмування, пропонуючи при цьому додаткові можливості. Ця модель, яка є наступницею Stable Code Alpha 3B, була навчена на великому наборі даних, що містить 1,3 трильйона токенів, які включають як природну мову, так і дані коду на 18 мовах програмування. Примітно, що, незважаючи на те, що Stable-Code-3B на 60% менша за існуючі моделі, такі як CodeLLaMA 7b, вона зберігає високий рівень продуктивності.

Архітектура Stable-Code-3B базується на авторегресивній моделі мови, що використовує архітектуру трансформаторного декодера. Відрізняючись інноваційними функціями, модель впроваджує концепцію заповнення проміжків (FIM) і підтримує довгі контексти, навчаючись на 16384 токенах довгих послідовностей. Серед ключових особливостей — вбудовування в обертову послідовність та спеціалізований токенізатор для заповнення проміжних можливостей, та інші токени. Процес навчання використовує різноманітні великомасштабні набори даних з відкритим вихідним кодом та надійну інфраструктуру, що складається з 256 графічних процесорів NVIDIA A100 40GB. Оптимізація досягається за допомогою AdamW з точністю bfloat16, а модель працює в режимі 2D паралелізму з ZeRO-1. Включення ядер flash-attention та Rotary Embedding з FlashAttention-2 підвищує ефективність.

Експериментальні порівняння за участю шести існуючих моделей на різних мовах програмування демонструють ефективність Stable-Code-3B. Модель досягає приблизно 30% точності на таких мовах, як CPP, Rust, Python, Java, PHP та Javascript. Хоча деякі інші моделі демонструють дещо кращі результати в окремих мовах або є значно більшими, Stable-Code-3B виявляється переконливим інструментом для розробників, які досліджують програми обробки природної мови.

Отже, Stable-Code-3B є потужним інструментом для розробників, які шукають надійну основу для обробки природної мови. Однак важливо визнати, що моделі притаманні певні обмеження та потенційні упередження. Як фундаментальна модель, ретельна оцінка та точне налаштування є обов’язковими для забезпечення безпечної та надійної роботи в конкретних подальших додатках. Розробники повинні проявляти обережність щодо можливої небажаної поведінки, проводячи ретельну оцінку і виправлення, щоб привести модель у відповідність до етичних стандартів і стандартів безпеки перед розгортанням.