10.09.2023 15:53

Persimmon-8B від Adept AI Labs: Дозвільно-ліцензійна мовна модель з відкритим кодом на 10 мільярдів параметрів

Останнім часом штучний інтелект досяг значних успіхів, особливо в розробці мовних моделей. У Marktechpost Media ми широко висвітлювали різні мовні моделі, кожна зі своїми параметрами та найсучаснішою продуктивністю. Сьогодні ми представляємо Persimmon-8B, модель з відкритим вихідним кодом від Adept AI Labs, що належить до класу 8B. Ця модель пропонує величезний потенціал для різноманітних завдань, пов’язаних з комп’ютером. Однак варто зазначити, що в сирому вигляді модель може генерувати результати, які не були перевірені на потенційну токсичність, що зумовлює потребу в досконаліших методах оцінки.

Persimmon-8B виділяється як значний прогрес у світі мовних моделей. Вона має розмір контексту в чотири рази більший, ніж у LLaMA2, і у вісім разів більший, ніж у таких моделей, як GPT-3, що надає їй чудові можливості для вирішення контекстно-залежних завдань. Дивно, але він демонструє конкурентну, якщо не вищу, продуктивність порівняно з моделями аналогічного розміру, незважаючи на те, що навчався на значно меншій кількості даних. Це підкреслює ефективність та результативність процесу навчання.

Для оцінки можливостей Persimmon-8B команда Adept застосовує унікальний підхід. Замість того, щоб покладатися виключно на неявні ймовірності, вони залучають модель до безпосередньої взаємодії, доручаючи їй генерувати відповіді. Це віддзеркалює реальну взаємодію з мовними моделями, коли користувачі ставлять запитання і чекають на відповіді. Ділячись своїми підказками, Adept запрошує спільноту повторити і підтвердити свої висновки.

Результати красномовно свідчать про досконалість Persimmon-8B. У порівнянні з іншими моделями своєї розмірної категорії, такими як LLama 2 і MPT 7B Instruct, Persimmon-8B-FT демонструє найкращі результати за різними показниками. Навіть базова модель, Persimmon-8B-Base, демонструє продуктивність на рівні з LLama 2, незважаючи на те, що була навчена на меншій частині даних. Це підкреслює ефективність та адаптивність моделі для вирішення широкого спектру завдань.

Заглиблюючись у технічні аспекти, Persimmon-8B — це лише декодерний трансформатор з кількома архітектурними вдосконаленнями. Він використовує квадратичну активацію ReLU і поворотне позиційне кодування, що перевершує традиційні альтернативи. Модель містить приблизно 9,3 мільярда параметрів, оптимізованих для ефективного навчання. Зокрема, роз’єднання вхідних і вихідних вбудованих даних спрощує процес навчання, слугуючи системним покращенням.

З точки зору швидкості виведення, Persimmon-8B демонструє вражаючу продуктивність. З оптимізованим кодом він може генерувати близько 56 токенів за секунду на одному 80-гігабайтному графічному процесорі A100, що позиціонує його як високоефективний інструмент для додатків у реальному часі.

На завершення, представлення Persimmon-8B знаменує собою важливу віху в області мовних моделей. Її можливості в поєднанні з інноваційним підходом Adept до оцінювання відкривають двері в нову еру інтерактивних додатків зі штучним інтелектом. Випускаючи цю модель з відкритим кодом, Adept запрошує спільноту розвивати її, сприяючи подальшим інноваціям у цій динамічній галузі. По мірі поширення Persimmon-8B знайде застосування в різних галузях, революціонізуючи взаємодію між людиною і комп’ютером.