BTC$29880

ETH$3666

Шукати

Baichuan-13B: китайська велика мовна модель з відкритим вихідним кодом, яка конкуруватиме з OpenAI

Ван Сяочуань, засновник китайської пошукової системи Sogou, випустив нову величезну мовну модель під назвою Baichuan-13B через свою компанію Baichuan Intelligence. Комерційне використання програмістами та дослідниками наразі обмежене. Засновник Sogou, Ван Сяочуань, нещодавно написав на Weibo, що “Китаю потрібен власний OpenAI”. Китайський бізнесмен став на крок ближче до реалізації свого бачення після того, як його молода компанія Baichuan Intelligence випустила Baichuan-13B, модель великої мови наступного покоління. Компанія Baichuan була запущена три місяці тому і швидко привернула увагу групи інвесторів, готових вкласти 50 мільйонів доларів. Завдяки винятковим навичкам засновника в галузі комп’ютерних наук, його організація зараз вважається одним з найперспективніших китайських розробників великих мовних моделей.

Baichuan-13B має ту саму трансформерну конструкцію, що й GPT та більшість вітчизняних китайських варіантів. Крім того, що вона навчається на даних китайською та англійською мовами, її 13 мільярдів параметрів (змінні, що використовуються для створення та аналізу тексту) є двомовними. Модель має відкритий вихідний код і може використовуватися для отримання прибутку, а її було побудовано з використанням даних з GitHub.

Після успіху Baichuan-7B компанія Baichuan Intelligent Technology створила Baichuan-13B, комерційно доступну великомасштабну мовну модель з відкритим кодом і 13 мільярдами параметрів. За загальноприйнятими нормами китайської та англійської мов вона перевершує конкурентів аналогічного розміру. До цієї версії включено як базову Baichuan-13B-Base, так і вирівнювальну Baichuan-13B-Chat версії.

Особливості

  • Baichuan-13B базується на Baichuan-7B, яка збільшила кількість параметрів до 13 мільярдів, і навчила 1,4 трильйона токенів на високоякісних масивах даних, що на 40% більше, ніж LLaMA-13B. Наразі, при відкритому вихідному коді розміром 13B, це модель з найбільшою кількістю навчальних даних. Вона використовує позиційне кодування ALiBi та 4096-байтне контекстне вікно і працює китайською та англійською мовами.
  • Модель з попереднім навчанням слугує “базою” для розробників, тоді як вирівняна модель з діалоговими функціями користується більшим попитом серед звичайних користувачів. Тому вирівняна модель (Baichuan-13B-Chat) включена в цю версію з відкритим вихідним кодом, вона має потужні діалогові функції, готова до використання і вимагає лише кілька рядків коду для розгортання.
  • Дослідники також роблять доступними квантовані версії int8 та int4, які є ще більш ефективними для виводу, щоб заохотити широке використання користувачами. Їх можна реалізувати на відеокартах споживчого класу, таких як Nvidia 3090, але неквантована версія вимагає значно потужнішого обладнання.
  • Вільні для публічного використання без обмежень на перепродаж або модифікацію: Якщо розробник подає заявку на отримання офіційної комерційної ліцензії електронною поштою, він може використовувати Baichuan-13B у комерційних цілях безкоштовно.

Для навчання Baichuan-13 використовується близько 1,4 мільярда токенів. Згідно з даними OpenAI, ChatGPT-3, ймовірно, був навчений на 300 мільярдах токенів. За три місяці команда Baichuan подвоїла свій розмір, досягнувши п’ятдесяти членів, і минулого місяця публічно продемонструвала свою модель Baichuan-7B, яка має сім мільярдів параметрів. Версія Baichuan-13B, випущена два дні тому, є “голим” релізом. Зараз вона пропонується безкоштовно дослідникам і програмістам, які отримали юридичний дозвіл на її комерційне використання. Майбутнє офіційного релізу моделі для широкого використання ще не відоме.

Базова модель Baichuan-13B зараз знаходиться у вільному доступі для дослідників і програмістів, які отримали необхідні юридичні дозволи на її комерційне використання. У світлі нещодавніх американських обмежень проти китайських виробників мікросхем штучного інтелекту (ШІ) особливої уваги заслуговує той факт, що варіанти цієї моделі можуть працювати на споживчому обладнанні, наприклад, на відеокартах Nvidia 3090.

Дослідники Baichuan Intelligent Technology підтверджують, що їхня група ще не створила жодного додатку на базі Baichuan-13B для будь-якої платформи, включаючи iOS, Android, Інтернет та інші. Користувачів закликають не використовувати модель Baichuan-13B в незаконних або шкідливих цілях, таких як загроза національній або соціальній безпеці. Користувачам також рекомендується утримуватися від використання моделі Baichuan-13B для надання інтернет-послуг без проведення необхідних перевірок безпеки та подання відповідної документації. Компанія розраховує на те, що кожен, хто дотримується цього правила, утримує технологічний прогрес в рамках закону.