BTC$29880

ETH$3666

Шукати

Дослідники з Корнельського університету представили QuIP

Еволюція великих мовних моделей (LLM) зробила революцію в різних галузях, від генерації тексту до моделювання білкових послідовностей. Однак ці масивні моделі, що містять сотні мільярдів параметрів, мають проблеми з розгортанням. Останнє дослідження Корнельського університету пропонує інноваційне рішення — QuIP (Quantization with Incoherence Processing), техніку, яка використовує некогерентність для квантування параметрів LLM після навчання.

Ключова ідея QuIP полягає в адаптивному округленні вагомостей до стисненого набору значень, коли вагові та проксі-матриці Гессіана є неузгодженими. Цей підхід спирається на те, що як вагомості, так і важливі напрямки округлення залишаються відносно невеликими за координатами. Використовуючи це розуміння, дослідники розробили двобітові методи квантування, застосовні до моделей LLM-шкали, і представили методологію QuIP.

Метод QuIP складається з двох етапів:

  1. Початкова фаза попередньої та пост-обробки забезпечує некогерентність матриць Гессана за допомогою добутку Кронекера випадкових ортогональних матриць.
  2. Процедура адаптивного округлення мінімізує квадратичну проксі-ціль, досягаючи балансу між оригінальними та квантованими вагами за допомогою оцінки Гесіана.

Це новаторське дослідження пропонує теоретичне обґрунтування, унікально пристосоване до квантування розміру LLM. Підкреслюється перевага QuIP над різними методами округлення, включаючи більш ранній метод OPTQ. Емпіричні результати підкреслюють ефективність QuIP, особливо при високих ступенях стиснення. На диво, QuIP демонструє потенціал для придатного для використання квантування LLM лише з двома бітами на одиницю ваги.

Хоча QuIP не враховує взаємодію всередині блоків трансформерів, його потенціал відкриває шляхи для більш ефективного розгортання та покращеної обробки ШІ.