BTC$29880

ETH$3666

Шукати

AutoGPTQ — зручний для користувача пакет кількісної оцінки LLMs

Дослідники Hugging Face представили нове рішення для вирішення ресурсоємних завдань навчання та розгортання великих мовних моделей (LLM). Нещодавно інтегрована бібліотека AutoGPTQ в екосистему Transformers надає користувачам можливість квантифікувати та оперувати LLM за допомогою алгоритму GPTQ.

У сфері обробки природної мови LLM зробили революцію в різних галузях завдяки своїй здатності розуміти і генерувати текст, подібний до людського. Проте обчислювальні ресурси, необхідні для навчання і розгортання цих моделей, створювали значні труднощі. Щоб вирішити цю проблему, дослідники інтегрували алгоритм GPTQ — техніку квантування — в бібліотеку AutoGPTQ. Це вдосконалення дозволяє користувачам виконувати моделі зі зниженою точністю до 8, 4, 3 або навіть 2 біт, зберігаючи при цьому незначну втрату точності і швидкість виведення, порівнянну з базовими лініями fp16, особливо для менших розмірів партій.

GPTQ, класифікований як метод квантування після навчання (PTQ), оптимізує баланс між ефективністю використання пам’яті та швидкістю обчислень. Він використовує гібридний підхід до квантування, квантуючи ваги моделі як int4, зберігаючи активації у форматі float16. Ваги динамічно деквантовуються під час виведення, а фактичні обчислення відбуваються у float16. Ця методологія досягає економії пам’яті за рахунок деквантифікації на основі злитого ядра та потенційного підвищення швидкості за рахунок скорочення часу передачі даних.

Дослідники вирішили проблему багаторівневого стиснення GPTQ, використовуючи фреймворк Optimal Brain Quantization (OBQ). Вони розробили оптимізації, які спрощують алгоритм квантування, зберігаючи при цьому точність моделі. На відміну від традиційних методів PTQ, GPTQ продемонстрував значне покращення ефективності квантування, скоротивши час, необхідний для квантування великих моделей.

Інтеграція з бібліотекою AutoGPTQ спрощує процес квантування, дозволяючи користувачам легко використовувати GPTQ для різних архітектур трансформаторів. Завдяки вбудованій підтримці бібліотеки Transformers, користувачі можуть квантувати моделі без складних конфігурацій. Прикметно, що квантовані моделі зберігають можливість серіалізації та спільного використання на таких платформах, як Hugging Face Hub, що розширює можливості доступу та співпраці.

Інтеграція поширюється на бібліотеку Text-Generation-Inference (TGI), що дозволяє ефективно розгортати моделі GPTQ у виробничих середовищах. Користувачі можуть використовувати динамічне пакетування і розширені функції разом з GPTQ для оптимального використання ресурсів.

Хоча інтеграція AutoGPTQ пропонує значні переваги, дослідники визнають, що є можливості для подальшого вдосконалення. Вони підкреслюють потенціал для вдосконалення реалізацій ядра та вивчення методів квантування, що охоплюють ваги та активації. Наразі інтеграція зосереджена навколо архітектур декодерів або лише кодерів у LLM, що обмежує її застосовність до конкретних моделей.

На закінчення, інтеграція бібліотеки AutoGPTQ в Hugging Face’s Transformers вирішує проблеми ресурсоємного навчання та розгортання LLM. Впровадивши квантування GPTQ, дослідники представили ефективне рішення, яке оптимізує споживання пам’яті та швидкість виведення. Широке охоплення та зручний інтерфейс інтеграції є кроком до демократизації доступу до квантованих LLM на різних архітектурах графічних процесорів. Оскільки ця галузь продовжує розвиватися, спільні зусилля дослідників машинного навчання обіцяють подальший прогрес та інновації.