20.05.2024 14:00
Nvidia AI випускає оптимізатор моделей TensorRT
Генеративний ШІ, попри свої вражаючі можливості, має значні обмеження через низьку швидкість виведення в реальних умовах.
Nvidia прагне розв’язати цю проблему за допомогою TensorRT Model Optimizer — бібліотеки, що оптимізує моделі глибокого навчання для виведення на GPU.
Оптимізатор моделей TensorRT використовує такі методи:
- Квантування після навчання (PTQ): Зменшує складність моделі та прискорює висновок, зберігаючи при цьому точність.
- Розрідженість: Видаляє непотрібні зв’язки в моделі, спрощуючи обчислення та прискорюючи висновок.
- Навчання з урахуванням квантування (QAT): Дозволяє робити 4-бітовий висновок з плаваючою комою без зниження точності.
Оптимізатор моделей TensorRT був оцінений на різних еталонних моделях і показав значне покращення продуктивності.
Наприклад:
- INT4 AWQ може прискорити роботу в 3,71 раза порівняно з FP16.
- INT8 і FP8 можуть створювати зображення з якістю, майже такою ж, як у базового FP16, при цьому прискорюючи висновок на 35-45 відсотків.
TensorRT Model Optimizer робить генеративний ШІ доступнішим та економнішим.
Нагадаємо, нещодавно Nvidia зробила заяву про свої наміри прискорити впровадження квантових обчислень у національних обчислювальних центрах по всьому світу за допомогою платформи CUDA-Q.