BTC$29880

ETH$3666

Шукати

Nvidia AI випускає оптимізатор моделей TensorRT

Генеративний ШІ, попри свої вражаючі можливості, має значні обмеження через низьку швидкість виведення в реальних умовах.

Nvidia прагне розв’язати цю проблему за допомогою TensorRT Model Optimizer — бібліотеки, що оптимізує моделі глибокого навчання для виведення на GPU.

Оптимізатор моделей TensorRT використовує такі методи:

  • Квантування після навчання (PTQ): Зменшує складність моделі та прискорює висновок, зберігаючи при цьому точність.
  • Розрідженість: Видаляє непотрібні зв’язки в моделі, спрощуючи обчислення та прискорюючи висновок.
  • Навчання з урахуванням квантування (QAT): Дозволяє робити 4-бітовий висновок з плаваючою комою без зниження точності.

Оптимізатор моделей TensorRT був оцінений на різних еталонних моделях і показав значне покращення продуктивності.

Наприклад:

  • INT4 AWQ може прискорити роботу в 3,71 раза порівняно з FP16.
  • INT8 і FP8 можуть створювати зображення з якістю, майже такою ж, як у базового FP16, при цьому прискорюючи висновок на 35-45 відсотків.

TensorRT Model Optimizer робить генеративний ШІ доступнішим та економнішим.

Нагадаємо, нещодавно Nvidia зробила заяву про свої наміри прискорити впровадження квантових обчислень у національних обчислювальних центрах по всьому світу за допомогою платформи CUDA-Q.