11.12.2024 15:19

ByteDance представив авторегресійну модель з побітовим моделюванням Infinity

Розробка нового інструменту ByteDance Infinity для синтезу тексту в зображення з високою роздільною здатністю переглядає стандарти генеративного штучного інтелекту. Традиційні підходи, такі як дифузійні та векторно-авторегресійні (VAR) моделі стикаються з проблемами масштабованості, точності та відтворення складних деталей. Дифузійні моделі, хоч і здатні створювати високоякісні зображення, але вимагають значних обчислювальних затрат, що робить їх непридатними для застосування в умовах реального часу. Моделі VAR, що ґрунтуються на дискретному прогнозуванні токенів, схильні до накопичення помилок, що призводить до зниження точності та неефективності. Ці обмеження підкреслюють потребу в розробці нових рішень, які здатні підвищити продуктивність та масштабованість процесу генерації зображень.

Синтез зображень з високою роздільною здатністю є результатом роботи Infinity, демонструючи його можливості в точному відстеженні, просторовому міркуванні, рендерингу тексту та відтворенні естетики в різних стилях і співвідношеннях сторін. Джерело

Infinity пропонує вирішення цих проблем за допомогою нового підходу, який передбачає впровадження побітової токенізації на заміну традиційним методам, заснованим на індексах. Це більш деталізоване відображення зменшує помилки квантування, забезпечуючи вищу точність виведення зображень. В основі цієї технології лежить класифікатор необмеженого словника, який розширює словник токенів в геометричній прогресії до 2⁶⁴, мінімізуючи витрати пам’яті та обчислювальні витрати. Крім того, механізм самокорекції передбачає і пом’якшує помилки під час навчання, підвищуючи надійність та точність моделі.

В основу цієї вдосконаленої системи покладено трансформаційну методологію, що поєднує точність з ефективністю. Тренуючись на великих наборах даних, таких як LAION та OpenImages, і поступово збільшуючи роздільну здатність від 256×256 до 1024×1024 пікселів, Infinity вдосконалює свою здатність генерувати високодеталізовані та реалістичні візуальні зображення. Інтеграція прогностичного моделювання на основі текстових підказок забезпечує бездоганне дотримання директив введення, а надійні стратегії виправлення помилок додатково підвищують якість вихідних даних.

Дослідження підкреслюють чудову продуктивність Infinity, яка перевершує такі відомі моделі, як SD3-Medium і PixArt-Sigma. Згенеровані зображення демонструють фотореалістичну деталізацію і точне узгодження з текстовими підказками, за що отримали високі рейтинги людських уподобань у низці застосувань.

Infinity став справжнім відкриттям у галузі генеративного ШІ, що дозволяє подолати давні проблеми з масштабуванням і точністю відтворення деталей. Завдяки використанню нового методу, що поєднує побітову токенізацію з розширеною корекцією помилок та масштабуванням словника, Infinity встановлює нові стандарти в галузі.