05.10.2023 12:24

Salesforce AI запускає GlueGen

У сфері моделей перетворення тексту в зображення (T2I), що стрімко розвивається, GlueGen представляє новий підхід для підвищення гнучкості та функціональності цих моделей. Моделі T2I продемонстрували вражаючі можливості у створенні зображень з текстових описів, але вони були обмежені з точки зору модифікації та розширення. GlueGen, розроблений дослідниками з Північно-Західного університету, Salesforce AI Research та Стенфордського університету, має на меті усунути ці обмеження та відкрити нову еру багатомовної підтримки, генерації звуку до зображення та покращеного кодування тексту.

Існуючі моделі T2I, особливо ті, що базуються на процесах дифузії, досягли успіху в створенні зображень з текстових підписів. Однак ці моделі часто страждають від тісного зв’язку між кодерами тексту та декодерами зображень, що ускладнює модифікацію або модернізацію їхньої функціональності.

GlueGen запускає GlueNet – фреймворк, який узгоджує функції різних одномодальних і мультимодальних кодерів з латентним простором існуючої моделі T2I. Це вирівнювання досягається за допомогою нової навчальної задачі, яка використовує паралельні корпуси для вирівнювання просторів представлення різних кодерів.

Можливості GlueGen поширюються на вирівнювання багатомовних мовних моделей, таких як XLM-Roberta, з моделями T2I, що дозволяє генерувати високоякісні зображення з неанглійських субтитрів. Він також може узгоджувати мультимодальні кодери, такі як AudioCLIP, з моделлю Stable Diffusion, що дозволяє генерувати звук до зображення.

Налаштування GlueGen. GlueNet намагається забезпечити адаптований портал для моделі стабільної дифузії для введення мультимодальних даних, таких як текст, аудіо, тобто (a) і (b), або текстово-аудіо гібридних сигналів, тобто (c), для генерації X-до-зображення. Джерело

Фреймворк підвищує адаптивність існуючих моделей T2I, вирівнюючи різноманітні представлення функцій, що полегшує інтеграцію нової функціональності. Він також вирішує проблему розриву тісного зв’язку між кодувальниками тексту та декодерами зображень у моделях T2I, полегшуючи їхнє оновлення та розширення.

На закінчення, GlueGen представляє багатообіцяючий підхід до вдосконалення можливостей перетворення X в зображення в області T2I моделей. Його здатність узгоджувати різні представлення функцій і підтримувати багатомовну і мультимодальну інтеграцію робить його цінним інструментом для підвищення гнучкості і функціональності T2I-моделей.