12.10.2023 19:53

Генерування зображень у контексті з мультимодальними LLM

Останні досягнення значно покращили генерацію зображень з текстових описів і синтез нових зображень шляхом поєднання тексту і зображень. Однак з’явився новий рубіж: генерування зображень з узагальнених вхідних даних мовою технічного зору, особливо тих, що включають складні описи сцен з багатьма об’єктами і людьми. Щоб вирішити цю проблему, спільна команда дослідників з Microsoft Research, Нью-Йоркського університету та Університету Ватерлоо представила KOSMOS-G — модель, яка використовує мультимодальні великі мовні моделі (Large Language Models, LLM) для створення зображень з різноманітних текстових і візуальних даних.

KOSMOS-G демонструє унікальну здатність створювати детальні зображення на основі складних комбінацій текстових описів і декількох зображень, навіть у сценаріях, де вона не зустрічалася з точно такими ж прикладами під час навчання. Це перша модель, призначена для створення зображень у ситуаціях з різними об’єктами або сутностями на основі текстових описів. KOSMOS-G пропонує альтернативу CLIP, що відкриває нові можливості для вивчення інших методів, таких як ControlNet і LoRA, у різних сферах застосування.

Приклади генерації зображень з нульового кадру з мультимодальними підказками. KOSMOS-G розглядає всі вхідні зображення як “іноземну мову”. Він може сприймати узагальнені вхідні дані мовою зору, які охоплюють кілька образів, і точно генерувати зображення. Джерело

Модель використовує складний підхід до генерації зображень з тексту та зображень. Вона починається з навчання мультимодального LLM, здатного розуміти як текстові, так і візуальні вхідні дані, які потім узгоджуються з текстовим кодувальником CLIP, відомим своїми здібностями до розуміння тексту.

За допомогою підпису, що містить текст і сегментовані зображення, KOSMOS-G навчається генерувати зображення, які відповідають опису, і дотримуватися будь-яких наданих інструкцій. Це досягається завдяки використанню попередньо навченого декодера зображень і використанню його розуміння зображень для генерування точних візуальних образів у різних контекстах.

KOSMOS-G досягає успіху у створенні зображень з нульового кадру в різних умовах. Він вміє створювати цілісні та естетично привабливі зображення, які можна налаштовувати різними способами, включаючи зміну контексту, застосування певних стилів, модифікацію та додавання додаткових деталей. Зокрема, KOSMOS-G є першою моделлю, яка здатна генерувати багатосуб’єктні зображення (VL2I) з нульовим знімком.

Ця модель може легко замінити CLIP в системах генерації зображень, прокладаючи шлях до нових застосувань, які раніше були недосяжними. Очікується, що, спираючись на фундамент, закладений CLIP, KOSMOS-G сприятиме переходу від генерації зображень виключно на основі тексту до генерації зображень шляхом злиття текстової та візуальної інформації, що відкриває захоплюючі перспективи для інноваційних застосувань.

Отже, KOSMOS-G — це новаторська модель, здатна створювати детальні зображення як з текстових описів, так і з декількох зображень. Вона використовує унікальну стратегію навчання, відому як “вирівняти, перш ніж навчати”. KOSMOS-G чудово генерує зображення окремих об’єктів і є першою моделлю, яка досягла цього з декількома об’єктами. Крім того, він може легко замінити CLIP і співпрацювати з іншими технологіями, такими як ControlNet і LoRA, щоб уможливити нові застосування. По суті, KOSMOS-G — це перший крок до того, щоб зробити генерацію зображень такою ж універсальною, як і генерацію тексту.