22.12.2023 13:15

MidJourney V6 оновила візуальні ефекти та майже вирішила проблеми з генерацією тексту

Компанія MidJourney нещодавно оприлюднила свою останню модель генератора зображень зі штучним інтелектом, базову модель V6, яка має на меті досягти значних успіхів у конкурентній боротьбі у сфері цифрової творчості. Випущена для альфа-тестування, V6 може похвалитися підвищеною точністю, покращеною зв’язністю і, що особливо важливо, можливостями генерації тексту, що знаменує собою перехід від попередніх моделей MidJourney.

В офіційному оголошенні на Discord, V6 описується як значне оновлення з набагато точнішим слідуванням підказкам, здатністю обробляти довші підказки, покращеною узгодженістю і розширеними знаннями про модель порівняно з попередньою версією, V5.1, запущеною в травні 2023 року. Перехід від V5 до V6 означає перехід до більш складної та детальної генерації зображень.

Особливістю V6 є можливість створення тексту, що ставить MidJourney у пряму конкуренцію з іншими відомими моделями, такими як Dall-E 3 та Ideogram. Хоча команда розробників вважає цю функцію «другорядною», вона представляє унікальний підхід до створення тексту. Користувачам пропонується написати свій текст у вигляді цитат, і на результат можуть впливати стильові особливості.

Порівняння MidJourney V6 з Dall-E 3 та Ideogram, відомими своєю точністю генерації тексту. MidJourney, надаючи перевагу стилю та естетиці, іноді жертвував точністю тексту.

Порівнюючи результати генерації тексту за допомогою MidJourney, Dall-E 3 та Ideogram AI, можна спрощено рекомендувати використовувати MidJourney для естетики, Dall-E 3 — для простоти використання та естетики мультиплікаційного цифрового мистецтва, а Ideogram AI — коли текст переважає над естетикою. MidJourney і Dall-E 3 з ChatGPT є платними послугами, тоді як Ideogram AI безкоштовний.

Хоча V6 працює повільніше і обходиться дорожче, ніж його попередник V5, команда розробників прагне підвищити швидкість роботи з часом. У моделі також впроваджено вдосконалені апскейлери в «тонкому» та «творчому» режимах, що подвоює роздільну здатність зображення.

V6 пропонує різноманітні підтримувані аргументи, такі як –ar (зміна роздільної здатності), –chaos (варіації між поколіннями) та –stylize (налаштування креативності моделі). Однак такі функції, як зафарбовування, розфарбовування та опис зображень, будуть доступні лише після оновлення, яке очікується наступного місяця.

В анонсі наголошується на відповідальному і шанобливому використанні можливостей моделі, не рекомендується створювати зображення, що містять драматичні сцени або будь-яку поведінку, яка вважається неприйнятною. Це свідчить про більш суворий підхід до модерації контенту, спрямований на вирішення потенційних проблем, пов’язаних із численними цифровими «вайфу» та політичними «діпфейками».