01.08.2023 13:37

Який інструмент перемагає? MidJourney, Stable Diffusion v1.5 чи SDXL

Епоха мистецтва, створеного за допомогою штучного інтелекту, вже на порозі, і три титани стали улюбленими інструментами для цифрових творців: Новий SDXL від Stability AI, старий добрий Stable Diffusion v1.5 та їхній головний конкурент: MidJourney.

Dall-E від OpenAI розпочав цю революцію, але його недостатній розвиток і той факт, що він має закритий вихідний код, означає, що Dall-E 2 не виділяється в жодній категорії на тлі своїх конкурентів. Однак, як повідомляв Decrypt кілька днів тому, це може змінитися в майбутньому, оскільки openAI тестує нову версію Dall-E, яка, як повідомляється, є компетентною і видає видатні результати.

Маючи унікальні сильні та слабкі сторони, вибір правильного інструменту з-поміж провідних платформ є ключовим. Давайте зануримося в те, як ці технології генеративного мистецтва поєднуються з точки зору можливостей, вимог, стилю та краси.

MidJourney: ключ до мистецтва ШІ-технологій

Théâtre d’Opéra Spatial, зображення Midjourney, яке отримало перший приз у конкурсі цифрового мистецтва

Як найбільш зручна для користувача, MidJourney робить мистецтво штучного інтелекту доступним навіть для нетехнічних користувачів за умови, що вони знайомі з Discord. Платформа працює приватно на серверах MidJourney, а користувачі взаємодіють через чат Discord. Такий закритий підхід має як переваги, так і недоліки. З одного боку, вам не потрібне спеціалізоване обладнання або навички роботи зі штучним інтелектом. Але відсутність відкритого вихідного коду моделі MidJourney та навчальних даних робить його досить обмеженим у тому, що ви можете зробити, і унеможливлює його вдосконалення ентузіастами.

MidJourney — це балакучий чарівник, який полюбився новачкам завдяки зручному інтерфейсу Discord. Просто надішліть боту текстову підказку і вуаля, за лічені хвилини ви отримаєте естетичний шедевр. У чому підступ? 96 доларів на рік — це дорого за штучний інтелект, який ви не можете налаштувати або запустити локально.

MidJourney швидко створює зображення на основі текстових підказок з вражаючою естетичною цілісністю. Але якщо заглибитися в конкретну тему, то результати стають дещо дивнішими. MidJourney любить додавати свій власний штрих до кожного окремого творіння, навіть якщо це не те, що уявляв собі автор підказки. Тому більшість зображень можуть бути насичені контрастністю і, як правило, більш фотореалістичні, ніж реалістичні, аж до того, що через деякий час люди починають впізнавати зображення, створені за допомогою MidJourney, за їхніми естетичними характеристиками.

На MidJourney ваша творча свобода також обмежена суворими правилами платформи щодо контенту. Він піддається агресивній цензурі, як соціальній (в плані зображення оголеної натури або насильства), так і політичній (в плані суперечливих тем і конкретних лідерів). Загалом, MidJourney пропонує спокусливий шлях до мистецтва штучного інтелекту, але досвідчені користувачі прагнутимуть більшого контролю та можливостей налаштування. Саме тоді в гру вступає Stable Diffusion.

Stable Diffusion v1.5: “Надійний” у мистецтві штучного інтелекту

*Зображення без назви створено користувачем ThaiTvNews з використанням власної моделі SD v1.5*.

Якщо MidJourney — це швидка прогулянка, то Stable Diffusion v1.5 — надійна робоча конячка. Будучи моделлю з відкритим вихідним кодом, яка активно розробляється вже більше року, Stable Diffusion v1.5 працює на базі багатьох найпопулярніших інструментів для створення штучного інтелекту, таких як Leonardo AI, Lexica, Mage Space і всіх тих генераторів вайфу, які зараз доступні в магазині Google Play.

Активна спільнота MidJourney ітераційно використовувала базову модель для створення спеціалізованих контрольних точок, вбудовувань та низькорангової адаптації великих мовних моделей, зосереджуючись на всьому, від стилізації під аніме до складних ландшафтів, гіперреалістичних фотографій та іншого. Мінуси? Він починає демонструвати свій вік поряд з більш молодими алгоритмами штучного інтелекту.

Зробивши деякі налаштування, Stable Diffusion v1.5 може генерувати чіткі, деталізовані зображення, пристосовані до вашого творчого бачення. Наразі вихідна роздільна здатність обмежена 512×512 або іноді 768×768, що призводить до погіршення якості, але методи швидкого масштабування допомагають. Популярність плиточного масштабування також підвищила популярність моделі, завдяки чому вона може створювати зображення з надвисокою роздільною здатністю, набагато вищою за ту, яку може забезпечити MidJourney.

Наразі це єдина технологія, яка підтримує інпайнтінг (зміну об’єктів всередині зображення). Підтримується також аутпайнтінг, що дозволяє моделі розширювати зображення за межі рамки. Вона є багатовекторною, тобто користувачі можуть розширювати зображення як по вертикальній, так і по горизонтальній осях. Він також підтримує сторонні плагіни, такі як “roop” (використовується для створення глибоких фейків), “After Detailer” (для покращення обличчя та рук), “Open Pose” (для імітації певної пози) та регіональні підказки.

Творці припускають, що для його запуску вам знадобиться графічний процесор Nvidia RTX 2000-ї серії або краще для пристойної продуктивності, але легка система Stable Diffusion v1.5 працює плавно навіть на 4 ГБ VRAM-картках. Незважаючи на свій вік, потужна підтримка спільноти тримає цей штучний інтелект на висоті.

SDXL: Наступна межа мистецтва штучного інтелекту

*Зображення без назви, створене користувачем Buzimage за допомогою кастомізованої моделі SDXL*

Якщо Stable Diffusion v1.5 — це надійна робоча конячка, то SDXL — це молодий чистокровний скакун, що мчить по іподрому. Ця потужна модель, також від Stability AI, використовує подвійні текстові енкодери для кращої інтерпретації підказок, а її двоетапний процес генерації забезпечує чудову когерентність зображення у високій роздільній здатності.

Ці можливості звучать захоплююче, але вони також роблять SDXL трохи складнішим для освоєння. Одному текстовому кодеру подобається коротка природна мова, а інший використовує стиль SD v1.5, де для опису композиції використовуються короткі, специфічні ключові слова.

Двоетапна генерація означає, що для додавання деталей до основного зображення потрібна уточнююча модель. Це вимагає часу, оперативної пам’яті та обчислювальних потужностей, але результати чудові.

SDXL готовий закрутити голови. Підтримуючи майже втричі більше параметрів, ніж у Stable Diffusion v1.5, SDXL без зайвих зусиль створює серйозні зображення з роздільною здатністю майже на 50% вищою, ніж у попередника, і навіть не потіє. Але за цю надзвичайну продуктивність доводиться платити: SDXL потребує графічного процесора з мінімум 6 ГБ VRAM, потребує більших файлів моделей і не має попередньо підготовлених спеціалізацій.

Вихідні дані “з коробки” ще не можуть зрівнятися з точно налаштованою моделлю Stable Diffusion. Однак, оскільки спільнота працює над оптимізацією, потенціал SDXL перевершує можливості сьогоднішніх моделей.

Порівняння результатів

Краще один раз побачити, ніж сто разів почути, тому ми узагальнили кілька тисяч фрагментів, намагаючись порівняти різні результати за допомогою схожих підказок, щоб ви могли вибрати той, який вам найбільше сподобається. Зверніть увагу, що кожна модель вимагає різної техніки підказок, тож навіть якщо це не порівняння “яблука з яблуком”, це хороша відправна точка.

Щоб бути більш конкретними, ми використовували досить узагальнену негативну підказку для Stable Diffusion, чого MidJourney насправді не потребує. В іншому, підказки однакові, і результати не були відібрані навмисно.

Підказка: Портрет коргі на велосипеді, який перетинає море

Коментар: Між SDXL і MidJourney є лише питання стилю. Обидві програми перевершують Stable Diffusion v1.5, хоча, здається, тільки вона здатна створити собаку, яка правильно “їздить” на велосипеді, або, принаймні, правильно його використовує.

Підказка: Грудаста вчителька у футуристичному класі

Коментар: MidJourney відмовився генерувати зображення через свої правила цензури. SDXL багатший на деталі, дбаючи про те, щоб створити як грудасту вчительку, так і футуристичний клас. SD v1.5 більше сфокусований на грудастій вчительці (об’єкт. Модель: Photon v1) і менше на деталях навколишнього середовища.

Підказка: мозок, що керує машиною, Джеффрі Сміт і Г.Р. Ґіґер, високодеталізований у 4k, Нісіда Шуней, плакат, інструмент, високодеталізований епічний епос, епічний кіберпанк, студія муті, бітмап, Суґімура Джіхей

Коментар: Обидва програми — MidJourney та SDXL — показали результати, які відповідають підказці. SDXL краще відтворив художній стиль, тоді як MidJourney більше зосередився на створенні естетично привабливого зображення, а не на відтворенні художнього стилю, а також втратив багато деталей підказки (наприклад, на зображенні не зображено мозок, який керує машиною, а череп, який керує машиною).

Майбутнє генеративного мистецтва

Тож який навчальний посібник з Моне вам варто використовувати? Чесно кажучи, ви не помилитеся з жодним з цих варіантів. MidJourney вирізняється зручністю використання та естетичною цілісністю. Stable Diffusion v1.5 пропонує кастомізацію та підтримку спільноти. А SDXL розширює межі створення фотореалістичних зображень. Тим часом, залишайтеся з нами, щоб дізнатися, що Dall-E має на увазі.

Не просто вірте нам на слово. Пензлик вже у ваших руках, а чисте полотно чекає. Візьміть свій генеративний інструмент і починайте творити! Тільки, будь ласка, зводьте екзистенційні загрози для людства до мінімуму.