27.07.2023 17:04

Stability AI випустив свою останню модель генерації зображень, Stable Diffusion XL 1.0

Стартап Stability AI продовжує вдосконалювати свої генеративні моделі штучного інтелекту в умовах зростаючої конкуренції та етичних проблем.

Сьогодні Stability AI оголосила про запуск Stable Diffusion XL 1.0, моделі перетворення тексту в зображення, яку компанія описує як “найдосконаліший” реліз на сьогоднішній день. Stable Diffusion XL 1.0 доступна у відкритому доступі на GitHub на додаток до API та користувацьких додатків Stability, ClipDrop та DreamStudio, і забезпечує “більш яскраві” та “точні” кольори, а також кращу контрастність, тіні та освітлення порівняно з попередньою версією, стверджують у Stability.

В інтерв’ю TechCrunch керівник відділу прикладного машинного навчання Stability AI Джо Пенна зазначив, що Stable Diffusion XL 1.0, який містить 3,5 мільярда параметрів, може створювати зображення з роздільною здатністю 1 мегапіксель “за лічені секунди” у різних співвідношеннях сторін. “Параметри” – це частини моделі, які вивчаються на основі навчальних даних і, по суті, визначають здатність моделі вирішувати задачу, в даному випадку – генерувати зображення.

Модель Stable Diffusion попереднього покоління, Stable Diffusion XL 0.9, також могла створювати зображення з високою роздільною здатністю, але вимагала більшої обчислювальної потужності.

“Stable Diffusion XL 1.0 налаштовується, готова до тонкого налаштування відповідно до концепцій і стилів. Він також простіший у використанні, здатний створювати складні дизайни з базовими підказками на природній мові”. – каже керівник відділу прикладного машинного навчання Stability AI Джо Пенна

Крім того, Stable Diffusion XL 1.0 покращено в області генерації тексту. За словами Пенна, в той час як багато з найкращих моделей перетворення тексту в зображення намагаються створити зображення з розбірливими логотипами, не кажучи вже про каліграфію чи шрифти, Stable Diffusion XL 1.0 здатна генерувати “просунутий” текст і забезпечувати його розбірливість.

Як повідомляють SiliconAngle та VentureBeat, Stable Diffusion XL 1.0 підтримує inpainting (відтворення відсутніх частин зображення), outpainting (розширення існуючих зображень) та підказки “зображення до зображення” – тобто користувачі можуть ввести зображення та додати текстові підказки для створення більш детальних варіацій цієї картинки. Крім того, модель розуміє складні, багатокомпонентні інструкції, подані у вигляді коротких підказок, тоді як попередні моделі Stable Diffusion потребували довших текстових підказок.

“Ми сподіваємося, що з випуском цієї набагато потужнішої моделі з відкритим вихідним кодом роздільна здатність зображень збільшиться не лише в чотири рази, але й буде вдосконалена, що принесе велику користь усім користувачам”, – додав Джо Пенна

Але, як і у випадку з попередніми версіями Stable Diffusion, модель піднімає складні моральні питання.

Версія Stable Diffusion XL 1.0 з відкритим вихідним кодом теоретично може бути використана зловмисниками для створення токсичного або шкідливого контенту, наприклад, несанкціонованих глибоких фейків. Це частково відображає дані, які були використані для його навчання: мільйони зображень з усього Інтернету.

Незліченні навчальні посібники демонструють, як використовувати власні інструменти Stability AI, зокрема DreamStudio, інтерфейс з відкритим вихідним кодом для Stable Diffusion, для створення “глибоких фейків”. Незліченні інші показують, як тонко налаштувати базові моделі Stable Diffusion для створення порно.

Пенна не заперечує, що зловживання можливі, і визнає, що модель також містить певні упередження. Але він додав, що Stability AI зробила “додаткові кроки” для зменшення генерації шкідливого контенту, відфільтрувавши навчальні дані моделі для “небезпечних” зображень, випустивши нові попередження, пов’язані з проблемними підказками, і заблокувавши якомога більше окремих проблемних термінів в інструменті.

Навчальний набір Stable Diffusion XL 1.0 також включає роботи художників, які протестували проти того, щоб компанії, зокрема Stability AI, використовували їхні роботи як навчальні дані для генеративних ШІ-моделей. Stability AI стверджує, що вона захищена від юридичної відповідальності доктриною добросовісного використання, принаймні в США. Але це не завадило кільком художникам і стоковій фотокомпанії Getty Images подати позови з вимогою припинити цю практику.

Stability AI, який співпрацює зі стартапом Spawning, щоб поважати запити цих художників на відмову від використання, каже, що він не видалив усі позначені роботи зі своїх навчальних наборів даних, але “продовжує враховувати запити художників”.

“Ми постійно вдосконалюємо функціонал безпеки Stable Diffusion і серйозно налаштовані на подальше впровадження цих заходів. Більше того, ми зобов’язуємося поважати прохання художників видалити їх з навчальних наборів даних”, – каже Джо Пенна

Одночасно з випуском Stable Diffusion XL 1.0, Stability AI випускає функцію тонкого налаштування свого API в бета-версії, яка дозволить користувачам використовувати лише п’ять зображень, щоб “спеціалізувати” генерацію на конкретних людях, продуктах тощо. Компанія також приносить Stable Diffusion XL 1.0 на Bedrock, хмарну платформу Amazon для розміщення генеративних моделей штучного інтелекту, розширюючи раніше оголошену співпрацю з AWS.

Поштовх до партнерства і нових можливостей з’явився на тлі затишшя в комерційних починаннях Stability, яка зіткнулася з жорсткою конкуренцією з боку OpenAI, Midjourney та інших. У квітні Semafor повідомив, що Stability AI, яка на сьогоднішній день залучила понад 100 мільйонів доларів венчурного капіталу, втрачає гроші, що призвело до закриття конвертованих облігацій на суму 25 мільйонів доларів у червні та пошуку керівників, які допоможуть збільшити продажі.

“Остання модель SDXL є наступним кроком в інноваційній спадщині Stability AI і здатності виводити на ринок найсучасніші моделі з відкритим доступом для ШІ-спільноти. Представлення версії 1.0 на Amazon Bedrock демонструє нашу тверду прихильність до співпраці з AWS для надання найкращих рішень для розробників і наших клієнтів””, – заявив в прес-релізі генеральний директор Stability AI Емад Мостак (Emad Mostaque).