13.06.2024 14:46

Stability AI випускає Stable Diffusion 3, доступну в HuggingFace

Компанія Stability AI випустила останню версію свого генератора зображень з відкритим вихідним кодом, Stable Diffusion 3 (SD3), найбільш просунутого і настроюваного генератора текст-зображення. SD3 доступний за безплатною некомерційною ліцензією через Hugging Face, API Stability AI та такі додатки, як Stable Assistant і Stable Artisan. Для комерційного використання користувачі повинні звернутися до Stability AI за деталями ліцензування.

Really enjoying the new SD3. Running it on my potato-ish RTX2060 GPT with 6GB of vRAM. Around 45 seconds per generation vs 30 of SDXL.https://t.co/t2RZaXNSVu pic.twitter.com/mPJAQRZubA
— jaldps (@jaldpsd) June 12, 2024

SD3 Medium, найдосконаліша модель Stability AI, містить два мільярди параметрів. Вона оптимізована для споживчих ПК, ноутбуків і графічних процесорів корпоративного рівня, що робить її універсальним інструментом для широкого кола користувачів. Модель забезпечує реалістичні та деталізовані зображення, перевершуючи оригінальну SDXL.

Серед ключових особливостей SD3 — фотореалістичність, точне дотримання дистанції, відмінна типографіка, ефективність використання ресурсів і можливості тонкого налаштування. Завдяки архітектурі дифузійного трансформера Stability AI, модель генерує високоякісні зображення рук і облич, інтерпретує складні підказки та генерує текст без помилок. Він може поглинати детальну інформацію з невеликих наборів даних, що робить його ідеальним для індивідуального налаштування.

Вперше представлений у лютому 2024 року і доступний через API у квітні 2024 року, SD3 був вдосконалений завдяки співпраці з Nvidia. Оптимізовані за допомогою TensorRT версії моделі пропонують найкращу у своєму класі продуктивність, а попередні оптимізації дали до 50% приросту продуктивності. Stability AI впровадив численні засоби захисту для запобігання зловживанню SD3 Medium.

Апаратні вимоги для SD3 становлять від 5 ГБ до 16 ГБ графічної пам’яті GPU VRAM, залежно від розміру моделі. Для більшої швидкості рекомендується 16 ГБ графічної пам’яті, але допускається використання мінімум 5 ГБ. Модульна структура SD3 дозволяє йому працювати з різними текстовими кодувальниками, включаючи найбільший, T5-XXL, який також може працювати на центральному процесорі. Така гнучкість означає, що вимоги для роботи SD3 2B подібні до вимог для SD1.5 та SDXL.

На відміну від попередніх моделей, які потребували застосування фільтра, SD3 спрощує процес генерації, усуваючи цю необхідність, підвищуючи загальну продуктивність. Ця зміна була натхненна бажанням спільноти Stable Diffusion доопрацювати базову модель для отримання детальних зображень.

Попри фінансові суперечки, Stability AI продовжує ітерації та вдосконалення своїх моделей зображень, а також розширює свої зусилля у сфері мультимодальних технологій, що охоплюють відео, аудіо та мову. Stability AI також пропонує моделі з відкритим вихідним кодом для відео, тексту та аудіо, а також інші технології генерації зображень, такі як Stable Cascade та Deepfloyd IF. Компанія планує постійно вдосконалювати SD3 Medium на основі відгуків користувачів.