BTC$29880

ETH$3666

Шукати

Stable Diffusion 3.0 представляє нову архітектуру дифузійного перетворення

Компанія Stability AI анонсує вихід Stable Diffusion 3.0 — моделі штучного інтелекту наступного покоління, що генерує текст-зображення, яка стане помітним досягненням у технології генерування зображень. Спираючись на попередні ітерації, такі як реліз SDXL у липні, ця нова модель має на меті забезпечити покращену якість зображень, кращу продуктивність з багатопредметними підказками та суттєво покращити типографіку.

Модель Stable Diffusion 3.0 базується на новій архітектурі під назвою дифузійні трансформатори, подібній до тієї, що використовується в нещодавній моделі OpenAI Sora. Ця архітектура являє собою значний відхід від попередніх версій і обіцяє революціонізувати генерацію зображень. Stability AI експериментував з різними алгоритмами, включаючи використання трансформерів, широко відомих у моделях генерації тексту, і дифузійних моделей, які зазвичай застосовуються для генерації зображень. Поєднання цих підходів у дифузійних трансформаторах дозволяє ефективніше використовувати обчислювальні ресурси і перевершує інші форми дифузійної генерації зображень.

Згенеровано за допомогою Stable Diffusion 3.0. Джерело

Основним вдосконаленням Stable Diffusion 3.0 є узгодження потоків — метод навчання безперервних нормалізуючих потоків (CNF) для моделювання складних розподілів даних. Поєднуючи узгодження потоків з оптимальними шляхами перенесення, Stable Diffusion досягає швидшого навчання, ефективнішої вибірки та кращої продуктивності порівняно з використанням лише шляхів дифузії.

Одним з помітних покращень в Stable Diffusion 3.0 є покращена типографіка, яка усуває попередній недолік моделі. Це покращення пов’язане з новою архітектурою трансформерів і додатковими засобами обробки тексту, що дозволяє моделі генерувати зв’язний і стилістично узгоджений текст всередині зображень.

Хоча спочатку Stable Diffusion 3.0 була продемонстрована як технологія генерації зображень, Stable Diffusion 3.0 слугуватиме основою для ширших застосувань, зокрема для генерації 3D-зображень та відео. Stability AI підкреслює свою прихильність до відкритих моделей, які можна адаптувати до різних потреб, прокладаючи шлях до розробки візуальних моделей наступного покоління різних розмірів і форматів.