21.09.2023 13:18

Нове велике оновлення DALL-E 3

OpenAI, впливовий гравець у галузі генеративного ШІ, представив DALL-E 3, останню версію свого генератора зображень. Ця оновлена ітерація в поєднанні з контролером ChatGPT здатна створювати високоякісні зображення у відповідь на підказки природною мовою. Варто зазначити, що OpenAI також вжив заходів для забезпечення етичного контролю.

Генератори зображень, такі як DALL-E, MidJourney і Stable Diffusion, значно розширили творчі горизонти як для художників, так і для звичайних користувачів, викликавши справжній фурор в індустрії ШІ. Ці інструменти перетворюють текстові підказки у візуально приголомшливі творіння, пропонуючи унікальний погляд на те, як машини інтерпретують людську творчість. Представлення DALL-E 3 свідчить про прагнення OpenAI розширювати межі можливого в цій галузі та конкурувати з іншими лідерами індустрії.

Нещодавно представлений DALL-E 3 демонструє значний прогрес у здатності точно відтворювати детальні текстові описи. На відміну від своїх попередників, він чітко дотримується складних підказок, не вимагаючи значних оперативних інженерних коригувань або складних технік підказок. Ця нова система також демонструє виняткову майстерність у відображенні взаємозв’язків між об’єктами та створенні фотореалістичних людських деталей, таких як руки та віддзеркалення.

Our new text-to-image model, DALL·E 3, can translate nuanced requests into extremely detailed and accurate images.

Coming soon to ChatGPT Plus & Enterprise, which can help you craft amazing prompts to bring your ideas to life:https://t.co/jDXHGNmarT pic.twitter.com/aRWH5giBPL
— OpenAI (@OpenAI) September 20, 2023

Порівняння результатів, отриманих за одними й тими самими підказками в DALL-E 2 і DALL-E 3, демонструє чітку різницю: остання система створює помітно чіткіші та точніші зображення. Він може відтворювати сцени з винятковим рівнем реалізму, точно передаючи текстури, освітлення і фон. Важливо, що DALL-E 3 демонструє вражаючі можливості у створенні тексту та його плавній інтеграції в зображення — завдання, яке виявилося складним навіть для найпотужніших генераторів зображень зі штучним інтелектом.

DALL-E 3 побудований на основі ChatGPT, що дозволяє користувачам ітеративно вдосконалювати підказки за допомогою розмовної взаємодії. Зразки, що просочилися в мережу, свідчать про те, що він пропонує можливості швидкої ітерації. Ранні огляди, в тому числі від YouTuber MattVidPro, описували його як “неймовірний” і стверджували, що він перевершує навіть майбутню версію MidJourney.

Однак доступ до DALL-E 3 наразі обмежений приблизно 400 тестувальниками, а OpenAI планує випустити нову модель більш широко в найближчому майбутньому.

*Зображення, створене за допомогою DALL-E 3, і підказки, що використовувалися в процесі. Джерело*

Наразі користувачі можуть створювати зображення за допомогою DALL-E 2 через плагіни в поєднанні з ChatGPT Plus. Ті, хто не підписаний на цю послугу, зіткнуться з певними обмеженнями.

Шлях до цього моменту не обійшовся без труднощів. Під час етапу бета-тестування модель зажила недоброї слави через свою непідцензурну природу, здатну генерувати контент від відвертих матеріалів до жорстоких і кривавих зображень. Це викликало занепокоєння щодо можливості зловживання такою технологією. OpenAI, схоже, серйозно поставився до цих побоювань, реалізувавши в DALL-E 3 функції для запобігання генерації насильницького контенту, контенту для дорослих або контенту, що розпалює ненависть, забезпечуючи тим самим безпечнішу роботу користувачів.

Одним із заходів, вжитих OpenAI, є формування команди експертів для допомоги в оцінці та зменшенні ризиків, особливо в таких сферах, як пропаганда і дезінформація.

Незважаючи на видалення фільтрів під час тестування, занепокоєння щодо невідповідного або неетичного мистецтва, створеного ШІ, зберігається. OpenAI активно вивчає стратегії запобігання зловживанням у публічних версіях і полегшення ідентифікації зображень, створених за допомогою інструменту. Це може допомогти зменшити поширення підробленого контенту та потенційно ідентифікувати джерело зображення у випадках, коли цензурні заходи моделі обходять.

OpenAI також вирішує проблеми, пов’язані з етичністю використання творів мистецтва для навчання своєї моделі. DALL-E 3 не відтворюватиме контент, коли його попросять імітувати стилі живих художників, і OpenAI планує надати авторам можливість відмовитися від цього. Це стало відповіддю на критику з боку художників, які стверджують, що копіювання ШІ їхніх стилів без їхньої згоди є неетичним.

Зокрема, OpenAI зіткнулася з юридичними проблемами, включаючи позов від автора Джорджа Р.Р. Мартіна, який звинуватив компанію в неналежному використанні матеріалів, захищених авторським правом.