BTC$29880

ETH$3666

Шукати

Apple випускає «MGIE», нову модель ШІ для редагування зображень

Apple оприлюднила MGIE — нову модель штучного інтелекту з відкритим вихідним кодом, яка полегшує редагування зображень на основі інструкцій природною мовою. Розроблена у співпраці з дослідниками з Каліфорнійського університету в Санта-Барбарі, MGIE використовує мультимодальні великі мовні моделі для інтерпретації команд користувача та виконання маніпуляцій на рівні пікселів. Модель, представлена в документі, прийнятому до розгляду на Міжнародній конференції з навчальних репрезентацій (ICLR), має на меті спростити редагування зображень на основі інструкцій, зберігаючи при цьому конкурентоспроможну ефективність.

MGIE використовує мультимодальні великі мовні моделі для отримання виразних інструкцій на основі вводу користувача і генерування візуальної уяви, яка керує маніпуляціями на рівні пікселів. Її алгоритм наскрізного навчання оптимізує виведення інструкцій, візуальну уяву та модулі редагування зображень. Модель може обробляти широкий спектр сценаріїв редагування, включаючи модифікації у стилі Photoshop, глобальну оптимізацію фотографій і локальне редагування певних регіонів чи об’єктів.

MGIE — кероване редагування зображень за допомогою мультимодальних великих мовних моделей для покращення редагування зображень на основі інструкцій для різних аспектів редагування. Вгорі — вхідна інструкція, а праворуч — спільно отримана експресивна інструкція за допомогою MGIE. Джерело

Користувачі можуть отримати доступ до MGIE через GitHub у вигляді проекту з відкритим вихідним кодом, де вони можуть знайти код, дані, попередньо навчені моделі та демонстраційний посібник, що містить різноманітні сценарії редагування. Крім того, веб-демонстрація, розміщена на Hugging Face Spaces, дозволяє користувачам експериментувати з MGIE онлайн. Гнучкість моделі дозволяє вводити інструкції природною мовою, що дає змогу користувачам створювати, змінювати та оптимізувати зображення для особистих чи професійних цілей.

MGIE являє собою значний прогрес у редагуванні зображень на основі інструкцій, демонструючи потенціал мультимодальних великих мовних моделей задля покращення виконання творчих завдань. Це підкреслює прихильність Apple до досліджень і розробок у галузі штучного інтелекту, відображаючи розширення можливостей компанії в галузі машинного навчання. Хоча експерти визнають необхідність подальшого вдосконалення мультимодальних систем ШІ, випуск MGIE став помітною подією в інтеграції штучного інтелекту в творчі робочі процеси, потенційно трансформуючи те, як користувачі взаємодіють з цифровими зображеннями та маніпулюють ними.