BTC$29880

ETH$3666

Шукати

Як близько ми підійшли до автоматизації розробки програмного забезпечення?

Завдяки розвитку генеративного штучного інтелекту з’явилися небачені раніше можливості, зокрема, у сфері мультимодального розуміння та генерації коду. Цей прогрес проклав шлях до зміни парадигми інтерфейсної розробки, де мультимодальні великі мовні моделі мають потенціал для автоматизації процесу перетворення візуального дизайну в кодову реалізацію безпосередньо. Цей новий підхід, що отримав назву Design2Code, обіцяє впорядкувати конвеєр проектування інтерфейсу та прискорити розробку веб-сайтів.

У нещодавньому дослідженні вчені провели перше систематичне вивчення завдання Design2Code, метою якого було оцінити ефективність сучасних мультимодальних LLM у створенні реалізації коду, що точно відтворює задані еталонні веб-сторінки. Щоб оцінити ці моделі, вручну було створено еталон, що складався з 484 реальних веб-сторінок, які слугували тестовими прикладами. Крім того, було розроблено набір автоматичних оціночних метрик для кількісного вимірювання точності та достовірності згенерованих реалізацій коду.

Для автоматичного оцінювання було враховано високорівневу візуальну схожість (CLIP) та низькорівневу відповідність елементів (відповідність блоків, тексту, позицій, кольорів). За цими параметрами порівнювалися всі досліджувані моделі. Джерело

У дослідженні використовувалися різні мультимодальні методи підказок і оцінювалася їх ефективність на провідних архітектурах LLM, включаючи GPT-4V і Gemini Vision Pro. Крім того, було доопрацьовано модель Design2Code-18B з відкритим вихідним кодом, яка досягла продуктивності, порівнянної з пропрієтарними рішеннями, такими як Gemini Vision Pro. Як людська оцінка, так і автоматичні метрики показали, що GPT-4V є найкращим виконавцем завдання з перетворення дизайну в код.

Примітно, що анотатори виявили, що веб-сторінки, згенеровані GPT-4V, у 49% випадків можуть замінити оригінальні еталонні веб-сторінки з точки зору візуального вигляду та змісту. Більше того, у 64% випадків веб-сторінки, створені за допомогою GPT-4V, були визнані кращими за оригінальні еталонні веб-сторінки. Ці результати підкреслюють значний потенціал GPT-4V у революційній розробці інтерфейсів завдяки автоматизованій генерації коду.

Було залучено людей-анотаторів для оцінки парних переваг виводу моделей. Показник виграшу/нічиєї/програшу порівняно з базовою лінією (Gemini Pro Vision Direct Prompting). Було відібрано 100 прикладів, і для кожної пари порівняння було обрано 5 анотаторів, які отримали більшість голосів за кожний приклад. Джерело

Однак дослідження також виявило напрями вдосконалення, зокрема, здатність моделей з відкритим вихідним кодом відтворювати візуальні елементи з вхідних веб-сторінок і генерувати коректний дизайн макетів. Тим не менш, такі аспекти, як текстовий вміст і колористика, продемонстрували значні перспективи для покращення шляхом належного доопрацювання.

Загалом, це дослідження є важливою подією в розвитку генеративного ШІ для розробки інтерфейсів. Оскільки дослідники продовжують вдосконалювати мультимодальні великі мовні моделі та вивчати інноваційні підходи до генерації коду, Design2Code має потенціал, щоб змінити середовище веб-розробки, дозволяючи створювати швидші, ефективніші та візуально приголомшливі веб-сайти.