06.03.2024 15:39
Як близько ми підійшли до автоматизації розробки програмного забезпечення?
Завдяки розвитку генеративного штучного інтелекту з’явилися небачені раніше можливості, зокрема, у сфері мультимодального розуміння та генерації коду. Цей прогрес проклав шлях до зміни парадигми інтерфейсної розробки, де мультимодальні великі мовні моделі мають потенціал для автоматизації процесу перетворення візуального дизайну в кодову реалізацію безпосередньо. Цей новий підхід, що отримав назву Design2Code, обіцяє впорядкувати конвеєр проектування інтерфейсу та прискорити розробку веб-сайтів.
У нещодавньому дослідженні вчені провели перше систематичне вивчення завдання Design2Code, метою якого було оцінити ефективність сучасних мультимодальних LLM у створенні реалізації коду, що точно відтворює задані еталонні веб-сторінки. Щоб оцінити ці моделі, вручну було створено еталон, що складався з 484 реальних веб-сторінок, які слугували тестовими прикладами. Крім того, було розроблено набір автоматичних оціночних метрик для кількісного вимірювання точності та достовірності згенерованих реалізацій коду.
У дослідженні використовувалися різні мультимодальні методи підказок і оцінювалася їх ефективність на провідних архітектурах LLM, включаючи GPT-4V і Gemini Vision Pro. Крім того, було доопрацьовано модель Design2Code-18B з відкритим вихідним кодом, яка досягла продуктивності, порівнянної з пропрієтарними рішеннями, такими як Gemini Vision Pro. Як людська оцінка, так і автоматичні метрики показали, що GPT-4V є найкращим виконавцем завдання з перетворення дизайну в код.
Примітно, що анотатори виявили, що веб-сторінки, згенеровані GPT-4V, у 49% випадків можуть замінити оригінальні еталонні веб-сторінки з точки зору візуального вигляду та змісту. Більше того, у 64% випадків веб-сторінки, створені за допомогою GPT-4V, були визнані кращими за оригінальні еталонні веб-сторінки. Ці результати підкреслюють значний потенціал GPT-4V у революційній розробці інтерфейсів завдяки автоматизованій генерації коду.
Однак дослідження також виявило напрями вдосконалення, зокрема, здатність моделей з відкритим вихідним кодом відтворювати візуальні елементи з вхідних веб-сторінок і генерувати коректний дизайн макетів. Тим не менш, такі аспекти, як текстовий вміст і колористика, продемонстрували значні перспективи для покращення шляхом належного доопрацювання.
Загалом, це дослідження є важливою подією в розвитку генеративного ШІ для розробки інтерфейсів. Оскільки дослідники продовжують вдосконалювати мультимодальні великі мовні моделі та вивчати інноваційні підходи до генерації коду, Design2Code має потенціал, щоб змінити середовище веб-розробки, дозволяючи створювати швидші, ефективніші та візуально приголомшливі веб-сайти.