21.02.2024 10:55

Google AI представила ScreenAI, модель для розуміння інфографіки та інтерфейсів користувача

Google AI представила ScreenAI, нову модель мови зору (Vision-Language Model, VLM), спроєктовану для глибокого розуміння та інтерпретації користувацьких інтерфейсів та інфографіки. Ця розробка є важливим кроком уперед у зміцненні зв’язку між людським сприйняттям візуальних даних та їх обробкою машинами, оскільки вона вирішує складні завдання аналізу та інтерпретації візуальної інформації, які раніше вимагали значних зусиль з боку людини.

Особливості ScreenAI

Розуміння UI та інфографіки: ScreenAI здатний аналізувати та інтерпретувати широкий спектр візуальних елементів, включаючи графіки, діаграми, ілюстрації, карти, таблиці та макети документів. Це означає, що модель може застосовуватися до різноманітних даних, від наукових статей до інтерактивних вебсайтів.
Гнучке вирішення завдань: Використовуючи комбінацію методів виправлень з Pix2struct і архітектури PaLI, ScreenAI ефективно вирішує завдання, пов’язані з візуальною інформацією, перетворюючи їх на текст. Це дозволяє моделі виконувати різноманітні завдання, від анотації елементів до узагальнення, навігації та специфічного для UI QA.
Новітні результати: ScreenAI продемонструвала вражаючі результати на завданнях, таких як DocVQA, WebSRC, MoTIF і Widget Captioning, з менш ніж 5 мільярдами параметрів, перевершуючи моделі подібного розміру в завданнях, як DocVQA, InfographicVQA та Chart QA.
Набори даних для дослідження: Команда Google зробила доступними три додаткові набори даних, зокрема Screen Annotation, ScreenQA Short і Complex ScreenQA, що надає дослідникам нові ресурси для подальшого розвитку та тестування подібних моделей.

Значення для галузі

Розробка ScreenAI має велике значення для галузі штучного інтелекту, оскільки вона розширює можливості машин у розумінні та обробці візуальної інформації. Вона не тільки підвищує ефективність роботи з великими обсягами даних, але й відкриває нові можливості для розробки інтерактивних і інтуїтивно зрозумілих інтерфейсів, поліпшуючи доступність і зручність користування для людей по всьому світу.

Ця технологія може знайти застосування в різних сферах, включаючи освіту, де інфографіка часто використовується для пояснення складних концепцій, у вебдизайні для покращення користувацького досвіду, та в аналітиці даних для візуалізації та інтерпретації великих обсягів інформації.

Нагадаємо, у грудні Google AI запропонував модель, здатну до точної локалізації та адаптації до мови зору.