28.10.2023 14:10

Мультимодальний ШІ-помічник, який гармонійно поєднує GPT-4V з веб-браузером

Нещодавно спільнота фахівців з машинного навчання представила GPT-4V-Act — проект, який використовує модель GPT-4V для створення артикульованого мультимодального помічника зі штучним інтелектом. Проект має на меті покращити взаємодію між людиною та комп’ютером, підвищити зручність інтерфейсу користувача, полегшити автоматизацію робочих процесів та уможливити автоматизоване тестування інтерфейсу.

GPT-4V-Act поєднує в собі GPT-4V і Set-of-Mark Prompting з індивідуальним автоматичним маркувальником для досягнення своїх можливостей. Автоматичний маркувальник присвоює числові ідентифікатори кожному інтерактивному елементу інтерфейсу. За допомогою цих міток GPT-4V-Act може аналізувати завдання і знімки екрану, щоб визначити необхідні кроки для завершення завдання. Числові мітки слугують точними вказівниками на координати пікселів, які можна використовувати для введення за допомогою миші та клавіатури.

Зокрема, агент продемонстрував свої здібності, успішно розміщуючи пости на Reddit, здійснюючи пошук товарів, ініціюючи процес оформлення замовлення та виявляючи помилки у використанні автомаркувальника під час ігрового процесу.

Важливо зазначити, що GPT-4V не є загальнодоступним, а використання GPT-4V-Act наразі вимагає підписки на ChatGPT Plus. Варто зазначити, що використання несанкціонованого API GPT-4V в цьому проекті може потенційно порушувати умови угоди про надання послуг ChatGPT.

Такий підхід до ШІ, який інтегрує штучний інтелект з користувацьким інтерфейсом, стає все більш поширеним, дозволяючи створювати більш універсальні додатки в порівнянні з тими, що покладаються виключно на API і текстові представлення станів. Ці агенти можуть навчатися за допомогою демонстрацій експертів, що робить їх більш доступними та зручними для користувачів.