19.11.2023 13:49
Веб-взаємодія з мультимодальною великою мовною моделлю, такою як GPT4
Оскільки штучний інтелект продовжує своє повсюдне розповсюдження, впливаючи на різні аспекти нашого життя, постійні дослідження спрямовані на підвищення його практичності та зручності. Сьогодні ШІ відіграє вирішальну роль у багатьох аспектах повсякденного життя, що підтримується широкими дослідженнями в різних галузях. У відповідь на ці розробки дослідники з Reworkd створили Tarsier — бібліотеку Python з відкритим вихідним кодом, призначену для полегшення веб-взаємодії з мультимодальними великими мовними моделями (MLLM), такими як GPT-4.
Tarsier слугує мостом, що розширює можливості цих моделей, візуально позначаючи інтерактивні елементи на веб-сторінках, тим самим полегшуючи взаємодію між користувачами та машинами. Складність веб-взаємодії для великої мовної моделі спрощується завдяки візуальному тегуванню елементів Tarsier за допомогою дужок та унікальних ідентифікаторів, таких як ідентифікатори. Ці елементи, включно з кнопками, посиланнями та полями введення, видимими на сторінці, створюють важливе відображення для GPT-4 для виконання дій. По суті, Tarsier діє як перекладач, роблячи веб-сторінки зрозумілими для мовних моделей.
Однією з особливостей Tarsier є візуальне представлення веб-сторінок, що вирішує проблеми, з якими стикаються існуючі мовні моделі технічного зору. За допомогою утиліт оптичного розпізнавання символів (OCR) Tarsier перетворює скріншот сторінки на структурований рядок із пробілами. Це гарантує, що навіть не мультимодальна велика мовна модель може зрозуміти зміст і значення веб-сторінки.
Tarsier представляє дві ключові утиліти, які значно розширюють можливості взаємодії мовних моделей: Тегування інтерактивних елементів і парсинг скріншотів у представлення тексту з оптичним розпізнаванням символів.
Здатність Tarsier позначати інтерактивні елементи унікальними ідентифікаторами покращує розуміння мовної моделі. Цей ідентифікатор дозволяє великим мовним моделям розуміти елементи, з якими вони можуть взаємодіяти, наприклад, натискати кнопки, переходити за посиланнями або заповнювати поля введення. Цей метод тегування покращує розуміння і встановлює чіткий зв’язок між вибором великої мовної моделі та основними елементами на веб-сторінці.
Ще однією важливою особливістю Tarsier є здатність перетворювати скріншоти в просторово орієнтоване розпізнавання тексту OCR. Це дає змогу використовувати такі моделі, як GPT-4 або будь-яку іншу текстову велику мовну модель для веб-завдань, навіть за відсутності візуальних можливостей. Tarsier розширює горизонти застосування ШІ, дозволяючи мовним моделям взаємодіяти з Інтернетом, не покладаючись на зір.
Крім того, Tarsier надає набір рецептів, які демонструють, як інтегрувати його з відомими бібліотеками LLM, такими як Langchain та LlamaIndex, що спрощує процес адаптації. Ці посібники дозволяють користувачам безпосередньо ознайомитися з можливостями Tarsier, надаючи корисні приклади та ідеї.
Таким чином, Tarsier стає життєво важливим інструментом для розширення можливостей великих мовних моделей, надаючи їм засоби для вивчення і розуміння складнощів Інтернету за допомогою організованого представлення онлайн-елементів. Завдяки інструментам розпізнавання тексту ця можливість поширюється на текстові моделі, долаючи перешкоди і сприяючи створенню більш різноманітного та адаптивного середовища для штучного інтелекту.