18.04.2024 15:53
Hugging Face представила Idefics2, що підвищує ефективність мультимодального ШІ
Розвиток штучного інтелекту відкрив нову еру складних аналітичних інструментів, здатних обробляти складні цифрові взаємодії, що охоплюють різні типи даних, такі як зображення і текст. Інтеграція цих типів даних у цілісні моделі має вирішальне значення для широкого спектра застосувань, включаючи автоматизовану генерацію контенту і вдосконалені інтерактивні системи. Останні досягнення в дослідженнях призвели до розробки потужних мультимодальних моделей, таких як LLaVa-NeXT, MM1 і нещодавня розробка Idefics2, які готові докорінно змінити спосіб обробки й розуміння ШІ мультимодальних даних.
Моделі серії LLaVa-NeXT і MM1 вже стали зразками у сфері візуальних рішень та інтеграції між зображеннями та текстом. Ці моделі продемонстрували надійні можливості для ефективного вирішення мультимодальних завдань. Крім того, моделі Gemini, такі як Gemini 1.0 Pro і DeepSeek-VL, сприяли розширенню меж продуктивності штучного інтелекту в складних завданнях.
Однак впровадження Idefics2 від дослідників Hugging Face є значним стрибком вперед у галузі мультимодального ШІ. На відміну від попередніх моделей, які вимагали зміни розміру зображень до фіксованих розмірів, що потенційно погіршувало якість візуальних даних, Idefics2 використовує стратегію NaViT, що дозволяє йому обробляти візуальну інформацію з більшою точністю і деталізацією. Цей підхід у поєднанні з навченим алгоритмом об’єднання перцепторів і проекцією модальності багатошарового персептрона дозволяє Idefics2 досягти глибшого розуміння мультимодальних вхідних даних, що робить його універсальною і потужною моделлю мови технічного зору.
Навчання та доопрацювання Idefics2 на різноманітних наборах даних, включаючи вебдокументи, пари «зображення-підпис», дані оптичного розпізнавання символів та набір даних «The Cauldron», що складається з 50 курованих мультимодальних наборів даних, значно покращили її продуктивність при виконанні різноманітних завдань. Версії моделі, включаючи Idefics2-8B-Base, Idefics2-8B і майбутню Idefics2-8B-Chatty, задовольняють різні сценарії, від загальних мультимодальних завдань до довготривалих взаємодій і діалогових додатків.
Одне з помітних поліпшень Idefics2 порівняно з її попередницею, Idefics1, полягає в тому, що вона здатна обробляти зображення з власною роздільною здатністю, що зберігає цілісність візуальних даних. Модель також демонструє розширені можливості розпізнавання тексту, що призводить до підвищення точності розшифровки тексту і зниження рівня помилок, роблячи її дуже придатною для практичних застосувань, пов’язаних з точним видобуванням та інтерпретацією тексту.
Під час тестування Idefics2 продемонстрував виняткову продуктивність, досягнувши значного підвищення точності у візуальних відповідях на запитання (VQA) та завданнях розпізнавання на основі документів порівняно з попередніми моделями. Ці досягнення підкреслюють потенціал моделі для створення більш точних і ефективних застосувань штучного інтелекту в різних галузях, що вимагають складного мультимодального аналізу.