28.11.2023 10:33
Покращення роздільної здатності вхідних даних та контекстної асоціації у великих мультимодальних моделях
Великі мультимодальні моделі (LMM) набирають поширення завдяки своїй здатності працювати з різними типами даних, включаючи текст і зображення. Дослідники спостерігають їхню ефективність у різних завданнях, таких як маркування зображень і візуальні відповіді на запитання. Однак залишаються проблеми, зокрема, з обробкою зображень високої роздільної здатності та забезпеченням належної якості навчальних даних.
Щоб вирішити ці проблеми, дослідники з Університету науки і технологій Хуачжун і компанії Kingsoft розробили Monkey — ресурсоефективний метод підвищення роздільної здатності вхідних даних у LMM. Monkey використовує вже існуючі LMM, уникаючи трудомісткого процесу попереднього навчання. Він використовує підхід «змінного вікна» для поділу зображень високої роздільної здатності на керовані ділянки, які потім кодуються індивідуально. Ці кодування потім подаються в мовний декодер разом із глобальним кодуванням зображення для кращого розуміння зображення.
Monkey демонструє кілька переваг:
- Контекстні асоціації: Багаторівневий метод генерування описів Monkey покращує здатність моделі розуміти взаємозв’язки між цілями і використовувати загальні знання, що призводить до більш глибоких описів.
- Підтримка зображень високої роздільної здатності: Monkey підтримує роздільну здатність до 1344×896 без попереднього навчання, що перевищує типову роздільну здатність LMM 448×448. Це дозволяє краще ідентифікувати і розуміти дрібні або щільно розміщені об’єкти і текст.
- Покращена продуктивність: На 16 наборах даних Monkey демонструє конкурентоспроможну продуктивність у таких завданнях, як підписи до зображень, загальні візуальні відповіді на запитання та візуальні відповіді на запитання, орієнтовані на документи.
На закінчення, Monkey пропонує перспективний підхід до розширення можливостей LMM, особливо в обробці зображень з високою роздільною здатністю і поліпшенні контекстного розуміння.