BTC$29880

ETH$3666

Шукати

Google AI запропонував модель, здатну до точної локалізації та адаптації до мови зору

Великі мовні моделі (LLM) використовують переваги таких підгалузей ШІ, як обробка природної мови (NLP) та комп’ютерний зір, що дозволяє створювати моделі мови зору для розуміння складних зображень та опису природною мовою. Однак питання про те, чи можуть LLM досягти успіху в завданнях локалізації, залишається без відповіді.

Вирішуючи цю проблему, команда з Google Research та Каліфорнійського університету в Сан-Дієго представила PixelLLM — інтелектуальну модель, призначену для тонкої локалізації та узгодження мови зору. Натхненна природною поведінкою людини, особливо немовлят, які використовують жести та указування, PixelLLM має на меті навчити LLM просторовому розумінню та міркуванням на основі візуальних вхідних даних.

Запропоновано модель мови, вирівняну за пікселями (Pixel-Aligned Language Model, PixelLLM), щоб забезпечити великі мовні моделі можливістю локалізації. Модель попередньо навчається на даних локалізованих підписів до зображень, де кожне слово позначено розташуванням пікселя, щоб вивчити відповідність між словами та пікселями зображення. PixelLLM можна застосовувати для різних завдань локалізації, наприклад, для створення субтитрів з прив’язкою до місцезнаходження, коли на вхід надходять дані про місцезнаходження, і для локалізації за посиланнями, коли на виході генеруються дані про місцезнаходження. Джерело

PixelLLM досягає щільного поєднання кожного виведеного слова з розташуванням пікселів за допомогою невеликого багатошарового персептрона (MLP), розміщеного поверх ознак слова, що дозволяє регресувати до розташування пікселів кожного слова. Використання низькорангового налаштування (LoRA) дозволяє адаптивно оновлювати або заморожувати ваги мовної моделі. Модель вміщує текстові підказки або підказки про місцезнаходження, адаптуючи вихідні дані відповідно до них.

Архітектура включає в себе кодер зображення, кодер підказок і екстрактор підказок, що забезпечує велику мовну модель характеристиками зображення, зумовленими підказками, для універсальних завдань мови технічного зору. Оцінка щільних об’єктних субтитрів, субтитрів, обумовлених місцем розташування, та локалізації посилань демонструє найсучаснішу продуктивність PixelLLM з такими показниками, як 89,8 P@0.5 на RefCOCO, 19,9 CIDEr на Visual Genome та 17,0 mAP на щільних об’єктних субтитрах. Дослідження абляції показують перевагу PixelLLM у щільній попіксельній локалізації, що забезпечує його успіх у точному вирівнюванні та локалізації мови зору.

Основний внесок:

  • Впровадження PixelLLM, моделі мови технічного зору для локалізації слів і підписів до зображень.
  • Підтримка тексту або додаткових підказок про місцезнаходження поряд із введенням зображень.
  • Використання локалізованого наративного набору даних для навчання локалізації кожного слова.
  • Адаптивність до різноманітних завдань, пов’язаних із мовою технічного зору, зокрема сегментація, субтитрування з прив’язкою до місцезнаходження, локалізація за посиланнями та щільне субтитрування.
  • Продемонстровані чудові результати в локалізації субтитрів, щільних субтитрів, референтній локалізації та сегментації.