27.05.2024 18:50
UT Austin та Google Research розробили OmniGlue
Локальні методи порівняння зображень визначають деталізовану візуальну схожість між зображеннями. Однак, попри прогрес у цій галузі, багато моделей порівняння зображень, які спираються на широкі спектри навчальних даних в конкретних візуальних розділах, погано працюють з даними з інших розділів, у порівнянні з традиційними методами. Враховуючи високу вартість збору високоякісних пошукових даних, нереалістично очікувати великих наборів інформації для кожної області зображень. Тому дуже важливо розробляти архітектурні вдосконалення та узагальнювати алгоритми зіставлення, що піддаються навчанню.
До появи глибокого навчання багато досліджень були зосереджені на створенні узагальнених локальних ознак моделі. Такі методи, як SIFT, SURF і ORB, широко використовувалися для порівняння зображень у різних областях. Ефективними виявилися методи розрідженого зіставлення, такі як SuperGlue, що використовує SuperPoint для виявлення ключових точок і механізми уваги для поширення ознак. Крім того, методи щільного порівняння зображень вивчають опис зображення і модулі порівняння, щоб виконати по піксельне порівняння для цілих зображень.
Дослідники з Техаського університету в Остіні та Google Research запровадили рішення під назвою OmniGlue, перше програмне забезпечення для зіставлення зображень, що здатне навчатися, в основу якого покладено принцип узагальнення. Для покращення узагальнення шарів, що порівнюються, дослідники запровадили два методи: орієнтація на модель основи та орієнтація на ключову точку і позицію уваги. OmniGlue використовує ці методи для покращення узагальнення в сценаріях поза розподілом, зберігаючи при цьому продуктивність у вихідній області. Основна модель, DINO, керує процесом розповсюдження ознак між зображеннями завдяки своїй високій продуктивності на різноманітних зображеннях.
Результати показали, що OmniGlue перевершує SuperGlue на даних всередині домену і демонструє краще узагальнення. SuperGlue значною мірою покладається на вивчені шаблони, пов’язані з позиціями зображень, і бореться зі спотвореннями, пов’язаними з викривленням зображення, демонструючи значне зниження точності та запам’ятовування на 20% завдяки мінімальним зсувам розподілу даних. На противагу цьому, OmniGlue демонструє сильні узагальнювальні здібності, покращуючи точність на 12%, а запам’ятовування на 14%. На додаток, OmniGlue перевершує SuperGlue з відносним приростом на 12,3% на MegaDepth-500 і 15% поліпшенням пригадування при переході з SH200 на MegaDepth.