14.09.2023 14:12
Вчимося розрізняти зображення схожих структур за допомогою доппельгангерів
Проблема розрізнення ідентичних і схожих зображень подібна до розрізнення близнюків, які мають тонкі відмінності, що їх важко розрізнити. У сфері систем комп’ютерного зору, особливо в задачах геометричного зору, таких як 3D-реконструкція, ця проблема набуває особливого значення. Вона полягає у визначенні того, чи два зображення представляють одну і ту ж 3D поверхню, чи дві різні, але візуально схожі поверхні — завдання, відоме як “візуальна диз’юнкція”. Точне візуальне розрізнення має вирішальне значення для створення правильних 3D-моделей.
Щоб вирішити цю проблему, дослідники з Корнельського університету представили новий набір даних під назвою “Doppelgangers”. Цей набір даних містить пари зображень, де одні пари показують ту саму поверхню (позитиви), а інші — дві різні, але візуально схожі поверхні (негативи). Створення набору даних Doppelgangers було складним завданням, оскільки навіть людині важко розрізнити ідентичні та схожі зображення. Дослідники використали існуючі анотації до зображень з бази даних Вікісховища, щоб автоматично згенерувати великий набір позначених пар зображень.
Ось короткий опис внеску та методології:
- Ключові моменти та збіги вилучаються з пари зображень за допомогою методів зіставлення ознак. Слід зазначити, що зображення в цьому сценарії представляють негативну пару, що демонструє протилежні сторони Тріумфальної арки. Збіги ознак зосереджені переважно у верхній частині споруди, яка містить елементи, що повторюються, на відміну від нижньої частини зі скульптурами.
- Створено бінарні маски для ключових точок і збігів. Пара зображень і маски вирівнюються за допомогою афінного перетворення на основі виявлених збігів.
- Використовується класифікатор, який приймає конкатенацію зображень і бінарних масок як вхідні дані і виробляє вихідну ймовірність. Ця ймовірність вказує на ймовірність того, що дана пара є позитивним збігом.
- Однак навчання моделі глибокої мережі безпосередньо на цих парах необроблених зображень дало незадовільні результати. Для вирішення цієї проблеми було розроблено спеціалізовану мережеву архітектуру, що включає локальні особливості та 2D-відповідність для покращення продуктивності візуального розрізнення.
- При оцінці за допомогою тестового набору Doppelgangers цей підхід демонструє вражаючу продуктивність у вирішенні складних завдань розрізнення. Він зі значним відривом перевершує базові методи та альтернативні мережеві дизайни. Крім того, в дослідженні вивчається використання навченого класифікатора як фільтра попередньої обробки в обчисленнях графів сцен в рамках конвеєрів “структура з руху”, таких як COLMAP.
- Отже, це дослідження пропонує цінну інформацію та інструменти для підвищення надійності і точності систем комп’ютерного зору, особливо в задачах, пов’язаних з 3D-реконструкцією і візуальною диз’юнкцією. Воно має багатообіцяючі застосування в реальних сценаріях, які вимагають точного розпізнавання і реконструкції поверхонь.