14.09.2023 14:12

Вчимося розрізняти зображення схожих структур за допомогою доппельгангерів

Проблема розрізнення ідентичних і схожих зображень подібна до розрізнення близнюків, які мають тонкі відмінності, що їх важко розрізнити. У сфері систем комп’ютерного зору, особливо в задачах геометричного зору, таких як 3D-реконструкція, ця проблема набуває особливого значення. Вона полягає у визначенні того, чи два зображення представляють одну і ту ж 3D поверхню, чи дві різні, але візуально схожі поверхні — завдання, відоме як “візуальна диз’юнкція”. Точне візуальне розрізнення має вирішальне значення для створення правильних 3D-моделей.

На цих парах зображень ви бачите різні, але візуально схожі 3D-поверхні. Чи можете ви помітити відмінності та розрізнити два зображення в кожній парі? Такі ілюзорні збіги зображень можуть ввести в оману людей, а також обдурити алгоритми 3D реконструкції, змусивши їх думати, що вони мають спільну 3D-відповідність. Новий метод дозволяє відрізнити такі хибні збіги від пар зображень, які справді мають однакову структуру. Джерело

Щоб вирішити цю проблему, дослідники з Корнельського університету представили новий набір даних під назвою “Doppelgangers”. Цей набір даних містить пари зображень, де одні пари показують ту саму поверхню (позитиви), а інші — дві різні, але візуально схожі поверхні (негативи). Створення набору даних Doppelgangers було складним завданням, оскільки навіть людині важко розрізнити ідентичні та схожі зображення. Дослідники використали існуючі анотації до зображень з бази даних Вікісховища, щоб автоматично згенерувати великий набір позначених пар зображень.

Огляд методу. (a) Маючи пару зображень, ми виділяємо ключові точки та збіги за допомогою методів зіставлення ознак. Зверніть увагу, що це це негативна пара зображень, на яких зображені протилежні сторони Тріумфальної арки. Збіги за ознаками знаходяться переважно у верхній частині де є елементи, що повторюються, на відміну від скульптур у нижній частині. (b) Ми створюємо бінарні маски ключових точок і збігів. Потім ми вирівнюємо пару зображень і маски за допомогою афінного перетворення, розрахованого на основі збігів. (c) Наш класифікатор бере конкатенацію зображень і бінарних масок на вхід і виводить ймовірність того, що дана пара є позитивною. Джерело

Ось короткий опис внеску та методології:

Ключові моменти та збіги вилучаються з пари зображень за допомогою методів зіставлення ознак. Слід зазначити, що зображення в цьому сценарії представляють негативну пару, що демонструє протилежні сторони Тріумфальної арки. Збіги ознак зосереджені переважно у верхній частині споруди, яка містить елементи, що повторюються, на відміну від нижньої частини зі скульптурами.
Створено бінарні маски для ключових точок і збігів. Пара зображень і маски вирівнюються за допомогою афінного перетворення на основі виявлених збігів.
Використовується класифікатор, який приймає конкатенацію зображень і бінарних масок як вхідні дані і виробляє вихідну ймовірність. Ця ймовірність вказує на ймовірність того, що дана пара є позитивним збігом.
Однак навчання моделі глибокої мережі безпосередньо на цих парах необроблених зображень дало незадовільні результати. Для вирішення цієї проблеми було розроблено спеціалізовану мережеву архітектуру, що включає локальні особливості та 2D-відповідність для покращення продуктивності візуального розрізнення.
При оцінці за допомогою тестового набору Doppelgangers цей підхід демонструє вражаючу продуктивність у вирішенні складних завдань розрізнення. Він зі значним відривом перевершує базові методи та альтернативні мережеві дизайни. Крім того, в дослідженні вивчається використання навченого класифікатора як фільтра попередньої обробки в обчисленнях графів сцен в рамках конвеєрів “структура з руху”, таких як COLMAP.
Отже, це дослідження пропонує цінну інформацію та інструменти для підвищення надійності і точності систем комп’ютерного зору, особливо в задачах, пов’язаних з 3D-реконструкцією і візуальною диз’юнкцією. Воно має багатообіцяючі застосування в реальних сценаріях, які вимагають точного розпізнавання і реконструкції поверхонь.