28.07.2023 16:40
Покращення розпізнавання людських дій у віртуальній реальності
Розпізнавання людських дій на основі скелета – це сфера комп’ютерного зору, яка ідентифікує дії людини, аналізуючи положення суглобів скелета на основі відеоданих. Він використовує моделі машинного навчання для розуміння часової динаміки та просторових конфігурацій, що уможливлює застосування у сферах спостереження, охорони здоров’я, спортивного аналізу тощо.
З моменту виникнення цього напряму досліджень вчені дотримувалися двох основних стратегій. Перша стратегія – це ручні методи: Ці ранні методи застосовували тривимірні геометричні операції для створення зображень дій, які вводилися в класичні класифікатори. Однак вони потребують допомоги людини для вивчення високорівневих сигналів дій, що призводить до застарілої продуктивності. Друга стратегія – методи глибокого навчання: Нещодавні досягнення в галузі глибинного навчання зробили революцію в розпізнаванні дій. Найсучасніші методи зосереджені на створенні образів, які відображають просторову топологію та часові кореляції руху. Зокрема, графові згорткові мережі (GCN) стали потужним рішенням для розпізнавання дій на основі скелетів, що дало вражаючі результати в різних дослідженнях.
У цьому контексті нещодавно було опубліковано нову статтю, в якій запропоновано новий підхід, що отримав назву “скелетна згорткова мережа графів уваги з великим ядром” (LKA-GCN). Він вирішує дві основні проблеми розпізнавання дій на основі скелетних мереж:
- Довгострокові залежності: LKA-GCN вводить скелетний оператор уваги великого ядра (SLKA) для ефективного захоплення довгострокових кореляцій між вузлами, долаючи проблему надмірного згладжування в існуючих методах.
- Цінна часова інформація: LKA-GCN використовує стратегію ручного моделювання руху з’єднань (JMM), щоб зосередитися на кадрах зі значними рухами з’єднань, покращуючи тимчасові характеристики і підвищуючи точність розпізнавання.
Запропонований метод використовує просторово-часове графове моделювання даних скелета у вигляді діаграми, де просторова діаграма відображає природну топологію людських зчленувань, а часова діаграма кодує кореляції одного і того ж зчленування на сусідніх кадрах. Графове представлення генерується на основі даних скелету – послідовності 3D-координат, що представляють людські зчленування з динамікою в часі. Автори представили оператор SLKA, який поєднує механізми самоуваги з великоядерними згортками, щоб ефективно фіксувати довгострокові залежності між людськими зчленуваннями. Він агрегує непрямі залежності за допомогою більшого сприйнятливого поля, мінімізуючи при цьому обчислювальні витрати. Крім того, LKA-GCN включає стратегію JMM, яка фокусується на інформативних часових характеристиках шляхом обчислення еталонних кадрів, що відображають середні рухи між з’єднаннями в локальних діапазонах. LKA-GCN складається з просторово-часових модулів SLKA і головки розпізнавання, що використовує стратегію багатопотокового злиття для підвищення ефективності розпізнавання. Нарешті, метод використовує багатопотоковий підхід, розділяючи дані скелета на три потоки: потік зчленуваннь, потік кісток і потік рухів.
Щоб оцінити LKA-GCN, автори використовували різні експерименти для проведення експериментального дослідження на трьох наборах даних розпізнавання дій на основі скелетів (NTU-RGBD 60, NTU-RGBD 120 і Kinetics-Skeleton 400). Метод порівнюється з базовою лінією і аналізується вплив різних компонентів, таких як оператор SLKA і стратегія Моделювання руху зчленуваннь (JMM). Також досліджується стратегія двопотокового злиття. Експериментальні результати показують, що LKA-GCN перевершує найсучасніші методи, демонструючи свою ефективність у фіксації довготривалих залежностей і підвищенні точності розпізнавання. Візуальний аналіз додатково підтверджує здатність методу фіксувати семантику дії та спільні залежності.
Таким чином, LKA-GCN вирішує ключові проблеми розпізнавання дій на основі скелету, фіксуючи довгострокові залежності та цінну часову інформацію. Завдяки оператору SLKA і стратегії JMM, LKA-GCN перевершує найсучасніші методи в експериментальних оцінках. Його інноваційний підхід обіцяє більш точне і надійне розпізнавання дій в різних додатках. Однак дослідницька група визнає деякі обмеження. Вони планують розширити свій підхід, включивши в нього такі модальності даних, як карти глибини і хмари точок, для кращої ефективності розпізнавання. Крім того, вони прагнуть оптимізувати ефективність моделі, використовуючи стратегії дистиляції знань для задоволення промислових потреб.