15.07.2023 19:57
Метод штучного інтелекту пропонує сприйняттєву метрику якості для міжкадрової інтерполяції відеокадрів
Розвиток технологій дисплеїв зробив наше переглядання більш насиченим і приємним. Дивитися щось у форматі 4K 60FPS є надзвичайно задоволенням порівняно з 1080P 30FPS. Перший варіант занурює вас у контент так, ніби ви самі його спостерігаєте. Проте не кожен може насолоджуватися таким контентом, оскільки його складно випускати. Хвилина відео 4K 60FPS коштує близько в 6 разів дорожче, ніж 1080P 30FPS з точки зору обсягу даних, що недоступно багатьом користувачам.
Проте, можна вирішити цю проблему, збільшивши роздільну здатність та/або кадрову частоту відео. Методи супер-роздільності займаються збільшенням роздільної здатності відео, тоді як методи інтерполяції відеокадрів спрямовані на збільшення кількості кадрів у відео.
Інтерполяція відеокадрів використовується для додавання нових кадрів в послідовність відео шляхом оцінювання руху між наявними кадрами. Ця техніка широко використовується в різних застосуваннях, таких як повільне відео, конвертація кадрової частоти та стиснення відео. Результатом є відео, яке зазвичай виглядає більш приємним.
В останні роки дослідження з міжкадровою інтерполяцією відеокадрів зробили значний прогрес. Вони можуть генерувати проміжні кадри досить точно і забезпечувати приємний перегляд.
Однак, вимірювання якості результатів інтерполяції виявилося складним завданням на протязі багатьох років. Існуючі методи в основному використовують готові метрики для вимірювання якості результатів інтерполяції. Оскільки результати міжкадрової інтерполяції відеокадрів часто мають особливі артефакти, існуючі метрики якості іноді не узгоджуються зі сприйняттям людей при вимірюванні результатів інтерполяції.
Деякі методи проводили суб’єктивні тести для отримання більш точних вимірювань, але це займає багато часу, за винятком кількох методів, які використовують дослідження з використанням користувачів. Тому, як ми можемо точно виміряти якість нашого методу міжкадрової інтерполяції відео? Час відповісти на це питання.
Група дослідників представила спеціальну перцептивну метрику якості для вимірювання результатів міжкадрової інтерполяції відеокадрів. Вони розробили нову архітектуру нейронної мережі щоб оцінити сприйнятливу якість відео на основі Swin Transformers.
Мережа приймає на вхід пару кадрів – один з оригінальної послідовності відео та один інтерпольований кадр. Вона видає оцінку, що представляє сприйнятливу подібність між двома кадрами. Перший крок до досягнення такого типу мережі полягав у підготовці набору даних, і саме з цього вони почали. Вони побудували великий набір даних для вимірювання перцептивної подібності міжкадрової інтерполяції відеокадрів. Цей набір даних містить пари кадрів з різних відео, а також людські оцінки їх сприйнятливої подібності. Цей набір даних використовується для навчання мережі з використанням комбінації об’єктивних метрик L1 та SSIM.
Втрачена функція L1 вимірює абсолютну різницю між передбаченим значенням і значенням “правдивої” оцінки, тоді як функція SSIM вимірює структурну схожість між двома зображеннями. Комбінуючи ці дві функції, мережа навчається передбачати оцінки, які одночасно точні та узгоджені зі сприйняттям людей. Основною перевагою запропонованого методу є те, що він не залежить від еталонних кадрів, тому його можна виконувати на клієнтських пристроях, де зазвичай така інформація недоступна.