16.09.2024 15:30

HuggingFace опублікувала FineVideo який містить 43 751 відео з YouTube

Компанія Hugging Face досягла значних успіхів в аналізі відео на основі ШІ, створивши FineVideo — великий набір даних, орієнтований на мультимодальне навчання. FineVideo містить понад 43 000 відео з YouTube, ретельно відібраних відповідно до ліцензій Creative Commons Attribution, що перетворює базу даних на важливий ресурс для дослідників і розробників ШІ, які прагнуть покращити здатність аналізувати відео, оцінювати настрій і складати мультимедійні сценарії.

Розробка FineVideo спрямована на задоволення потреби у вивченні складних відеоданих в епоху домінування візуального контенту. Багатьом наборам даних бракує глибини, необхідної для розуміння емоційних, візуальних і наративних елементів, важливих для всебічного аналізу відео. FineVideo заповнює цю прогалину, дозволяючи дослідникам досліджувати різноманітні деталі — від зміни настрою до сюжетних ходів, забезпечуючи основу для навчання моделей штучного інтелекту, здатних аналізувати відео з урахуванням нюансів і контексту.

З початкового пулу з 1,8 млн відео було відібрано динамічну та різноманітну добірку, придатну для створення змістовних часових анотацій. Джерело

FineVideo відмінно справляється зі складними відеозадачами, такими як сегментація сцени, розпізнавання об’єктів і кореляція настрою між аудіо та візуальними ефектами. Набір даних включає не тільки технічні деталі, такі як роздільна здатність і частота кадрів, але й контекстні елементи, такі як взаємодія персонажів і динаміка сцени, що збагачує потенціал для розширених додатків. Це робить FineVideo чудовим інструментом для попереднього навчання великих моделей або точного налаштування спеціалізованих завдань з обробки відео.

FineVideo містить понад 43 000 відеороликів і пропонує приблизно 3425 годин контенту, кожне з яких в середньому триває 4,7 хвилини та розподілене на 122 категорії. Кожне відео супроводжується детальними метаданими, включаючи транскрипції та анотації на рівні часового коду, які висвітлюють дії, об’єкти та зміни настрою. Такий акцент на емоційній подачі матеріалу та наративному потоці відрізняє FineVideo від звичайних наборів відеоданих, дозволяючи більш просунуте мультимодальне навчання.

FineVideo відкриває широкий спектр можливостей — від узагальнення відео та прогнозування настрою до аналізування сюжетів. Його метадані дозволяють створювати моделі штучного інтелекту, які розуміють сюжетні лінії відео, фіксуючи ключові моменти, такі як повороти сюжету. Ця можливість є неоцінною в таких галузях, як редагування медіа, де розуміння емоційних дуг має вирішальне значення. Крім того, FineVideo корисний для завдань на основі відео, де моделі ШІ можуть надавати контекстно-залежні відповіді, наприклад, ідентифікувати конкретні об’єкти або дії.

Hugging Face також наголошує на відповідальному використанні. FineVideo була розроблена з метою мінімізації упередженості та сприяння етичному використанню відеоданих, хоча вона визнає, що деякі упередження, пов’язані з оригінальним контентом YouTube, можуть зберігатися. Платформа пропонує механізм відмови для творців контенту, чиї відео містять конфіденційну інформацію, що відповідає ширшим зобов’язанням Hugging Face щодо етичного використання ШІ та управління даними.

FineVideo розміщено на Hugging Face, що забезпечує легкий доступ до набору даних та його інтерактивного середовища для перегляду відео та метаданих. Користувачі можуть завантажити набір даних або отримати доступ до нього через потокове передавання, щоб уникнути завантаження непотрібних даних. Щоб користуватися набором даних, користувачі повинні погодитися з його умовами використання, включаючи належне зазначення авторів відео відповідно до ліцензії CC-BY.

У майбутньому Hugging Face планує розширити FineVideo, додавши більше анотованих відео та вдосконаливши метадані. Команда також прагне випустити код конвеєра даних, заохочуючи вдосконалення, керовані спільнотою. Оскільки відеоконтент домінує на цифрових платформах, FineVideo слугує фундаментальним ресурсом для побудови складніших і контекстно орієнтованих моделей ШІ.