BTC$29880

ETH$3666

Шукати

Розширення можливостей керування під час синтезу тексту в музику

Сьогодні у сфері синтезу тексту і музики якість генерованого контенту постійно зростає, проте контроль над музичними елементами залишається майже недослідженим. Дослідники з Сінгапурського університету технологій та дизайну і Лондонського університету королеви Марії представляють Mustango як рішення цієї проблеми. Mustango базується на моделі перетворення тексту в аудіо Tango, впроваджуючи новий підхід до управління створеною музикою за допомогою розширених підписів, які включають конкретні інструкції, пов’язані з акордами, ударами, темпом і тональністю.

Mustango представлено як систему перетворення тексту в музику, побудовану на базі музичного досвіду, з використанням моделей дифузії. Дослідники підкреслюють унікальні виклики, з якими стикаються при створенні музики напряму з дифузійної моделі, наголошуючи на необхідності збалансувати узгодження з умовним текстом і музичністю. Ця система дозволяє музикантам, продюсерам і саунд-дизайнерам створювати музичні кліпи з точними умовами, такими як акордова послідовність, темп і вибір тональності.

Представлення моделі Мустанго. Такти і акорди виводяться з підпису, якщо вони не надані як вхідні дані. Джерело

У рамках Mustango дослідники пропонують MuNet, субмодуль UNet, що базується на знаннях про музичну галузь. MuNet інтегрує музичні особливості, передбачені на основі текстової підказки, включаючи акорди, долі, тональність і ритм, у процес дифузійного згладжування. Щоб вирішити проблему обмеженої доступності відкритих наборів даних з музикою і текстовими підписом, дослідники представили новий метод доповнення даних. Він передбачає зміну гармонійних, ритмічних і динамічних аспектів звуку та вилучення музичних характеристик за допомогою методів пошуку музичної інформації з текстів і додавання їх до існуючих текстових описів, в результаті чого і з’явився набір даних MusicBench.

Набір даних MusicBench налічує понад 52 000 екземплярів, збагачуючи оригінальні текстові описи бітами, місцями затримок, основними акордовими послідовностями, тональністю та темпом. Широкі експерименти демонструють, що Mustango досягає найсучаснішої якості музики і підтверджують його керованість завдяки специфічним для музики текстовим підказкам. Він демонструє чудову продуктивність у відтворенні бажаних акордів, ритмів, тональностей і темпу в різних наборах даних. Mustango перевершує Tango у сценаріях, де відсутні керуючі речення, що свідчить про те, що предиктори керування не впливають на продуктивність.

Порівняння з базовими алгоритмами, включаючи Tango і варіанти Mustango, ілюструє ефективність запропонованого способу доповнення даних у підвищенні продуктивності. Mustango, навчений з нуля, виявляється найкращим виконавцем, перевершуючи Tango та інші варіанти за якістю звуку, наявністю ритму і гармонії, маючи 1,4B параметрів.

На закінчення, Mustango являє собою значний прогрес у синтезі тексту до музики, усуваючи прогалину керованості в існуючих системах. Численні експерименти демонструють найсучаснішу якість музики та покращену керованість, що позиціонує його як цінний внесок у цю сферу.