155 чтения

Соло: набор данных для аудиовизуального музыкального анализа — соответствующая работа

к Kinetograph: The Video Editing Technology Publication3m2024/06/08

Слишком долго; Читать

В этой статье исследователи представляют Solos, чистый набор данных сольных музыкальных выступлений для обучения моделей машинного обучения различным аудиовизуальным задачам.

featured image - Соло: набор данных для аудиовизуального музыкального анализа — соответствующая работа

Авторы:

(1) Хуан Ф. Монтесинос, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {juanfelipe.montesinos@upf.edu};

(2) Ольга Слизовская, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {olga.slizovskaia@upf.edu};

(3) Глория Аро, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {gloria.haro@upf.edu}.

Таблица ссылок

II. СВЯЗАННЫХ С РАБОТОЙ

Набор данных мультимодального музыкального исполнения (URMP) Рочестерского университета [1] представляет собой набор данных, содержащий 44 многоинструментальные видеозаписи произведений классической музыки. Каждый инструмент, присутствующий в произведении, был записан отдельно, как с видео, так и с высококачественным звуком с помощью отдельного микрофона, чтобы обеспечить достоверность отдельных треков. Несмотря на то, что инструменты играли по отдельности, они координировались с помощью дирижерского видео с игрой пианиста, чтобы установить общий ритм для разных исполнителей. После синхронизации звук отдельных видео был заменен высококачественным звуком микрофона, а затем были собраны различные записи для создания смеси: отдельные высококачественные аудиозаписи были добавлены для создания звуковой смеси и визуального контента. был объединен в одно видео с общим фоном, где все игроки были расположены на одном уровне слева направо. Для каждого произведения набор данных предоставляет партитуру в формате MIDI, высококачественные аудиозаписи отдельных инструментов и видео собранных произведений. Инструменты, представленные в наборе данных, показанном на рисунке 1, являются обычными инструментами в камерных оркестрах. Несмотря на все свои хорошие характеристики, это небольшой набор данных, поэтому он не подходит для обучения архитектур глубокого обучения.

Недавно были представлены два других набора данных аудиовизуальных записей исполнения музыкальных инструментов: Music [23] и MusicES [31]. Музыка состоит из 536 записей соло и 149 видео дуэтов в 11 категориях: аккордеон, акустическая гитара, виолончель, кларнет, эрху, флейта, саксофон, труба, туба, скрипка и ксилофон. Этот набор данных был собран путем запроса YouTube. MusicES [31] — это расширение MUSIC примерно в три раза по сравнению с первоначальным размером примерно с 1475 записями, но вместо этого оно распределено по 9 категориям: аккордеон, гитара, виолончель, флейта, саксофон, труба, туба, скрипка и ксилофон. В МУЗЫКЕ и соло есть 7 общих категорий: скрипка, виолончель, флейта, кларнет, саксофон, труба и туба. Общими категориями MusicES и Solos являются 6 (первые, кроме кларнета). Соло и MusicES дополняют друг друга. Между ними существует лишь небольшое пересечение в 5%, что означает, что оба набора данных можно объединить в один более крупный.

В литературе можно найти несколько примеров, показывающих полезность наборов аудиовизуальных данных. Звук пикселей [23] выполняет разделение источников звука, генерируя спектральные компоненты звука, которые в дальнейшем разумно выбираются с использованием визуальных характеристик, поступающих из видеопотока, для получения отдельных источников. Эта идея была дополнительно расширена в [20] для того, чтобы рекурсивно разделить различные звуки, присутствующие в смеси. На каждом этапе система отделяет наиболее заметный источник от оставшихся в смеси. В «Звуке движений» [19] используются плотные траектории, полученные из оптического потока, для обеспечения разделения источников звука, что позволяет

даже для разделения одноинструментальных смесей. Визуальное кондиционирование также используется в [18] для разделения различных инструментов; во время обучения потери классификации используются для разделенных звуков, чтобы обеспечить согласованность объектов, а потери совместного разделения заставляют оцененные отдельные звуки создавать исходные смеси после повторной сборки. В [17] авторы разработали метод, основанный на энергии, который минимизирует член неотрицательной матричной факторизации с матрицей активации, которая принудительно выравнивается с матрицей, содержащей информацию о движении для каждого источника. Эта матрица движения содержит средние скорости сгруппированных траекторий движения в ограничивающей рамке каждого игрока.

Недавние работы показывают рост использования скелетов в аудиовизуальных задачах. В работе «Динамика звука к телу» [29] авторы показывают, что можно предсказать скелеты, воспроизводящие движения игроков, играющих на таких инструментах, как фортепиано или скрипка. Скелеты оказались полезными для установления аудиовизуальных соответствий, таких как движения тела или пальцев с началом нот или колебаниями высоты тона, в исполнениях камерной музыки [21]. Недавняя работа [32] решает проблему разделения источников аналогично «Звуку движений» [19], но заменяет плотные траектории скелетной информацией.