paint-brush
Соло: набор данных для аудиовизуального анализа музыки - Набор данныхк@kinetograph
171 чтения

Соло: набор данных для аудиовизуального анализа музыки - Набор данных

Слишком долго; Читать

В этой статье исследователи представляют Solos, чистый набор данных сольных музыкальных выступлений для обучения моделей машинного обучения различным аудиовизуальным задачам.
featured image - Соло: набор данных для аудиовизуального анализа музыки - Набор данных
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Авторы:

(1) Хуан Ф. Монтесинос, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {[email protected]};

(2) Ольга Слизовская, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {[email protected]};

(3) Глория Аро, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {[email protected]}.

Таблица ссылок

III. НАБОР ДАННЫХ

Solos[1] был разработан с учетом тех же категорий, что и набор данных URMP [1], так что URMP можно использовать в качестве набора данных для тестирования в реальном сценарии. Таким образом, мы стремимся установить стандартный способ оценки производительности алгоритмов разделения источников, избегая использования метода «смешивай и разделяй» при тестировании. Соло состоит из 755 записей, распределенных по 13 категориям, как показано на рисунке 1, со средним количеством записей 58 на категорию и средней продолжительностью 5:16 минут. Интересно отметить, что для 8 из 13 категорий медианное разрешение — HD, несмотря на то, что это набор данных, собранный на YouTube. Статистику по категориям можно найти в Таблице I. Эти записи были собраны путем запроса YouTube с использованием тегов «соло» и прослушиваний на нескольких языках, таких как английский, испанский, французский, итальянский, китайский или русский.


А. Скелеты OpenPose


Solos – это не только набор записей. Помимо идентификаторов видео, мы также предоставляем: i) скелеты тела и рук, оцененные OpenPose [33] в каждом кадре каждой записи, и ii) временные метки, указывающие полезные части. OpenPose - система, способная прогнозировать скелет тела и скелеты рук.


ТАБЛИЦА СТАТИСТИКА НАБОРА ДАННЫХ СОЛОС


используя две разные нейронные сети. Для этого они прогнозируют карту достоверности уверенности в том, что определенная часть тела может быть расположена в любом заданном пикселе, а также поля сходства частей, которые кодируют степень связи между различными частями тела. Наконец, он прогнозирует 2D-скелеты и достоверность каждого сустава посредством жадного вывода. На практике скелет тела оценивается с помощью первой сети. Затем положение запястий в скелете тела используется для оценки положения обеих рук. Вторая нейронная сеть получает скелет каждой руки независимо. Обратите внимание: поскольку каждая часть тела оценивается независимо, OpenPose не делает никаких предположений относительно конечностей, которые нужно найти. Он просто вычисляет наиболее вероятный скелет с учетом карт достоверности и полей сходства частей. Весь процесс осуществляется по кадрам. Это приводит к небольшому мерцанию и неточностям между кадрами.


B. Оценка временных меток и уточнение скелета



OpenPose сопоставляет неправильно предсказанные суставы с началом координат. Мы эмпирически установили, что такой большой скачок положения сустава вызывает шум. Использование интерполированных координат помогает решить эту проблему.


Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.


[1] Набор данных доступен по адресу https://juanfmontesinos.github.io/Solos/.