Авторы:
(1) Хуан Ф. Монтесинос, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {[email protected]};
(2) Ольга Слизовская, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {[email protected]};
(3) Глория Аро, факультет информационных и коммуникационных технологий Университета Помпеу Фабра, Барселона, Испания {[email protected]}.
Чтобы продемонстрировать пригодность Solos, мы сосредоточились на проблеме слепого разделения источников и обучили модели «Звук пикселей» (SoP) [23] и Multi-head U-Net (MHUNet) [34] на новом наборе данных. . Мы провели четыре эксперимента: i) мы оценили предварительно обученную модель SoP, предоставленную авторами; ii) мы обучили SoP с нуля; iii) мы точно настроили SoP для Solos, начиная с весов предварительно обученной модели для MUSIC, и iv) мы обучили Multi-head U-Net с нуля. MHU-Net был обучен разделять смеси с количеством источников от двух до семи в соответствии с процедурой обучения по учебной программе, поскольку это улучшает результаты. SoP был обучен в соответствии с оптимальной стратегией, описанной в [23].
Оценка выполняется на наборе данных URMP [1] с использованием реальных смесей, которые они предоставляют. Дорожки URMP последовательно разбиваются на сегменты длительностью 6 с. Метрики получаются из всех полученных разбиений.
A. Архитектура и детали обучения
Мы выбрали «Звук пикселей» в качестве базовой линии, поскольку его веса общедоступны, а сеть обучается простым способом. SoP состоит из трех основных подсетей: расширенной ResNet [35] как сети видеоанализа, U-Net [36] как сети обработки звука и сети аудиосинтезатора. Мы также сравниваем его результаты с Multi-head U-Net [34].
U-Net [37] представляет собой архитектуру кодера-декодера с пропуском соединений между ними. Пропуск соединений помогает восстановить исходную пространственную структуру. MHU-Net — это шаг вперед, поскольку он состоит из максимально возможного количества декодеров. Каждый декодер специализируется на одном источнике, что повышает производительность.
Sound of Pixels [23] не следует исходной архитектуре UNet, предложенной для биомедицинских изображений, а соответствует UNet, описанному в [36], который был настроен для разделения певческого голоса. Вместо двух сверток на блок с последующим максимальным объединением они используют одну свертку с
большее ядро и шагающий шаг. В исходной работе предлагается центральный блок с обучаемыми параметрами, тогда как центральный блок представляет собой статическое скрытое пространство в SoP. U-Net широко используется в качестве основы нескольких архитектур для таких задач, как генерация изображений [38], подавление шума и сверхразрешение [39], преобразование изображения в изображение [40], сегментация изображения [37] или источник звука. разделение [36]. SoP U-Net состоит из 7 блоков по 32, 64, 128, 256, 512, 512 и 512 каналов соответственно (6 блоков для MHU-Net). Скрытое пространство можно рассматривать как последний выход кодера. Dilated ResNet — это архитектура, подобная ResNet, которая использует расширенные свертки для сохранения рецептивного поля при одновременном увеличении результирующего пространственного разрешения. Выходные данные U-Net представляют собой набор из 32 спектральных компонентов (каналов), которые имеют тот же размер, что и входная спектрограмма в случае SoP, и один источник на декодер в случае MHU-Net. Учитывая репрезентативный кадр, визуальные особенности получаются с помощью Dilated ResNet. Эти визуальные признаки представляют собой не что иное, как вектор из 32 элементов (что соответствует количеству выходных каналов UNet), которые используются для выбора соответствующих спектральных компонентов. Этот выбор выполняется сетью аудиоанализа, которая состоит из 32 обучаемых параметров αk плюс смещение β. Математически эту операцию можно описать следующим образом:
где Sk(t, f) — k-й прогнозируемый спектральный компонент в интервале время-частота (t, f).
На рисунке 2 показана конфигурация SoP. Интересно подчеркнуть, что заставляя визуальную сеть выбирать спектральные компоненты, она заставляет ее косвенно изучать локализацию инструментов, о чем можно судить по картам активации.
Расчет маски истинности как для SoP, так и для MHU-Net описан в уравнении. (2) и уравнение. (3), разд. IV-С.
Б. Предварительная обработка данных
Для обучения вышеупомянутых архитектур звук повторно дискретизируется до 11025 Гц и 16 бит. Длительность выборок, подаваемых в сеть, составляет 6 с. Мы используем кратковременное преобразование Фурье (STFT) для получения частотно-временных представлений сигналов. Следуя [23], STFT вычисляется с использованием окна Хэннинга длиной 1022 и длиной скачка 256, так что мы получаем спектрограмму размером 512×256 для выборки длительностью 6 с. Позже мы применяем логарифмическое масштабирование по оси частот, расширяя более низкие частоты и сжимая более высокие. Наконец, мы конвертируем спектрограммы амплитуды в дБ относительно минимального значения каждой спектрограммы и нормализуем их между -1 и 1.
C. Маска базовой истины
Прежде чем перейти к вычислению базовой истинной маски, мы хотели бы отметить некоторые соображения. Стандартный аудиоформат с плавающей запятой предполагает, что форма сигнала будет ограничена значениями от -1 до 1. Во время создания искусственных смесей результирующие формы сигналов могут выходить за эти пределы. Это может помочь нейронным сетям найти ярлыки для переобучения. Чтобы избежать такого поведения, спектрограммы фиксируются в соответствии с эквивалентными границами в частотно-временной области.
Дискретное кратковременное преобразование Фурье можно вычислить, как описано в [42]:
Для обучения звуку пикселей мы использовали дополнительные бинарные маски в качестве масок базовой истины, определяемые как:
Multi-head U-Net обучен с использованием дополнительных масок отношений, определяемых как:
Д. Результаты
Результаты эталонных тестов для отношения источника к искажению (SDR), отношения источника к помехам (SIR), отношения источников к артефактам (SAR), предложенных в [43], показаны в Таблице II в виде среднего и стандартного отклонения. Как можно заметить, звук пикселей, оцененный с использованием исходных весов, показывает худшие результаты. Одной из возможных причин этого может быть отсутствие некоторых категорий URMP в наборе данных MUSIC. Если мы обучим сеть с нуля на Solos, результаты улучшатся почти на 1 дБ. Однако можно добиться еще лучшего результата, настроив на Solos сеть, предварительно обученную МУЗЫКОЙ. Мы предполагаем, что улучшение происходит по мере того, как сеть получает гораздо больше обучающих данных. Более того, результаты таблицы показывают, как можно достичь более высокой производительности, используя более мощные архитектуры, такие как MHU-Net.
Этот документ доступен на arxiv под лицензией CC BY-NC-SA 4.0 DEED.