paint-brush
Solos:视听音乐分析数据集 - 实验经过@kinetograph
132 讀數

Solos:视听音乐分析数据集 - 实验

太長; 讀書

在本文中,研究人员介绍了 Solos,这是一套干净的独奏音乐表演数据集,用于训练各种视听任务的机器学习模型。
featured image - Solos:视听音乐分析数据集 - 实验
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

作者:

(1)Juan F. Montesinos,西班牙巴塞罗那庞培法布拉大学信息与通信技术系{[email protected]};

(2)Olga Slizovskaia,西班牙巴塞罗那庞培法布拉大学信息与通信技术系{[email protected]};

(3)Gloria Haro,西班牙巴塞罗那庞培法布拉大学信息与通信技术系{[email protected]}。

链接表

IV. 实验

为了证明 Solos 的适用性,我们专注于盲源分离问题,并在新数据集上训练了像素之声 (SoP) [23] 和多头 U-Net (MHUNet) [34] 模型。我们进行了四个实验:i)我们评估了作者提供的 SoP 预训练模型;ii)我们从头开始训练 SoP;iii)我们从 MUSIC 上的预训练模型的权重开始在 Solos 上对 SoP 进行微调;iv)我们从头开始训练多头 U-Net。MHU-Net 已接受过训练,可分离混合信号,其源数量从两个到七个不等,遵循课程学习程序可改善结果。SoP 已根据 [23] 中描述的最佳策略进行训练。


使用 URMP 数据集 [1] 提供的真实混合数据进行评估。URMP 轨迹按顺序分割为 6 秒持续时间的片段。从所有分割结果中获取指标。


A. 架构和训练细节


我们选择《像素之声》作为基准,因为它的权重是公开的,并且网络以直接的方式进行训练。SoP 由三个主要子网络组成:扩张的 ResNet [35] 作为视频分析网络、U-Net [36] 作为音频处理网络和音频合成器网络。我们还将其结果与多头 U-Net [34] 进行了比较。


U-Net [37] 是一种编码器-解码器架构,其间有跳跃连接。跳跃连接有助于恢复原始空间结构。MHU-Net 向前迈进了一步,因为它包含尽可能多的解码器作为源。每个解码器都专门针对单个源,从而提高了性能。


Sound of Pixels [23] 并未采用最初为生物医学成像提出的 UNet 架构,而是采用了 [36] 中描述的 UNet,该架构经过调整,可用于歌唱语音分离。他们没有在每个块中使用两个卷积,然后进行最大池化,而是使用单个卷积


图 2. 考虑的架构。左图,像素声音:网络以混合频谱图作为输入,并根据所需源的视觉特征向量返回二进制掩码。右图,多头 U-Net:它以混合频谱图作为输入,并返回 13 个比率掩码,每个解码器一个。


更大的内核和步幅。原始工作提出了一个具有可学习参数的中心块,而中心块是 SoP 中的静态潜在空间。U-Net 已被广泛用作多种架构的骨干,用于图像生成 [38]、噪声抑制和超分辨率 [39]、图像到图像转换 [40]、图像分割 [37] 或音频源分离 [36] 等任务。SoP U-Net 由 7 个块组成,分别具有 32、64、128、256、512、512 和 512 个通道(MHU-Net 由 6 个块组成)。潜在空间可以被视为编码器的最后输出。扩张 ResNet 是一种类似 ResNet 的架构,它利用扩张卷积来保持感受野,同时增加最终的空间分辨率。 U-Net 的输出是一组 32 个频谱分量(通道),如果是 SoP,它们的大小与输入频谱图相同,如果是 MHU-Net,则每个解码器只有一个源。给定一个代表性帧,使用 Dilated ResNet 获得视觉特征。这些视觉特征不过是一个由 32 个元素组成的向量(对应于 UNet 的输出通道数),用于选择合适的频谱分量。此选择由音频分析网络执行,该网络由 32 个可学习参数 αk 加上偏差 β 组成。此操作可以用数学方式描述如下:



其中 Sk(t, f) 是时频区间 (t, f) 的第 k 个预测频谱分量。


图 2 说明了 SoP 配置。值得注意的是,让视觉网络选择光谱成分会迫使它间接学习仪器定位,这可以通过激活图推断出来。




SoP 和 MHU-Net 的真实掩模计算在公式 (2) 和公式 (3)(第 IV-C 节)中描述。


B.数据预处理


为了训练上述架构,音频被重新采样为 11025 Hz 和 16 位。输入网络的样本持续时间为 6 秒。我们使用短时傅里叶变换 (STFT) 来获取波形的时频表示。按照 [23],使用长度为 1022 和跳跃长度为 256 的汉宁窗计算 STFT,以便我们获得 6 秒样本的大小为 512×256 的频谱图。随后,我们在频率轴上应用对数重新缩放,扩展较低频率并压缩较高频率。最后,我们将幅度频谱图转换为相对于每个频谱图最小值的 dB,并在 -1 和 1 之间进行归一化。


C. 真实掩码


在介绍地面实况掩码计算之前,我们想指出一些注意事项。标准浮点音频格式将波形限制在 -1 和 1 之间。在创建人工混合时,产生的波形可能超出这些范围。这可以帮助神经网络找到过度拟合的捷径。为了避免这种行为,频谱图根据时频域中的等效界限进行限制。


离散短时傅里叶变换可以按照[42]中的描述进行计算:



表 II 基准结果(平均值±标准差)。SOP:像素原始权重的声音,SOP-SOLOS:在 SOLOS 上从头训练的像素的声音。SOP-FT:在 SOLOS 上微调的像素的声音。MHU-NET:带有 13 个解码器的多头 U-NET。


为了训练“像素之声”,我们使用互补二元掩码作为真实掩码,定义为:



多头 U-Net 已使用互补比率掩码进行训练,定义为:



D. 结果


表 II 以平均值和标准差的形式显示了 [43] 中提出的源失真比 (SDR)、源干扰比 (SIR)、源伪影比 (SAR) 的基准测试结果。可以看出,使用原始权重评估的像素之声表现最差。其中一个可能的原因是 MUSIC 数据集上缺少某些 URMP 类别。如果我们在 Solos 上从头开始训练网络,结果会提高近 1 dB。但是,在 Solos 上对使用 MUSIC 预训练的网络进行微调可以获得更好的结果。我们假设,当网络接触到更多的训练数据时,性能会有所改善。此外,表格结果显示了如何通过使用更强大的架构(如 MHU-Net)来实现更高的性能。