作者:
(1)Juan F. Montesinos,西班牙巴塞罗那庞培法布拉大学信息与通信技术系{[email protected]};
(2)Olga Slizovskaia,西班牙巴塞罗那庞培法布拉大学信息与通信技术系{[email protected]};
(3)Gloria Haro,西班牙巴塞罗那庞培法布拉大学信息与通信技术系{[email protected]}。
罗彻斯特大学多模态音乐表演数据集 (URMP) [1] 是一个包含 44 个古典音乐作品的多乐器视频录制的数据集。为了获得真实的单独音轨,乐曲中的每种乐器都单独录制,既有视频,也有独立麦克风的高质量音频。虽然乐器是单独演奏的,但它们通过使用由钢琴家演奏的指挥视频进行协调,以便为不同的演奏者设置共同的节奏。同步后,单个视频的音频被麦克风的高质量音频替换,然后组装不同的录音以创建混合音:将单个高质量音频录音相加以创建音频混合音,并将视觉内容合成一个具有共同背景的单个视频,其中所有演奏者从左到右排列在同一水平。对于每首乐曲,数据集提供 MIDI 格式的乐谱、高质量的单个乐器音频录音和组装乐曲的视频。数据集中的乐器(如图 1 所示)是室内乐团中的常用乐器。尽管它具有诸多优良特性,但它是一个小数据集,因此不适合训练深度学习架构。
最近,人们提出了另外两个乐器表演的视听记录数据集:Music [23] 和 MusicES [31]。Music 包含 536 个独奏录音和 149 个二重奏视频,涵盖 11 个类别:手风琴、原声吉他、大提琴、单簧管、二胡、长笛、萨克斯管、小号、大号、小提琴和木琴。该数据集是通过查询 YouTube 收集的。MusicES [31] 是 MUSIC 的扩展,其大小约为原来的三倍,拥有约 1475 个录音,但分布在 9 个类别中:手风琴、吉他、大提琴、长笛、萨克斯管、小号、大号、小提琴和木琴。MUSIC 和 Solos 中有 7 个共同类别:小提琴、大提琴、长笛、单簧管、萨克斯管、小号和大号。MusicES 和 Solos 之间的共同类别有 6 个(前者除单簧管外)。 Solos 和 MusicES 是互补的。两者之间只有 5% 的小交集,这意味着两个数据集可以合并成一个更大的数据集。
我们可以在文献中找到几个例子来展示视听数据集的实用性。Sound of Pixels [23] 执行音频源分离,生成音频频谱分量,然后使用来自视频流的视觉特征进一步智能选择这些分量以获得分离的源。这个想法在 [20] 中得到了进一步扩展,以便以递归方式分离混合中存在的不同声音。在每个阶段,系统都会将最突出的源与混合中剩余的源分离出来。Sound of Motions [19] 使用从光流中获得的密集轨迹来调节音频源分离,能够
甚至可以分离同种乐器的混合音。[18] 还使用了视觉条件作用来分离不同的乐器;在训练期间,对分离的声音使用分类损失来强制对象一致性,而共同分离损失则迫使估计的单个声音在重新组合后产生原始混合音。在 [17] 中,作者开发了一种基于能量的方法,该方法使用激活矩阵最小化非负矩阵分解项,该激活矩阵被强制与包含每个源运动信息的矩阵对齐。该运动矩阵包含每个玩家边界框中聚类运动轨迹的平均幅度速度。
最近的研究显示,骨架在视听任务中的应用日益广泛。在《音频到身体动态》[29] 中,作者表明,可以预测骨架,重现演奏钢琴或小提琴等乐器的演奏者的动作。骨架已被证明可用于建立视听对应关系,例如在室内乐表演中,身体或手指运动与音符开始或音高波动的关系 [21]。最近的一项研究 [32] 以类似于《运动之声》[19] 的方式解决了源分离问题,但用骨架信息取代了密集的轨迹。