paint-brush
Solos:用于视听音乐分析的数据集 - 摘要和简介经过@kinetograph
130 讀數

Solos:用于视听音乐分析的数据集 - 摘要和简介

太長; 讀書

在本文中,研究人员介绍了 Solos,这是一套干净的独奏音乐表演数据集,用于训练各种视听任务的机器学习模型。
featured image - Solos:用于视听音乐分析的数据集 - 摘要和简介
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

作者:

(1)Juan F. Montesinos,西班牙巴塞罗那庞培法布拉大学信息与通信技术系{[email protected]};

(2)Olga Slizovskaia,西班牙巴塞罗那庞培法布拉大学信息与通信技术系{[email protected]};

(3)Gloria Haro,西班牙巴塞罗那庞培法布拉大学信息与通信技术系{[email protected]}。

链接表


抽象的

在本文中,我们提出了一个新的音乐表演视频数据集,该数据集可用于训练机器学习方法以完成多项任务,例如视听盲源分离和定位、跨模态对应、跨模态生成以及一般任何视听自监督任务。这些视频来自 YouTube,包括 13 种不同乐器的独奏音乐表演。与之前提出的视听数据集相比,Solos 更干净,因为它的大量录音是试听和手动检查的录音,确保视频后处理中没有背景噪音或效果。此外,据我们所知,它是唯一包含 URMP [1] 数据集中所有乐器的数据集,URMP [1] 数据集是一个高质量的数据集,包含 44 个多乐器古典音乐作品的视听录音,每个音轨都独立。URMP 旨在用于源分离,因此,我们评估了在 Solos 上训练的两个不同源分离模型在 URMP 数据集上的性能。该数据集可在 https://juanfmontesinos.github.io/Solos/ 上公开获取


索引词——视听、数据集、多模式、音乐

一、引言

人们对解决音乐信息检索 (MIR) 问题的多模态技术的兴趣日益浓厚。音乐表演具有高度多模态的内容,所涉及的不同模态高度相关:声音由演奏者的动作发出,在室内乐表演中,乐谱构成了额外的编码,也可用于自动分析音乐 [2]。



另一方面,通过视觉检查场景,我们可以提取有关声源数量、声源类型、时空位置以及运动的信息,这些信息自然与发出的声音相关。此外,还可以执行自监督任务,其中一种模态监督另一种模态。这需要另一个研究领域,即跨模态对应 (CMC)。我们可以找到针对 BSS 和 CMC 问题的开创性工作。[11],[12] 利用视听数据进行声音定位,[13],[14],[15] 用于语音分离。在音乐方面,视觉信息也被证明有助于基于模型的方法进行源分离 [16],[17] 和定位 [2]。随着深度学习技术的蓬勃发展,许多最近的作品利用音频和视频内容来执行音乐源分离 [18]-[20]、源关联 [21]、定位 [22] 或两者兼而有之 [23]。一些 CMC 作品探索了从同步生成的特征 [24],[25],并证明这些特征可重复用于源分离。这些作品使用以自监督方式训练的网络,使用对应/非对应视听信号对进行定位 [22] 或使用混合分离方法进行源分离 [18]–[20],[23]。尽管深度学习可以以不同的方式解决经典问题,但它也有助于创建新的研究领域,如跨模态生成,其主要目的是从音频生成视频 [26],[27] 或反之亦然 [28]。最近与人体运动相关的作品利用骨架作为身体的内部表征,可以进一步转换为视频 [29],[30],这显示了骨架的潜力。本文的主要贡献是 Solos,这是一个新的独奏者音乐表演录音数据集,可用于训练上述任何领域的深度神经网络。与 [23] 及其扩展版本 [31] 中提供的类似乐器数据集相比,我们的数据集确实包含 URMP 数据集中存在的相同类型的室内管弦乐器。Solos 是一个从 YouTube 收集的 755 个真实世界录音的数据集,它提供了上述数据集中缺少的几个功能:骨架和高质量时间戳。源定位通常由网络间接学习。因此,提供实用的定位真实值并不简单。尽管如此,网络通常会将玩家的手指向声源。我们预计手部定位可以帮助提供额外的线索来改善视听 BSS,或者可以用作源真实值定位。为了展示使用 Solos 的好处,我们训练了一些流行的 BSS 架构并比较了它们的结果。