paint-brush
Solos:用于视听音乐分析的数据集 - 数据集经过@kinetograph
144 讀數

Solos:用于视听音乐分析的数据集 - 数据集

太長; 讀書

在本文中,研究人员介绍了 Solos,这是一套干净的独奏音乐表演数据集,用于训练各种视听任务的机器学习模型。
featured image - Solos:用于视听音乐分析的数据集 - 数据集
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

作者:

(1)Juan F. Montesinos,西班牙巴塞罗那庞培法布拉大学信息与通信技术系{[email protected]};

(2)Olga Slizovskaia,西班牙巴塞罗那庞培法布拉大学信息与通信技术系{[email protected]};

(3)Gloria Haro,西班牙巴塞罗那庞培法布拉大学信息与通信技术系{[email protected]}。

链接表

三、数据集

Solos[1] 的设计类别与 URMP [1] 数据集相同,因此 URMP 可在真实场景中用作测试数据集。通过这种方式,我们旨在建立一种评估源分离算法性能的标准方法,避免在测试中使用混合分离方法。如图 1 所示,Solos 包含 755 条录音,分布在 13 个类别中,平均每个类别有 58 条录音,平均时长为 5 分 16 秒。值得注意的是,尽管 Solos 是 YouTube 收集的数据集,但在 13 个类别中,有 8 个类别的分辨率中位数为高清。每个类别的统计信息如表 I 所示。这些录音是通过使用标签 solo 和 auditions 查询 YouTube 收集的,语言包括英语、西班牙语、法语、意大利语、中文或俄语。


A.OpenPose骨骼


Solos 不仅仅是一组记录。除了视频标识符,我们还提供:i)OpenPose [33] 在每个记录的每一帧中估计的身体和手部骨架;ii)指示有用部分的时间戳。OpenPose 是一个能够预测身体骨架和手部骨架的系统


表 I SOLOS 数据集的统计数据


利用两个不同的神经网络。为此,他们预测了特定身体部位可能位于任何给定像素的置信度图以及编码不同身体部位之间关联程度的部位亲和力场。最后,它通过贪婪推理预测 2D 骨架和每个关节的置信度。实际上,使用第一个网络估计身体骨架。然后,使用手腕在身体骨架中的位置来估计双手的位置。第二个神经网络独立获得每只手的骨架。请注意,由于每个身体部位都是独立估计的,因此 OpenPose 不对要找到的肢体做出任何假设。它只是根据置信度图和部位亲和力场计算最可能的骨架。整个过程是逐帧进行的。这会导致帧之间出现轻微的闪烁和错误预测。


B.时间戳估计和骨架细化



OpenPose 将预测错误的关节映射到坐标原点。我们通过经验发现,关节位置的如此大跳跃会引起噪音。使用插值坐标有助于解决这个问题。



[1] 数据集可从 https://juanfmontesinos.github.io/Solos/ 获取