paint-brush
Solos: オーディオビジュアル音楽分析のためのデータセット - 関連研究@kinetograph
148 測定値

Solos: オーディオビジュアル音楽分析のためのデータセット - 関連研究

長すぎる; 読むには

この論文では、研究者らが、さまざまなオーディオビジュアルタスクに関する機械学習モデルをトレーニングするための、ソロ音楽演奏のクリーンなデータセットである Solos を紹介しています。
featured image - Solos: オーディオビジュアル音楽分析のためのデータセット - 関連研究
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

著者:

(1)フアン・F・モンテシノス、ポンペウ・ファブラ大学情報通信技術学部、バルセロナ、スペイン {[email protected]}

(2)オルガ・スリゾフスカイア、ポンペウ・ファブラ大学情報通信技術学部、バルセロナ、スペイン {[email protected]}

(3)Gloria Haro、情報通信技術学部、ポンペウ・ファブラ大学、バルセロナ、スペイン {[email protected]}。

リンク一覧

II. 関連研究

ロチェスター大学のマルチモーダル音楽演奏データセット (URMP) [1] は、クラシック音楽作品の 44 のマルチ楽器ビデオ録画を含むデータセットです。作品に登場する各楽器は、個別のトラックをグラウンドトゥルースにするため、ビデオとスタンドアロン マイクによる高品質オーディオの両方で別々に録音されました。楽器は別々に演奏されていますが、ピアニストが演奏する指揮ビデオを使用して調整され、さまざまな演奏者に共通のタイミングが設定されました。同期後、個々のビデオのオーディオはマイクの高品質オーディオに置き換えられ、次にさまざまな録音が組み立てられてミックスが作成されました。個々の高品質オーディオ録音が加算されてオーディオ ミックスが作成され、ビジュアル コンテンツは、すべての演奏者が左から右に同じレベルに配置された共通の背景を持つ 1 つのビデオに合成されました。各作品について、データセットは MIDI 形式の楽譜、高品質の個々の楽器のオーディオ録音、および組み立てられた作品のビデオを提供します。図 1 に示すデータセットに含まれる楽器は、室内オーケストラでよく使用される楽器です。優れた特性がすべて備わっているにもかかわらず、データセットが小さいため、ディープラーニング アーキテクチャのトレーニングには適していません。


最近発表された楽器演奏のオーディオビジュアル録音のデータセットは、Music [23]とMusicES [31]の2つである。Musicは、アコーディオン、アコースティックギター、チェロ、クラリネット、二胡、フルート、サキソフォン、トランペット、チューバ、バイオリン、木琴の11のカテゴリにわたる536のソロ録音と149のデュエットビデオから構成されている。このデータセットは、YouTubeを検索して収集された。MusicES [31]は、MUSICを拡張したもので、元のサイズの約3倍の約1475の録音があるが、アコーディオン、ギター、チェロ、フルート、サキソフォン、トランペット、チューバ、バイオリン、木琴の9つのカテゴリに分散している。MUSICとSolosには、バイオリン、チェロ、フルート、クラリネット、サキソフォン、トランペット、チューバの7つの共通カテゴリがある。 MusicES と Solos の共通カテゴリは 6 個です (前者はクラリネットを除く)。Solos と MusicES は補完的です。両者の共通部分はわずか 5% で、両方のデータセットを組み合わせて 1 つの大きなデータセットにすることができます。


文献には、オーディオビジュアルデータセットの有用性を示す例がいくつかある。Sound of Pixels [23] は、オーディオスペクトル成分を生成して音源分離を行い、ビデオストリームから得られる視覚的特徴を使用してさらにスマートに選択して、分離された音源を得る。このアイデアは [20] でさらに拡張され、混合音に存在するさまざまな音を再帰的に分離するようになった。各段階で、システムは最も顕著な音源を混合音に残っている音源から分離する。Sound of Motions [19] は、オプティカルフローから得られた密な軌跡を使用して音源分離を調整し、


図1. ソロとURMPの楽器カテゴリー。画像は[1]より改変。


同じ楽器の混合音を分離することさえも可能である。視覚条件付けは [18] でも異なる楽器を分離するために使用されている。トレーニング中、分離された音に対して分類損失が使用され、オブジェクトの一貫性が強化され、共分離損失により、推定された個々の音が再構成されると元の混合音を生成するように強制される。[17] では、著者らは、音源ごとの動きの情報を含む行列に強制的に揃えられる活性化行列を使用して、非負値行列因数分解項を最小化するエネルギーベースの手法を開発した。この動き行列には、各プレーヤーの境界ボックス内のクラスター化された動きの軌跡の平均マグニチュード速度が含まれている。


最近の研究では、オーディオビジュアルタスクにおけるスケルトンの使用が増加していることが示されています。Audio to body dynamics [29]では、ピアノやバイオリンなどの楽器を演奏する演奏者の動きを再現するスケルトンを予測できることが示されています。スケルトンは、室内楽の演奏において、音の開始や音程の変動を伴う体や指の動きなど、オーディオとビジュアルの対応を確立するのに有効であることが証明されています [21]。最近の研究 [32] では、Sound of Motions [19] に似た方法で音源分離の問題に取り組んでいますが、密な軌跡をスケルトン情報に置き換えています。


この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下でarxiv で公開されています