paint-brush
Solos: オーディオビジュアル音楽分析のためのデータセット - データセット@kinetograph
175 測定値

Solos: オーディオビジュアル音楽分析のためのデータセット - データセット

長すぎる; 読むには

この論文では、研究者らが、さまざまなオーディオビジュアルタスクに関する機械学習モデルをトレーニングするための、ソロ音楽演奏のクリーンなデータセットである Solos を紹介しています。
featured image - Solos: オーディオビジュアル音楽分析のためのデータセット - データセット
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

著者:

(1)フアン・F・モンテシノス、ポンペウ・ファブラ大学情報通信技術学部、バルセロナ、スペイン {[email protected]}

(2)オルガ・スリゾフスカイア、ポンペウ・ファブラ大学情報通信技術学部、バルセロナ、スペイン {[email protected]}

(3)Gloria Haro、情報通信技術学部、ポンペウ・ファブラ大学、バルセロナ、スペイン {[email protected]}。

リンク一覧

III. データセット

Solos[1]はURMP [1]データセットと同じカテゴリを持つように設計されているため、URMPは実際のシナリオでテストデータセットとして使用できます。このようにして、テストでミックスアンドセパレートを使用せずに音源分離アルゴリズムのパフォーマンスを評価する標準的な方法を確立することを目指しています。Solosは、図1に示すように13のカテゴリに分散された755の録音で構成されており、カテゴリあたりの平均量は58で、平均時間は5分16秒です。13カテゴリのうち8つでは、YouTubeで収集されたデータセットであるにもかかわらず、解像度の中央値がHDであることは興味深いことです。カテゴリごとの統計は表Iにあります。これらの録音は、英語、スペイン語、フランス語、イタリア語、中国語、ロシア語など、いくつかの言語でタグsoloとauditionsを使用してYouTubeにクエリすることで収集されました。


A. OpenPose スケルトン


Solosは単なる録画のセットではありません。ビデオ識別子の他に、i)各録画の各フレームでOpenPose [33]によって推定された体と手の骨格とii)有用な部分を示すタイムスタンプも提供します。OpenPoseは、体の骨格と手の骨格を予測できるシステムです。


SOLOSデータセットの表I統計


2 つの異なるニューラル ネットワークを利用しています。そのために、特定の体の部分が任意のピクセルに位置する可能性があるという確信マップと、さまざまな体の部分の関連の度合いをエンコードする部分親和性フィールドを予測します。最後に、貪欲な推論によって 2D スケルトンと関節ごとの確信を予測します。実際には、体のスケルトンは最初のネットワークで推定されます。次に、体のスケルトンの手首の位置を使用して、両手の位置を推定します。2 番目のニューラル ネットワークは、各手のスケルトンを個別に取得します。体の各部分が個別に推定されるため、OpenPose は見つける手足について何も仮定しないことに注意してください。確信マップと部分親和性フィールドが与えられた場合に最も可能性の高いスケルトンを計算するだけです。プロセス全体はフレームごとに実行されます。これにより、フレーム間で小さなちらつきや予測ミスが発生します。


B. タイムスタンプの推定とスケルトンの改良



OpenPose は、予測ミスした関節を座標の原点にマッピングします。経験的に、関節の位置が大きく変わるとノイズが発生することがわかりました。補間された座標を使用すると、この問題に対処するのに役立ちます。


この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下でarxiv で公開されています


[1] データセットはhttps://juanfmontesinos.github.io/Solos/で入手可能