著者:
(1)フアン・F・モンテシノス、ポンペウ・ファブラ大学情報通信技術学部、バルセロナ、スペイン {[email protected]}
(2)オルガ・スリゾフスカイア、ポンペウ・ファブラ大学情報通信技術学部、バルセロナ、スペイン {[email protected]}
(3)Gloria Haro、情報通信技術学部、ポンペウ・ファブラ大学、バルセロナ、スペイン {[email protected]}。
我々は、ソリストの音楽録音の新しいオーディオビジュアルデータセットである Solos を発表しました。これは、ミックスアンドセパレート戦略を使用した音源分離、音源定位、クロスモーダル生成、オーディオビジュアル対応の検出などのさまざまな自己教師あり学習タスクに適しています。データセットには 13 種類の楽器が含まれています。これらは、室内オーケストラでよく使用される楽器と、ロチェスター大学のマルチモーダル音楽パフォーマンス (URMP) データセット [1] に含まれている楽器です。URMP の特性 (実際の演奏の小規模データセットと実際の個々のステム) により、テスト目的に適したデータセットとなっていますが、我々の知る限り、現在までに URMP と同じ楽器を含む大規模なデータセットは存在しません。U-Net アーキテクチャに基づくオーディオビジュアル音源分離用の 2 つの異なるネットワークが新しいデータセットでトレーニングされ、URMP でさらに評価され、テストセットと同じ楽器セットでのトレーニングの影響が示されました。さらに、Solos は、手が十分に見えるビデオ間隔にスケルトンとタイムスタンプを提供します。この情報は、トレーニング目的だけでなく、音源定位のタスクを解決するための学習にも役立ちます。
[1] B. Li、X. Liu、K. Dinesh、Z. Duan、G. Sharma、「マルチモーダル音楽分析のためのマルチトラッククラシック音楽演奏データセットの作成:課題、洞察、およびアプリケーション」、IEEE Transactions on Multimedia、vol. 21、no. 2、pp. 522–535、2019年2月。
[2] B. Li、K. Dinesh、Z. Duan、G. Sharma、「見て聴く:室内楽演奏ビデオにおけるスコアに基づくサウンドトラックと演奏者の関連付け」、2017 IEEE国際音響・音声・信号処理会議(ICASSP)。IEEE、2017、pp. 2906–2910。
[3] ECチェリー、「片耳と両耳による音声認識に関するいくつかの実験」アメリカ音響学会誌、第25巻第5号、975-979頁、1953年。
[4] A. HyvarinenとE. Oja、「独立成分分析:アルゴリズムとアプリケーション」、ニューラルネットワーク、第13巻、第4-5号、pp.411-430、2000年。
[5] M. ZibulevskyとBA Pearlmutter、「信号辞書におけるスパース分解によるブラインドソース分離」、Neural computing、vol.13、no.4、pp.863-882、2001年。
[6] T. Virtanen、「時間的連続性とスパース性基準を備えた非負値行列分解によるモノラル音源分離」、IEEEオーディオ・音声・言語処理論文集、第15巻第3号、1066~1074頁、2007年。
[7] DPW Ellis、「予測駆動型計算聴覚シーン分析」、マサチューセッツ工科大学博士論文、1996年。
[8] P. Smaragdis、B. Raj、M. Shashanka、「音響モデリングのための確率的潜在変数モデル」、音響処理モデルの進歩、NIPS、vol.148、pp.8-1、2006年。
[9] P. Chandna、M. Miron、J. Janer、E. Gomez、「深層畳み込みニューラルネットワークを使用したモノラル音源の分離」、潜在変数解析と信号分離に関する国際会議、2017年、258-266頁。
[10] D. Stoller、S. Ewert、S. Dixon、「Wave-u-net:エンドツーエンドの音源分離のためのマルチスケールニューラルネットワーク」、arXivプレプリントarXiv:1806.03185、2018年。
[11] JRハーシーとJRムーヴェラン、「オーディオビジョン:オーディオとビジュアルの同期を利用して音の位置を特定する」、神経情報処理システムの進歩、2000年、813-819頁。
[12] E. Kidron、YY Schechner、M. Elad、「サウンドピクセル」、Computer Vision and Pattern Recognition、2005年。CVPR 2005。IEEE Computer Society Conference on、vol. 1、2005年、pp. 88-95。
[13] T. Darrell、JW Fisher、P. Viola、「オーディオビジュアルセグメンテーションとカクテルパーティー効果」、マルチモーダルインターフェースの進歩ICMI 2000、2000年、32-40頁。
[14] D. Sodoyer、J.-L. Schwartz、L. Girin、J. Klinkisch、C. Jutten、「オーディオビジュアル音声源の分離:音声刺激のオーディオビジュアルコヒーレンスを活用する新しいアプローチ」、EURASIP Journal on Advances in Signal Processing、2002年、11号、382823ページ、2002年。
[15] B. Rivet、L. Girin、C. Jutten、「畳み込み混合からの音声信号抽出のためのオーディオビジュアル音声処理とブラインド音源分離の混合」、IEEE Transactions on Audio, Speech, and Language Processing、vol. 15、no. 1、pp. 96–108、2007年。
[16] B. Li、C. Xu、Z. Duan、「マルチモーダルビブラート分析による弦楽アンサンブルの視聴覚音源の関連付け」、Proc. Sound and Music Computing (SMC)、2017年。
[17] S. Parekh、S. Essid、A. Ozerov、NQ Duong、P. Perez、およびG. Richard、「ビデオオブジェクト情報によるオーディオソース分離のガイド」、オーディオおよび音響への信号処理のアプリケーション(WASPAA)、2017 IEEEワークショップ、2017年、pp. 61-65。
[18] R. GaoとK. Grauman、「視覚オブジェクトの音の共分離」、IEEE国際コンピュータビジョン会議論文集、2019年、3879-3888ページ。
[19] H. Zhao、C. Gan、W.-C. Ma、A. Torralba、「動きの音」、IEEE国際コンピュータビジョン会議論文集、2019年、1735-1744頁。
[20] X. Xu、B. Dai、D. Lin、「マイナスプラスネットを使用した再帰的な視覚的音分離」、IEEE国際コンピュータビジョン会議論文集、2019年、882-891頁。
[21] B. Li、K. Dinesh、C. Xu、G. Sharma、Z. Duan、「室内楽演奏のためのオンラインオーディオビジュアルソース協会」、国際音楽情報検索学会誌、第2巻第1号、2019年。
[22] R. ArandjelovicとA. Zisserman、「音を出す物体」、IEEEヨーロッパコンピュータビジョン会議論文集、2018年。
[23] H. Zhao、C. Gan、A. Rouditchenko、C. Vondrick、J. McDermott、A. Torralba、「ピクセルの音」、ヨーロッパコンピュータビジョン会議(ECCV)、2018年9月。
[24] A. OwensとAA Efros、「自己教師付き多感覚特徴による視聴覚シーン分析」、arXivプレプリントarXiv:1804.03641、2018年。
[25] B. Korbar、D. Tran、L. Torresani、「自己教師同期によるオーディオおよびビデオモデルの協調学習」、Advances in Neural Information Processing Systems、2018年、7763-7774頁。
[26] T.-H. Oh、T. Dekel、C. Kim、I. Mosseri、WT Freeman、M. Rubinstein、W. Matusik、「Speech2face:声の裏にある顔を学習する」、IEEEコンピュータービジョンとパターン認識会議の議事録、2019年、7539-7548ページ。
[27] L. Chen、S. Srivastava、Z. Duan、C. Xu、「ディープクロスモーダルオーディオビジュアル生成」、ACMマルチメディア2017テーマ別ワークショップの議事録、2017年、349-357頁。
[28] Y. Zhou、Z. Wang、C. Fang、T. Bui、TL Berg、「ビジュアルからサウンドへ:自然界でのビデオの自然なサウンドの生成」、IEEEコンピュータービジョンとパターン認識会議の議事録、2018年、3550-3558ページ。
[29] E. Shlizerman、LM Dery、H. Schoen、I. Kemelmacher-Shlizerman、「オーディオからボディへのダイナミクス」、CVPR、IEEEコンピュータビジョンとパターン認識に関するコンピュータソサエティ会議、2017年。
[30] S. Ginosar、A. Bar、G. Kohavi、C. Chan、A. Owens、J. Malik、「会話ジェスチャーの個々のスタイルの学習」、IEEEコンピュータービジョンとパターン認識会議の議事録、2019年、3497-3506ページ。
[31] H. Zhou、Z. Liu、X. Xu、P. Luo、X. Wang、「ビジョンを活用したディープオーディオインペインティング」、IEEE国際コンピュータビジョン会議(ICCV)、2019年10月。
[32] C. Gan、D. Huang、H. Zhao、JB Tenenbaum、A. Torralba、「視覚的音分離のための音楽ジェスチャー」、IEEE / CVFコンピュータービジョンとパターン認識会議の議事録、2020年、pp. 10 478-10 487。
[33] Z. Cao、G. Hidalgo Martinez、T. Simon、S. Wei、YA Sheikh、「Openpose:パーツアフィニティフィールドを使用したリアルタイムの複数人2Dポーズ推定」、IEEE Transactions on Pattern Analysis and Machine Intelligence、2019年。
[34] CSJ DoireとO. Okubadejo、「独立したデータベースを使用した音源分離のためのインターリーブマルチタスク学習」、ArXiv、vol. abs / 1908.05182、2019年。
[35] F. Yu、V. Koltun、T. Funkhouser、「Dilated residual networks」、Computer Vision and Pattern Recognition (CVPR)、2017年。
[36] A. Jansson、E. Humphrey、N. Montecchio、R. Bittner、A. Kumar、T. Weyde、「ディープU-Net畳み込みネットワークによる歌声分離」、第18回国際音楽情報検索学会会議、2017年、23~27頁。
[37] O. Ronneberger、P. Fischer、T. Brox、「U-net:バイオメディカル画像セグメンテーションのための畳み込みネットワーク」、国際医療画像コンピューティングおよびコンピュータ支援介入会議、Springer、2015年、234〜241頁。
[38] G. Liu、J. Si、Y. Hu、S. Li、「改良されたu-netによる写真画像合成」、2018年第10回国際先進計算知能会議(ICACI)、2018年3月、pp.402-407。
[39] X. Mao、C. Shen、Y.-B. Yang、「対称スキップ接続を備えた非常に深い畳み込みエンコーダーデコーダーネットワークを使用した画像復元」、神経情報処理システムの進歩、2016年、2802-2810頁。
[40] P. Isola、J.-Y. Zhu、T. Zhou、AA Efros、「条件付き敵対的ネットワークによる画像から画像への翻訳」、arxiv、2016年。
[41] DP KingmaとJ. Ba、「Adam:確率的最適化の方法」、CoRR、vol. abs / 1412.6980、2014年。
[42] 「第7章 周波数領域処理」『デジタル信号処理システム設計(第2版)』第2版、N. Kehtarnavaz編、バーリントン:アカデミックプレス、2008年、175-196頁。
[43] E. Vincent、R. Gribonval、C. Fevotte、「ブラインドオーディオ音源分離における性能測定」、IEEE Transactions on Audio、Speech、およびLanguage Processing、vol. 14、no. 4、pp. 1462–1469、2006年。
この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下でarxiv で公開されています。