著者:
(1)フアン・F・モンテシノス、ポンペウ・ファブラ大学情報通信技術学部、バルセロナ、スペイン {[email protected]}
(2)オルガ・スリゾフスカイア、ポンペウ・ファブラ大学情報通信技術学部、バルセロナ、スペイン {[email protected]}
(3)Gloria Haro、情報通信技術学部、ポンペウ・ファブラ大学、バルセロナ、スペイン {[email protected]}。
Solosの適合性を示すために、ブラインド音源分離問題に焦点を当て、新しいデータセットでThe Sound of Pixels (SoP) [23]とMulti-head U-Net (MHUNet) [34]モデルをトレーニングしました。4つの実験を実施しました。i)著者らが提供したSoP事前トレーニング済みモデルを評価しました。ii)SoPを最初からトレーニングしました。iii)MUSICの事前トレーニング済みモデルの重みから始めて、SolosでSoPを微調整しました。iv)Multi-head U-Netを最初からトレーニングしました。MHU-Netは、結果を改善するカリキュラム学習手順に従って、音源の数を2から7まで変えて混合物を分離するようにトレーニングされました。SoPは、[23]で説明されている最適戦略に従ってトレーニングされました。
評価はURMPデータセット[1]に基づいて、提供される実際の混合物を使用して実行されます。URMPトラックは6秒間のセグメントに順番に分割されます。結果として得られるすべての分割からメトリックが取得されます。
A. アーキテクチャとトレーニングの詳細
重みが公開されており、ネットワークが直接的にトレーニングされているため、The Sound of Pixelsをベースラインとして選択しました。SoPは、ビデオ分析ネットワークとしての拡張ResNet [35]、オーディオ処理ネットワークとしてのU-Net [36]、オーディオシンセサイザーネットワークの3つの主要なサブネットワークで構成されています。また、その結果をMulti-head U-Net [34]と比較しました。
U-Net [37]は、間にスキップ接続を備えたエンコーダーデコーダーアーキテクチャです。スキップ接続は、元の空間構造を復元するのに役立ちます。MHU-Netは、可能な限り多くのソースとデコーダーで構成される点で前進しています。各デコーダーは単一のソースに特化しているため、パフォーマンスが向上します。
Sound of Pixels [23]は、バイオメディカルイメージング用に提案されたオリジナルのUNetアーキテクチャではなく、[36]で説明されている、歌声分離用に調整されたUNetに従っています。ブロックごとに2つの畳み込みと最大プーリングを行う代わりに、単一の畳み込みと
より大きなカーネルとストライド。元の研究では、学習可能なパラメータを持つ中央ブロックが提案されていますが、中央ブロックはSoP内の静的潜在空間です。 U-Netは、画像生成[38]、ノイズ抑制と超解像[39]、画像間変換[40]、画像セグメンテーション[37]、または音源分離[36]などのタスクのいくつかのアーキテクチャのバックボーンとして広く使用されています。 SoP U-Netは、それぞれ32、64、128、256、512、512、512チャネルの7つのブロックで構成されています(MHU-Netの場合は6つのブロック)。潜在空間は、エンコーダーの最後の出力と考えることができます。 Dilated ResNetは、ResNetのようなアーキテクチャで、膨張畳み込みを使用して受容野を維持しながら結果として得られる空間解像度を高めます。 U-Net の出力は、SoP の場合は入力スペクトログラムと同じサイズの 32 個のスペクトル コンポーネント (チャネル) のセットであり、MHU-Net の場合はデコーダーごとに 1 つのソースです。代表的なフレームが与えられると、Dilated ResNet を使用して視覚的特徴が取得されます。これらの視覚的特徴は、適切なスペクトル コンポーネントを選択するために使用される 32 個の要素 (UNet の出力チャネルの数に対応) のベクトルに他なりません。この選択は、32 個の学習可能なパラメーター αk とバイアス β で構成されるオーディオ分析ネットワークによって実行されます。この操作は、数学的に次のように記述できます。
ここで、Sk(t, f)は時間周波数ビン(t, f)におけるk番目の予測スペクトル成分です。
図 2 は SoP 構成を示しています。視覚ネットワークにスペクトル成分を選択させると、アクティベーション マップから推測できる楽器の位置を間接的に学習することになる点が興味深いところです。
SoPとMHU-Netの両方のグラウンドトゥルースマスクの計算は、セクションIV-Cの式(2)と式(3)で説明されています。
B. データの前処理
前述のアーキテクチャをトレーニングするために、オーディオは 11025 Hz および 16 ビットに再サンプリングされます。ネットワークに入力されるサンプルは 6 秒間です。波形の時間周波数表現を取得するために、短時間フーリエ変換 (STFT) を使用します。[23] に従って、長さ 1022 およびホップ長 256 のハニング ウィンドウを使用して STFT を計算し、6 秒のサンプルに対してサイズ 512×256 のスペクトログラムを取得します。その後、周波数軸にログ再スケールを適用して、低周波数を拡張し、高周波数を圧縮します。最後に、振幅スペクトログラムを各スペクトログラムの最小値に対して dB に変換し、-1 から 1 の間で正規化します。
C. グラウンドトゥルースマスク
グラウンドトゥルースマスクの計算を紹介する前に、いくつかの考慮事項を指摘したいと思います。標準浮動小数点オーディオ形式では、波形は -1 から 1 の間に制限されます。人工的な混合物を作成するときに、結果の波形はこれらの範囲外になる可能性があります。これは、ニューラルネットワークがオーバーフィットへの近道を見つけるのに役立ちます。この動作を回避するために、スペクトログラムは時間周波数領域の同等の境界に従ってクランプされます。
離散短時間フーリエ変換は[42]で説明されているように計算できる。
Sound of Pixels のトレーニングでは、次のように定義される補完バイナリ マスクをグラウンド トゥルース マスクとして使用しました。
マルチヘッド U-Net は、次のように定義される補完比率マスクを使用してトレーニングされています。
D. 結果
[43]で提案された音源対歪み比 (SDR)、音源対干渉比 (SIR)、音源対アーティファクト比 (SAR) のベンチマーク結果を、平均と標準偏差の観点から表 II に示します。ご覧のとおり、元の重みを使用して評価した Sound of Pixels のパフォーマンスは最も悪くなっています。その理由の 1 つは、MUSIC データセットに URMP カテゴリの一部が存在しないことです。ネットワークを Solos で最初からトレーニングすると、結果はほぼ 1 dB 改善されます。ただし、MUSIC で事前トレーニングしたネットワークを Solos で微調整すると、さらに良い結果を得ることができます。ネットワークがより多くのトレーニング データにさらされるにつれて、改善が起こると仮定しています。さらに、表の結果は、MHU-Net などのより強力なアーキテクチャを使用することで、より高いパフォーマンスに到達できることを示しています。
この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下でarxiv で公開されています。