paint-brush
Solos: Ein Datensatz zur audiovisuellen Musikanalyse - Experimentevon@kinetograph
168 Lesungen

Solos: Ein Datensatz zur audiovisuellen Musikanalyse - Experimente

Zu lang; Lesen

In diesem Artikel stellen Forscher Solos vor, einen sauberen Datensatz mit Solo-Musikdarbietungen zum Trainieren von Modellen maschinellen Lernens für verschiedene audiovisuelle Aufgaben.
featured image - Solos: Ein Datensatz zur audiovisuellen Musikanalyse - Experimente
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autoren:

(1) Juan F. Montesinos, Fakultät für Informations- und Kommunikationstechnologien, Universitat Pompeu Fabra, Barcelona, Spanien {[email protected]};

(2) Olga Slizovskaia, Fakultät für Informations- und Kommunikationstechnologien, Universitat Pompeu Fabra, Barcelona, Spanien {[email protected]};

(3) Gloria Haro, Fakultät für Informations- und Kommunikationstechnologien, Universitat Pompeu Fabra, Barcelona, Spanien {[email protected]}.

Linktabelle

IV. Experimente

Um die Eignung von Solos zu zeigen, haben wir uns auf das Problem der blinden Quellentrennung konzentriert und die Modelle The Sound of Pixels (SoP) [23] und Multi-head U-Net (MHUNet) [34] auf dem neuen Datensatz trainiert. Wir haben vier Experimente durchgeführt: i) wir haben das von den Autoren zur Verfügung gestellte vortrainierte SoP-Modell evaluiert; ii) wir haben SoP von Grund auf trainiert; iii) wir haben SoP auf Solos feinabgestimmt, ausgehend von den Gewichten des vortrainierten Modells auf MUSIC und iv) wir haben Multi-head U-Net von Grund auf trainiert. MHU-Net wurde trainiert, Mischungen mit einer variierten Anzahl von Quellen von zwei bis sieben zu trennen, wobei einem Curriculum-Lernverfahren gefolgt wurde, da dies die Ergebnisse verbessert. SoP wurde entsprechend der in [23] beschriebenen optimalen Strategie trainiert.


Die Auswertung erfolgt auf Grundlage des URMP-Datensatzes [1] unter Verwendung der darin enthaltenen realen Mischungen. Die URMP-Tracks werden sequenziell in 6-Sekunden-Abschnitte aufgeteilt. Aus allen resultierenden Teilabschnitten werden Metriken gewonnen.


A. Architekturen und Trainingsdetails


Wir haben uns für The Sound of Pixels als Basis entschieden, da dessen Gewichte öffentlich verfügbar sind und das Netzwerk auf unkomplizierte Weise trainiert wird. SoP besteht aus drei Hauptsubnetzen: einem erweiterten ResNet [35] als Videoanalyse-Netzwerk, einem U-Net [36] als Audioverarbeitungsnetzwerk und einem Audiosynthesizer-Netzwerk. Wir vergleichen seine Ergebnisse auch mit einem Multi-Head-U-Net [34].


U-Net [37] ist eine Encoder-Decoder-Architektur mit dazwischenliegenden Skip-Verbindungen. Skip-Verbindungen helfen dabei, die ursprüngliche räumliche Struktur wiederherzustellen. MHU-Net ist ein Fortschritt, da es aus so vielen Decodern wie möglichen Quellen besteht. Jeder Decoder ist auf eine einzelne Quelle spezialisiert, was die Leistung verbessert.


Der Sound of Pixels [23] folgt nicht der ursprünglichen UNet-Architektur, die für die biomedizinische Bildgebung vorgeschlagen wurde, sondern dem in [36] beschriebenen UNet, das auf die Trennung von Singstimmen abgestimmt wurde. Anstatt zwei Faltungen pro Block mit anschließendem Max-Pooling verwenden sie eine einzige Faltung mit


Abb. 2. Betrachtete Architekturen. Links: Sound of Pixels: Das Netzwerk verwendet als Eingabe ein Mischspektrogramm und gibt eine binäre Maske zurück, die den visuellen Merkmalsvektor der gewünschten Quelle enthält. Rechts: Multi-Head U-Net: Es verwendet als Eingabe ein Mischspektrogramm und gibt 13 Verhältnismasken zurück, eine pro Decoder.


ein größerer Kernel und Striding. Die Originalarbeit schlägt einen zentralen Block mit lernbaren Parametern vor, während der zentrale Block in SoP ein statischer latenter Raum ist. U-Net wird häufig als Rückgrat mehrerer Architekturen für Aufgaben wie Bilderzeugung [38], Rauschunterdrückung und Superauflösung [39], Bild-zu-Bild-Übersetzung [40], Bildsegmentierung [37] oder Audioquellentrennung [36] verwendet. SoP U-Net besteht aus 7 Blöcken mit jeweils 32, 64, 128, 256, 512, 512 und 512 Kanälen (6 Blöcke für MHU-Net). Der latente Raum kann als letzter Ausgang des Encoders betrachtet werden. Dilated ResNet ist eine ResNet-ähnliche Architektur, die erweiterte Faltungen verwendet, um das rezeptive Feld beizubehalten und gleichzeitig die resultierende räumliche Auflösung zu erhöhen. Die Ausgabe des U-Net ist ein Satz von 32 Spektralkomponenten (Kanälen), die im Fall von SoP dieselbe Größe wie das Eingangsspektrogramm haben, und im Fall von MHU-Net eine einzelne Quelle pro Decoder. Bei einem repräsentativen Frame werden visuelle Merkmale mithilfe des Dilated ResNet erhalten. Diese visuellen Merkmale sind nichts anderes als ein Vektor aus 32 Elementen (was der Anzahl der Ausgabekanäle von UNet entspricht), die zur Auswahl geeigneter Spektralkomponenten verwendet werden. Diese Auswahl wird vom Audioanalysenetzwerk durchgeführt, das aus 32 lernbaren Parametern, αk, plus einem Bias, β, besteht. Dieser Vorgang kann mathematisch wie folgt beschrieben werden:



wobei Sk(t, f) die k-te vorhergesagte Spektralkomponente im Zeit-Frequenz-Bin (t, f) ist.


Abbildung 2 veranschaulicht die SoP-Konfiguration. Interessant ist, dass das visuelle Netzwerk durch die Auswahl der Spektralkomponenten gezwungen wird, indirekt die Instrumentenlokalisierung zu erlernen, was über Aktivierungskarten abgeleitet werden kann.




Die Berechnung der Ground-Truth-Maske sowohl für SoP als auch für MHU-Net wird in Gl. (2) und Gl. (3), Abschnitt IV-C, beschrieben.


B. Datenvorverarbeitung


Um die oben genannten Architekturen zu trainieren, wird Audio auf 11025 Hz und 16 Bit neu abgetastet. Die in das Netzwerk eingespeisten Samples haben eine Dauer von 6 Sekunden. Wir verwenden die Kurzzeit-Fourier-Transformation (STFT), um Zeit-Frequenz-Darstellungen von Wellenformen zu erhalten. Gemäß [23] wird die STFT unter Verwendung eines Hanning-Fensters der Länge 1022 und einer Sprunglänge von 256 berechnet, sodass wir ein Spektrogramm der Größe 512×256 für ein 6-Sekunden-Sample erhalten. Später wenden wir eine logarithmische Neuskalierung auf der Frequenzachse an, wobei wir niedrigere Frequenzen erweitern und höhere komprimieren. Zuletzt konvertieren wir die Magnitudenspektrogramme in dB bezüglich des Mindestwerts jedes Spektrogramms und normalisieren zwischen -1 und 1.


C. Ground-Truth-Maske


Bevor wir Ground-Truth-Maskenberechnungen vorstellen, möchten wir einige Überlegungen anstellen. Das Standard-Fließkomma-Audioformat erfordert eine Wellenform, die zwischen -1 und 1 liegt. Beim Erstellen künstlicher Mischungen können die resultierenden Wellenformen außerhalb dieser Grenzen liegen. Dies kann neuronalen Netzwerken dabei helfen, Abkürzungen zu finden, um eine Überanpassung zu vermeiden. Um dieses Verhalten zu vermeiden, werden Spektrogramme entsprechend den entsprechenden Grenzen im Zeit-Frequenz-Bereich begrenzt.


Die diskrete Kurzzeit-Fourier-Transformation kann wie in [42] beschrieben berechnet werden:



TABELLE II BENCHMARK-ERGEBNISSE (MITTELWERT ± STANDARDABWEICHUNG). SOP: SOUND OF PIXELS ORIGINALGEWICHTE, SOP-SOLOS: SOUND OF PIXELS VON GRUND AUF SOLOS TRAINIERT. SOP-FT: SOUND OF PIXELS FEINABGEPASST AUF SOLOS. MHU-NET: MULTI-HEAD U-NET MIT 13 DECODERN.


Für das Training von Sound of Pixels haben wir komplementäre Binärmasken als Ground-Truth-Masken verwendet, die wie folgt definiert sind:



Das Multi-Head-U-Net wurde mit komplementären Verhältnismasken trainiert, die wie folgt definiert sind:



D. Ergebnisse


Die in [43] vorgeschlagenen Benchmark-Ergebnisse für das Verhältnis von Quelle zu Verzerrung (SDR), Quelle zu Interferenzen (SIR) und Quelle zu Artefakten (SAR) sind in Tabelle II als Mittelwert und Standardabweichung dargestellt. Wie man sehen kann, schneidet Sound of Pixels, ausgewertet mit seinen ursprünglichen Gewichten, am schlechtesten ab. Ein möglicher Grund dafür könnte das Fehlen einiger URMP-Kategorien im MUSIC-Datensatz sein. Wenn wir das Netzwerk von Grund auf auf Solos trainieren, verbessern sich die Ergebnisse um fast 1 dB. Es ist jedoch möglich, ein noch besseres Ergebnis zu erzielen, wenn das mit MUSIC vortrainierte Netzwerk auf Solos feinabgestimmt wird. Wir vermuten, dass die Verbesserung eintritt, wenn das Netzwerk viel mehr Trainingsdaten ausgesetzt wird. Darüber hinaus zeigen die Tabellenergebnisse, wie sich durch die Verwendung leistungsfähigerer Architekturen wie MHU-Net eine höhere Leistung erzielen lässt.