paint-brush
Solos: Ein Datensatz für die audiovisuelle Musikanalyse - Datensatzvon@kinetograph
175 Lesungen

Solos: Ein Datensatz für die audiovisuelle Musikanalyse - Datensatz

Zu lang; Lesen

In diesem Artikel stellen Forscher Solos vor, einen sauberen Datensatz mit Solo-Musikdarbietungen zum Trainieren von Modellen maschinellen Lernens für verschiedene audiovisuelle Aufgaben.
featured image - Solos: Ein Datensatz für die audiovisuelle Musikanalyse - Datensatz
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autoren:

(1) Juan F. Montesinos, Fakultät für Informations- und Kommunikationstechnologien, Universitat Pompeu Fabra, Barcelona, Spanien {[email protected]};

(2) Olga Slizovskaia, Fakultät für Informations- und Kommunikationstechnologien, Universitat Pompeu Fabra, Barcelona, Spanien {[email protected]};

(3) Gloria Haro, Fakultät für Informations- und Kommunikationstechnologien, Universitat Pompeu Fabra, Barcelona, Spanien {[email protected]}.

Linktabelle

III. DATENSATZ

Solos[1] wurde so konzipiert, dass es dieselben Kategorien wie der URMP-Datensatz [1] enthält, sodass URMP als Testdatensatz in einem realen Szenario verwendet werden kann. Auf diese Weise wollen wir eine Standardmethode zur Bewertung der Leistungsfähigkeit von Quellentrennungsalgorithmen etablieren und dabei den Einsatz von Mix-and-Separate bei Tests vermeiden. Solos besteht aus 755 Aufnahmen, die auf 13 Kategorien verteilt sind, wie in Abbildung 1 dargestellt, mit einer durchschnittlichen Anzahl von 58 Aufnahmen pro Kategorie und einer durchschnittlichen Dauer von 5:16 Minuten. Interessant ist, dass bei 8 von 13 Kategorien der Median der Auflösung HD ist, obwohl es sich um einen von YouTube gesammelten Datensatz handelt. Statistiken nach Kategorien finden Sie in Tabelle I. Diese Aufnahmen wurden gesammelt, indem YouTube mit den Tags „Solo“ und „Auditions“ in mehreren Sprachen wie Englisch, Spanisch, Französisch, Italienisch, Chinesisch oder Russisch abgefragt wurde.


A. OpenPose-Skelette


Solos ist nicht nur eine Sammlung von Aufnahmen. Neben den Videokennungen bieten wir auch: i) Körper- und Handskelette, die von OpenPose [33] in jedem Frame jeder Aufnahme geschätzt werden, und ii) Zeitstempel, die nützliche Teile anzeigen. OpenPose ist ein System, das Körper- und Handskelette vorhersagen kann.


TABELLE ISTATISTIK DES SOLOS-DATENSATZES


Dabei kommen zwei verschiedene neuronale Netzwerke zum Einsatz. Dazu erstellen sie eine Konfidenzkarte der Annahme, dass sich ein bestimmter Körperteil an einem beliebigen Pixel befinden könnte, sowie Teilaffinitätsfelder, die den Grad der Assoziation zwischen verschiedenen Körperteilen kodieren. Schließlich werden 2D-Skelette und die Konfidenz pro Gelenk durch gierige Inferenz vorhergesagt. In der Praxis wird das Körperskelett mit einem ersten Netzwerk geschätzt. Dann wird die Position der Handgelenke im Körperskelett verwendet, um die Position beider Hände zu schätzen. Ein zweites neuronales Netzwerk ermittelt das Skelett jeder Hand unabhängig. Beachten Sie, dass OpenPose, da jeder Körperteil unabhängig geschätzt wird, keine Annahmen über die zu findenden Gliedmaßen trifft. Es berechnet lediglich das wahrscheinlichste Skelett anhand von Konfidenzkarten und Teilaffinitätsfeldern. Der gesamte Prozess wird Frame-weise ausgeführt. Dies führt zu einem leichten Flackern und Fehlvorhersagen zwischen den Frames.


B. Zeitstempelschätzung und Skelettverfeinerung



OpenPose ordnet falsch vorhergesagte Gelenke dem Ursprung der Koordinaten zu. Wir haben empirisch festgestellt, dass ein so großer Sprung in der Position eines Gelenks Rauschen verursacht. Die Verwendung interpolierter Koordinaten hilft, dieses Problem zu lösen.



[1] Datensatz verfügbar unter https://juanfmontesinos.github.io/Solos/