paint-brush
Solos: Ein Datensatz für audiovisuelle Musikanalyse - Verwandte Arbeitenvon@kinetograph
134 Lesungen

Solos: Ein Datensatz für audiovisuelle Musikanalyse - Verwandte Arbeiten

Zu lang; Lesen

In diesem Artikel stellen Forscher Solos vor, einen sauberen Datensatz mit Solo-Musikdarbietungen zum Trainieren von Modellen maschinellen Lernens für verschiedene audiovisuelle Aufgaben.
featured image - Solos: Ein Datensatz für audiovisuelle Musikanalyse - Verwandte Arbeiten
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autoren:

(1) Juan F. Montesinos, Fakultät für Informations- und Kommunikationstechnologien, Universitat Pompeu Fabra, Barcelona, Spanien {[email protected]};

(2) Olga Slizovskaia, Fakultät für Informations- und Kommunikationstechnologien, Universitat Pompeu Fabra, Barcelona, Spanien {[email protected]};

(3) Gloria Haro, Fakultät für Informations- und Kommunikationstechnologien, Universitat Pompeu Fabra, Barcelona, Spanien {[email protected]}.

Linktabelle

II. VERWANDTE ARBEITEN

Der Multi-Modal Music Performance Dataset (URMP) der University of Rochester [1] ist ein Datensatz mit 44 Videoaufnahmen klassischer Musikstücke mit mehreren Instrumenten. Jedes in einem Stück vorkommende Instrument wurde separat aufgenommen, sowohl mit Video als auch mit hochwertigem Audio mit einem eigenständigen Mikrofon, um akkurate Einzelspuren zu erhalten. Obwohl die Instrumente separat spielten, wurden sie mithilfe eines Dirigiervideos mit einem spielenden Pianisten koordiniert, um das gemeinsame Timing für die verschiedenen Spieler festzulegen. Nach der Synchronisierung wurde der Ton der einzelnen Videos durch den hochwertigen Ton des Mikrofons ersetzt und dann wurden verschiedene Aufnahmen zusammengesetzt, um die Mischung zu erstellen: Die einzelnen hochwertigen Audioaufnahmen wurden addiert, um die Audiomischung zu erstellen, und der visuelle Inhalt wurde in einem einzigen Video mit einem gemeinsamen Hintergrund zusammengesetzt, in dem alle Spieler von links nach rechts auf derselben Ebene angeordnet waren. Für jedes Stück enthält der Datensatz die Partitur im MIDI-Format, die hochwertigen Audioaufnahmen der einzelnen Instrumente und die Videos der zusammengestellten Stücke. Die im Datensatz vorhandenen Instrumente, die in Abbildung 1 dargestellt sind, sind gängige Instrumente in Kammerorchestern. Trotz aller guten Eigenschaften handelt es sich um einen kleinen Datensatz und ist daher nicht für das Training von Deep-Learning-Architekturen geeignet.


Kürzlich wurden zwei weitere Datensätze mit audiovisuellen Aufnahmen von Darbietungen musikalischer Instrumente vorgestellt: Music [23] und MusicES [31]. Music besteht aus 536 Aufnahmen von Solos und 149 Videos von Duetten in 11 Kategorien: Akkordeon, Akustikgitarre, Cello, Klarinette, Erhu, Flöte, Saxophon, Trompete, Tuba, Violine und Xylophon. Dieser Datensatz wurde durch eine Abfrage von YouTube zusammengestellt. MusicES [31] ist eine Erweiterung von MUSIC auf etwa das Dreifache seiner ursprünglichen Größe mit ungefähr 1475 Aufnahmen, allerdings stattdessen verteilt auf 9 Kategorien: Akkordeon, Gitarre, Cello, Flöte, Saxophon, Trompete, Tuba, Violine und Xylophon. Es gibt 7 gemeinsame Kategorien in MUSIC und Solos: Violine, Cello, Flöte, Klarinette, Saxophon, Trompete und Tuba. MusicES und Solos haben 6 gemeinsame Kategorien (die ersteren außer Klarinette). Solos und MusicES ergänzen sich gegenseitig. Zwischen beiden besteht nur eine geringe Überschneidung von 5 %, so dass die beiden Datensätze zu einem größeren kombiniert werden können.


In der Literatur finden wir mehrere Beispiele, die den Nutzen audiovisueller Datensätze zeigen. The Sound of Pixels [23] führt eine Audioquellentrennung durch und erzeugt Audiospektralkomponenten, die dann mithilfe visueller Merkmale aus dem Videostream intelligent ausgewählt werden, um getrennte Quellen zu erhalten. Diese Idee wurde in [20] weiter ausgebaut, um die verschiedenen in der Mischung vorhandenen Klänge rekursiv zu trennen. In jeder Phase trennt das System die auffälligste Quelle von den in der Mischung verbleibenden. The Sound of Motions [19] verwendet dichte Trajektorien, die aus dem optischen Fluss gewonnen werden, um die Audioquellentrennung zu konditionieren, und ist in der Lage


Abb. 1. Solos und URMP-Instrumentkategorien. Bild adaptiert aus [1].


sogar um Mischungen desselben Instruments zu trennen. Visuelle Konditionierung wird auch in [18] verwendet, um verschiedene Instrumente zu trennen; während des Trainings wird ein Klassifizierungsverlust auf die getrennten Klänge angewendet, um die Objektkonsistenz zu erzwingen, und ein Co-Separationsverlust zwingt die geschätzten Einzelklänge, nach der Wiederzusammenstellung die ursprünglichen Mischungen zu produzieren. In [17] entwickelten die Autoren eine energiebasierte Methode, die einen nicht-negativen Matrixfaktorisierungsterm mit einer Aktivierungsmatrix minimiert, die gezwungen ist, an einer Matrix ausgerichtet zu sein, die Bewegungsinformationen pro Quelle enthält. Diese Bewegungsmatrix enthält die durchschnittlichen Geschwindigkeitsgrößen der gruppierten Bewegungstrajektorien in jedem Spielerbegrenzungsrahmen.


Neuere Arbeiten zeigen den zunehmenden Einsatz von Skeletten bei audiovisuellen Aufgaben. In Audio to body dynamics [29] zeigen die Autoren, dass es möglich ist, Skelette vorherzusagen, die die Bewegungen von Spielern reproduzieren, die Instrumente wie Klavier oder Geige spielen. Skelette haben sich als nützlich erwiesen, um audiovisuelle Korrespondenzen herzustellen, wie etwa Körper- oder Fingerbewegungen mit Tonansätzen oder Tonhöhenschwankungen, bei Kammermusikaufführungen [21]. Eine neuere Arbeit [32] befasst sich mit dem Problem der Quellentrennung auf ähnliche Weise wie Sound of Motions [19], ersetzt jedoch die dichten Trajektorien durch Skelettinformationen.