paint-brush
Solos : un ensemble de données pour l'analyse de la musique audiovisuelle - Travaux connexespar@kinetograph
152 lectures

Solos : un ensemble de données pour l'analyse de la musique audiovisuelle - Travaux connexes

Trop long; Pour lire

Dans cet article, les chercheurs présentent Solos, un ensemble de données claires de performances musicales en solo pour former des modèles d'apprentissage automatique sur diverses tâches audiovisuelles.
featured image - Solos : un ensemble de données pour l'analyse de la musique audiovisuelle - Travaux connexes
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Auteurs:

(1) Juan F. Montesinos, Département des technologies de l'information et des communications, Universitat Pompeu Fabra, Barcelone, Espagne {[email protected]} ;

(2) Olga Slizovskaia, Département des technologies de l'information et des communications, Universitat Pompeu Fabra, Barcelone, Espagne {[email protected]} ;

(3) Gloria Haro, Département des technologies de l'information et des communications, Universitat Pompeu Fabra, Barcelone, Espagne {[email protected]}.

Tableau des liens

II. TRAVAUX CONNEXES

L'ensemble de données sur les performances musicales multimodales (URMP) de l'Université de Rochester [1] est un ensemble de données contenant 44 enregistrements vidéo multi-instruments de morceaux de musique classique. Chaque instrument présent dans une pièce a été enregistré séparément, à la fois avec de la vidéo et de l'audio de haute qualité avec un microphone autonome, afin d'avoir des pistes individuelles fidèles à la réalité du terrain. Bien que jouant séparément, les instruments ont été coordonnés à l'aide d'une vidéo de direction avec un pianiste jouant afin de définir le timing commun pour les différents musiciens. Après synchronisation, l'audio des vidéos individuelles a été remplacé par l'audio de haute qualité du microphone, puis différents enregistrements ont été assemblés pour créer le mélange : les enregistrements audio individuels de haute qualité ont été additionnés pour créer le mélange audio et le contenu visuel. a été composé en une seule vidéo avec un arrière-plan commun où tous les joueurs étaient disposés au même niveau de gauche à droite. Pour chaque morceau, l'ensemble de données fournit la partition musicale au format MIDI, les enregistrements audio des instruments individuels de haute qualité et les vidéos des pièces assemblées. Les instruments présents dans l'ensemble de données, illustrés à la figure 1, sont des instruments courants dans les orchestres de chambre. Malgré toutes ses bonnes caractéristiques, il s’agit d’un petit ensemble de données et donc peu approprié pour la formation d’architectures d’apprentissage profond.


Deux autres ensembles de données d'enregistrements audiovisuels de performances d'instruments de musique ont été présentés récemment : Music [23] et MusicES [31]. La musique comprend 536 enregistrements de solos et 149 vidéos de duos répartis en 11 catégories : accordéon, guitare acoustique, violoncelle, clarinette, erhu, flûte, saxophone, trompette, tuba, violon et xylophone. Cet ensemble de données a été collecté en interrogeant YouTube. MusicES [31] est une extension de MUSIC qui fait environ le triple de sa taille originale avec environ 1475 enregistrements mais répartis en 9 catégories : accordéon, guitare, violoncelle, flûte, saxophone, trompette, tuba, violon et xylophone. Il existe 7 catégories communes en MUSIQUE et Solos : violon, violoncelle, flûte, clarinette, saxophone, trompette et tuba. Les catégories communes entre MusicES et Solos sont au nombre de 6 (les premières sauf la clarinette). Solos et MusicES sont complémentaires. Il n’y a qu’une petite intersection de 5 % entre les deux, ce qui signifie que les deux ensembles de données peuvent être combinés en un plus grand.


On peut trouver dans la littérature plusieurs exemples qui montrent l’utilité des jeux de données audiovisuelles. Le Sound of Pixels [23] effectue une séparation des sources audio en générant des composants spectraux audio qui sont en outre intelligemment sélectionnés en utilisant des caractéristiques visuelles provenant du flux vidéo pour obtenir des sources séparées. Cette idée a été étendue dans [20] afin de séparer les différents sons présents dans le mélange de manière récursive. A chaque étape, le système sépare la source la plus saillante de celles restant dans le mélange. Le Sound of Motions [19] utilise des trajectoires denses obtenues à partir du flux optique pour conditionner la séparation des sources audio, étant capable


Fig. 1. Catégories d'instruments Solos et URMP. Image adaptée de [1].


même pour séparer des mélanges provenant du même instrument. Le conditionnement visuel est également utilisé dans [18] pour séparer différents instruments ; pendant l'entraînement, une perte de classification est utilisée sur les sons séparés pour assurer la cohérence des objets et une perte de co-séparation force les sons individuels estimés à produire les mélanges originaux une fois réassemblés. Dans [17], les auteurs ont développé une méthode basée sur l'énergie qui minimise un terme de factorisation matricielle non négative avec une matrice d'activation qui est forcée d'être alignée sur une matrice contenant des informations de mouvement par source. Cette matrice de mouvement contient les vitesses d'amplitude moyennes des trajectoires de mouvement regroupées dans chaque boîte englobante de joueur.


Des travaux récents montrent l’utilisation croissante des squelettes dans les tâches audiovisuelles. Dans Audio to body Dynamics [29], les auteurs montrent qu'il est possible de prédire des squelettes reproduisant les mouvements de joueurs jouant d'instruments tels que le piano ou le violon. Les squelettes se sont révélés utiles pour établir des correspondances audiovisuelles, telles que le mouvement du corps ou des doigts avec des débuts de notes ou des fluctuations de hauteur, dans les performances de musique de chambre [21]. Un travail récent [32] aborde le problème de séparation des sources de manière similaire à Sound of Motions [19] mais en remplaçant les trajectoires denses par des informations squelettes.


Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.