paint-brush
Solos : un ensemble de données pour l'analyse de la musique audiovisuelle - Ensemble de donnéespar@kinetograph
144 lectures

Solos : un ensemble de données pour l'analyse de la musique audiovisuelle - Ensemble de données

Trop long; Pour lire

Dans cet article, les chercheurs présentent Solos, un ensemble de données claires de performances musicales en solo pour former des modèles d'apprentissage automatique sur diverses tâches audiovisuelles.
featured image - Solos : un ensemble de données pour l'analyse de la musique audiovisuelle - Ensemble de données
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Auteurs:

(1) Juan F. Montesinos, Département des technologies de l'information et des communications, Universitat Pompeu Fabra, Barcelone, Espagne {[email protected]} ;

(2) Olga Slizovskaia, Département des technologies de l'information et des communications, Universitat Pompeu Fabra, Barcelone, Espagne {[email protected]} ;

(3) Gloria Haro, Département des technologies de l'information et des communications, Universitat Pompeu Fabra, Barcelone, Espagne {[email protected]}.

Tableau des liens

III. BASE DE DONNÉES

Solos[1] a été conçu pour avoir les mêmes catégories que l'ensemble de données URMP [1], afin que l'URMP puisse être utilisé comme ensemble de données de test dans un scénario réel. De cette façon, nous visons à établir une manière standard d'évaluer les performances des algorithmes de séparation de sources en évitant l'utilisation du mix-and-separate dans les tests. Les solos se composent de 755 enregistrements répartis en 13 catégories, comme le montre la figure 1, avec une quantité moyenne de 58 enregistrements par catégorie et une durée moyenne de 5 :16 min. Il est intéressant de souligner que, pour 8 catégories sur 13, la résolution médiane est HD, bien qu’il s’agisse d’un ensemble de données collectées sur YouTube. Les statistiques par catégorie peuvent être trouvées dans le tableau I. Ces enregistrements ont été rassemblés en interrogeant YouTube à l'aide des balises solo et des auditions dans plusieurs langues telles que l'anglais, l'espagnol, le français, l'italien, le chinois ou le russe.


A. Squelettes OpenPose


Les solos ne sont pas seulement un ensemble d’enregistrements. Outre les identifiants vidéo, nous fournissons également : i) des squelettes de corps et de mains estimés par OpenPose [33] dans chaque image de chaque enregistrement et ii) des horodatages indiquant les parties utiles. OpenPose est un système capable de prédire le squelette du corps et des mains


TABLEAU STATISTIQUES DE L'ENSEMBLE DE DONNÉES SOLOS


en utilisant deux réseaux de neurones différents. Pour ce faire, ils prédisent une carte de confiance de la croyance selon laquelle une partie spécifique du corps peut être localisée à un pixel donné, ainsi que des champs d'affinité de partie qui codent le degré d'association entre différentes parties du corps. Enfin, il prédit les squelettes 2D et la confiance par articulation via une inférence gourmande. En pratique, le squelette corporel est estimé avec un premier réseau. Ensuite, la position des poignets dans le squelette du corps est utilisée pour estimer la position des deux mains. Un deuxième réseau neuronal obtient indépendamment le squelette de chaque main. Notez que puisque chaque partie du corps est estimée indépendamment, OpenPose ne fait aucune hypothèse sur les membres à trouver. Il calcule simplement le squelette le plus probable en fonction des cartes de confiance et des champs d'affinité des pièces. L'ensemble du processus est effectué par trame. Cela entraîne un léger scintillement et des erreurs de prédiction entre les images.


B. Estimation des horodatages et affinement du squelette



OpenPose mappe les articulations mal estimées à l'origine des coordonnées. Nous avons constaté empiriquement qu’un saut aussi important dans la position d’une articulation induit du bruit. L'utilisation de coordonnées interpolées permet de résoudre ce problème.


Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.


[1] Ensemble de données disponible sur https://juanfmontesinos.github.io/Solos/