Auteurs:
(1) Juan F. Montesinos, Département des technologies de l'information et des communications, Universitat Pompeu Fabra, Barcelone, Espagne {[email protected]} ;
(2) Olga Slizovskaia, Département des technologies de l'information et des communications, Universitat Pompeu Fabra, Barcelone, Espagne {[email protected]} ;
(3) Gloria Haro, Département des technologies de l'information et des communications, Universitat Pompeu Fabra, Barcelone, Espagne {[email protected]}.
Afin de montrer l'adéquation des Solos, nous nous sommes concentrés sur le problème de séparation aveugle des sources et avons formé les modèles The Sound of Pixels (SoP) [23] et Multi-head U-Net (MHUNet) [34] sur le nouvel ensemble de données. . Nous avons réalisé quatre expériences : i) nous avons évalué le modèle pré-entraîné SoP fourni par les auteurs ; ii) nous avons formé SoP à partir de zéro ; iii) nous avons affiné le SoP sur les solos à partir des poids du modèle pré-entraîné sur MUSIC et iv) nous avons formé le U-Net multi-têtes à partir de zéro. MHU-Net a été formé pour séparer les mélanges avec le nombre de sources varié de deux à sept suivant une procédure d'apprentissage du programme car cela améliore les résultats. SoP a été formé selon la stratégie optimale décrite dans [23].
L'évaluation est effectuée sur l'ensemble de données URMP [1] en utilisant les mélanges réels qu'ils fournissent. Les pistes URMP sont divisées séquentiellement en segments d'une durée de 6 secondes. Les métriques sont obtenues à partir de toutes les divisions résultantes.
A. Architectures et détails de la formation
Nous avons choisi The Sound of Pixels comme référence car ses poids sont accessibles au public et le réseau est formé de manière simple. SoP est composé de trois sous-réseaux principaux : Un ResNet dilaté [35] comme réseau d'analyse vidéo, un U-Net [36] comme réseau de traitement audio et un réseau de synthétiseur audio. Nous comparons également ses résultats avec un U-Net multi-têtes [34].
U-Net [37] est une architecture codeur-décodeur avec des connexions sautées entre les deux. Les connexions ignorées aident à récupérer la structure spatiale d'origine. MHU-Net est un pas en avant car il comprend autant de décodeurs que de sources possibles. Chaque décodeur est spécialisé dans une seule source, améliorant ainsi les performances.
Le son des pixels [23] ne suit pas l'architecture originale UNet proposée pour l'imagerie biomédicale, mais l'UNet décrite dans [36], qui a été réglée pour la séparation des voix chantées. Au lieu d'avoir deux convolutions par bloc suivies d'un pooling maximum, ils utilisent une seule convolution avec
un noyau plus gros et une foulée. Le travail original propose un bloc central avec des paramètres apprenables alors que le bloc central est un espace latent statique dans SoP. U-Net a été largement utilisé comme épine dorsale de plusieurs architectures pour des tâches telles que la génération d'images [38], la suppression du bruit et la super-résolution [39], la traduction d'image à image [40], la segmentation d'images [37] ou la source audio. séparation [36]. SoP U-Net se compose de 7 blocs avec respectivement 32, 64, 128, 256, 512, 512 et 512 canaux (6 blocs pour le MHU-Net). L'espace latent peut être considéré comme la dernière sortie du codeur. Dilated ResNet est une architecture de type ResNet qui utilise des convolutions dilatées pour conserver le champ récepteur tout en augmentant la résolution spatiale résultante. La sortie de l'U-Net est un ensemble de 32 composants spectraux (canaux) qui ont la même taille que le spectrogramme d'entrée, dans le cas de SoP, et une seule source par décodeur dans le cas de MHU-Net. Étant donné un cadre représentatif, les caractéristiques visuelles sont obtenues à l’aide du Dilated ResNet. Ces caractéristiques visuelles ne sont rien d'autre qu'un vecteur de 32 éléments (qui correspond au nombre de canaux de sortie d'UNet) qui sont utilisés pour sélectionner les composantes spectrales appropriées. Cette sélection est effectuée par le réseau d'analyse audio composé de 32 paramètres apprenables, αk, plus un biais, β. Cette opération peut être mathématiquement décrite comme suit :
où Sk(t, f) est la k-ème composante spectrale prédite dans l'intervalle temps-fréquence (t, f).
La figure 2 illustre la configuration SoP. Il est intéressant de souligner que la réalisation du réseau visuel pour sélectionner les composantes spectrales l'oblige à apprendre indirectement la localisation des instruments, qui peut être déduite via des cartes d'activation.
Le calcul du masque de vérité terrain pour SoP et MHU-Net est décrit dans l'équation. (2) et l'équation. (3), article. IV-C.
B. Prétraitement des données
Afin d'entraîner les architectures susmentionnées, l'audio est ré-échantillonné à 11 025 Hz et 16 bits. Les échantillons introduits dans le réseau durent 6 secondes. Nous utilisons la transformée de Fourier à court terme (STFT) pour obtenir des représentations temps-fréquence des formes d'onde. D'après [23], STFT est calculé en utilisant une fenêtre de Hanning de longueur 1022 et une longueur de saut de 256 afin d'obtenir un spectrogramme de taille 512×256 pour un échantillon de 6 secondes. Plus tard, nous appliquons une rééchelle logarithmique sur l’axe des fréquences en élargissant les fréquences inférieures et en compressant les fréquences supérieures. Enfin, nous convertissons les spectrogrammes de magnitude en dB par rapport à la valeur minimale de chaque spectrogramme et normalisons entre -1 et 1.
C. Masque de vérité terrain
Avant d’introduire les calculs de masques de vérité terrain, nous aimerions souligner quelques considérations. Le format audio standard à virgule flottante impose qu'une forme d'onde soit limitée entre -1 et 1. Au moment de la création de mélanges artificiels, les formes d'onde résultantes peuvent être en dehors de ces limites. Cela peut aider les réseaux de neurones à trouver des raccourcis pour surajuster. Pour éviter ce comportement, les spectrogrammes sont limités en fonction des limites équivalentes dans le domaine temps-fréquence.
La transformée de Fourier discrète à court terme peut être calculée comme décrit dans [42] :
Pour la formation Sound of Pixels, nous avons utilisé des masques binaires complémentaires comme masques de vérité terrain, définis comme :
Le Multi-head U-Net a été entraîné avec des masques à ratio complémentaire, définis comme :
D. Résultats
Les résultats de référence pour le rapport source sur distorsion (SDR), le rapport source sur interférences (SIR) et le rapport sources sur artefacts (SAR) proposés dans [43] sont présentés dans le tableau II en termes de moyenne et d'écart type. Comme on peut l'observer, Sound of Pixels, évalué à l'aide de ses poids d'origine, est le moins performant. Une raison possible à cela pourrait être l’absence de certaines catégories URMP dans l’ensemble de données MUSIC. Si nous entraînons le réseau à partir de zéro sur Solos, les résultats s'améliorent de près de 1 dB. Cependant, il est possible d'obtenir un résultat encore meilleur en ajustant le réseau, pré-entraîné avec MUSIC, sur Solos. Nous émettons l’hypothèse que l’amélioration se produit à mesure que le réseau est exposé à beaucoup plus de données de formation. De plus, les résultats du tableau montrent comment il est possible d'atteindre des performances plus élevées en utilisant des architectures plus puissantes comme MHU-Net.
Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.