paint-brush
Solos: un conjunto de datos para el análisis de música audiovisual: experimentospor@kinetograph
132 lecturas

Solos: un conjunto de datos para el análisis de música audiovisual: experimentos

Demasiado Largo; Para Leer

En este artículo, los investigadores presentan Solos, un conjunto de datos limpio de interpretaciones musicales en solitario para entrenar modelos de aprendizaje automático en diversas tareas audiovisuales.
featured image - Solos: un conjunto de datos para el análisis de música audiovisual: experimentos
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Juan F. Montesinos, Departamento de Tecnologías de la Información y las Comunicaciones Universitat Pompeu Fabra, Barcelona, España {[email protected]};

(2) Olga Slizovskaia, Departamento de Tecnologías de la Información y las Comunicaciones Universitat Pompeu Fabra, Barcelona, España {[email protected]};

(3) Gloria Haro, Departamento de Tecnologías de la Información y las Comunicaciones Universitat Pompeu Fabra, Barcelona, España {[email protected]}.

Tabla de enlaces

IV. EXPERIMENTOS

Para mostrar la idoneidad de Solos, nos hemos centrado en el problema de la separación de fuentes ciegas y hemos entrenado los modelos The Sound of Pixels (SoP) [23] y Multi-head U-Net (MHUNet) [34] en el nuevo conjunto de datos. . Hemos realizado cuatro experimentos: i) hemos evaluado el modelo preentrenado SoP proporcionado por los autores; ii) hemos entrenado a SoP desde cero; iii) hemos ajustado el SoP en Solos a partir de los pesos del modelo previamente entrenado en MUSIC y iv) hemos entrenado el U-Net multicabezal desde cero. MHU-Net ha sido capacitado para separar mezclas con un número de fuentes que varía de dos a siete siguiendo un procedimiento de aprendizaje curricular a medida que mejora los resultados. SoP ha sido entrenado de acuerdo con la estrategia óptima descrita en [23].


La evaluación se realiza en el conjunto de datos URMP [1] utilizando las mezclas reales que proporcionan. Las pistas URMP se dividen secuencialmente en segmentos de 6 segundos de duración. Las métricas se obtienen de todas las divisiones resultantes.


A. Arquitecturas y detalles de capacitación.


Hemos elegido The Sound of Pixels como base ya que sus pesos están disponibles públicamente y la red está entrenada de manera sencilla. SoP se compone de tres subredes principales: una ResNet dilatada [35] como red de análisis de video, una U-Net [36] como red de procesamiento de audio y una red de sintetizador de audio. También comparamos sus resultados con un U-Net de cabezales múltiples [34].


U-Net [37] es una arquitectura codificador-decodificador con conexiones de salto en el medio. Las conexiones saltadas ayudan a recuperar la estructura espacial original. MHU-Net es un paso adelante ya que consta de tantos decodificadores como fuentes posibles. Cada decodificador está especializado en una única fuente, mejorando así el rendimiento.


El sonido de los píxeles [23] no sigue la arquitectura UNet original propuesta para imágenes biomédicas, sino la UNet descrita en [36], que fue sintonizada para la separación de voces cantadas. En lugar de tener dos convoluciones por bloque seguidas de max-pooling, usan una sola convolución con


Fig. 2. Arquitecturas consideradas. Izquierda, Sonido de píxeles: la red toma como entrada un espectrograma de mezcla y devuelve una máscara binaria dado el vector de características visuales de la fuente deseada. Derecha, U-Net de cabezales múltiples: toma como entrada un espectrograma de mezcla y devuelve 13 máscaras de proporciones, una por decodificador.


un núcleo más grande y zancadas. El trabajo original propone un bloque central con parámetros que se pueden aprender, mientras que el bloque central es un espacio latente estático en SoP. U-Net se ha utilizado ampliamente como columna vertebral de varias arquitecturas para tareas como generación de imágenes [38], supresión de ruido y superresolución [39], traducción de imagen a imagen [40], segmentación de imágenes [37] o fuente de audio. separación [36]. SoP U-Net consta de 7 bloques con 32, 64, 128, 256, 512, 512 y 512 canales respectivamente (6 bloques para MHU-Net). El espacio latente puede considerarse como la última salida del codificador. Dilated ResNet es una arquitectura similar a ResNet que utiliza convoluciones dilatadas para mantener el campo receptivo mientras aumenta la resolución espacial resultante. La salida de U-Net es un conjunto de 32 componentes espectrales (canales) que tienen el mismo tamaño que el espectrograma de entrada, en el caso de SoP, y una única fuente por decodificador en el caso de MHU-Net. Dado un marco representativo, las características visuales se obtienen utilizando Dilated ResNet. Estas características visuales no son más que un vector de 32 elementos (que corresponde al número de canales de salida de UNet) que se utilizan para seleccionar los componentes espectrales adecuados. Esta selección la realiza la red de análisis de audio que consta de 32 parámetros que se pueden aprender, αk, más un sesgo, β. Esta operación se puede describir matemáticamente de la siguiente manera:



donde Sk(t, f) es el k-ésimo componente espectral predicho en el intervalo de tiempo-frecuencia (t, f).


La Figura 2 ilustra la configuración de SoP. Es interesante resaltar que hacer que la red visual seleccione los componentes espectrales la obliga a aprender indirectamente la localización del instrumento, lo que puede inferirse mediante mapas de activación.




El cálculo de la máscara de verdad sobre el terreno tanto para SoP como para MHU-Net se describe en la ecuación. (2) y la ecuación. (3), sec. IV-C.


B. Preprocesamiento de datos


Para entrenar las arquitecturas antes mencionadas, el audio se vuelve a muestrear a 11025 Hz y 16 bits. Las muestras alimentadas a la red tienen una duración de 6 segundos. Utilizamos la transformada de Fourier de corto tiempo (STFT) para obtener representaciones de formas de onda en el tiempo y en la frecuencia. Siguiendo [23], STFT se calcula utilizando una ventana de Hanning de longitud 1022 y una longitud de salto de 256, de modo que obtengamos un espectrograma de tamaño 512 × 256 para una muestra de 6 s. Posteriormente, aplicamos una reescala logarítmica en el eje de frecuencia expandiendo las frecuencias más bajas y comprimiendo las más altas. Por último, convertimos los espectrogramas de magnitud a dB con respecto al valor mínimo de cada espectrograma y los normalizamos entre -1 y 1.


C. Máscara de verdad sobre el terreno


Antes de introducir los cálculos de máscaras de verdad sobre el terreno, nos gustaría señalar algunas consideraciones. El formato de audio de punto flotante estándar impone una forma de onda limitada entre -1 y 1. En el momento de crear mezclas artificiales, las formas de onda resultantes pueden estar fuera de estos límites. Esto puede ayudar a las redes neuronales a encontrar atajos para sobreadaptarse. Para evitar este comportamiento, los espectrogramas se sujetan según los límites equivalentes en el dominio de tiempo-frecuencia.


La transformada de Fourier discreta de corto tiempo se puede calcular como se describe en [42]:



TABLA II RESULTADOS DE REFERENCIA (PROMEDIO ± DESVIACIÓN ESTÁNDAR). SOP: SONIDO DE PÍXELES PESOS ORIGINALES, SOP-SOLOS: SONIDO DE PÍXELES ENTRENADOS DESDE CERO EN SOLOS. SOP-FT: SONIDO DE PÍXELES AJUSTADO EN SOLOS. MHU-NET: U-NET MULTICABEZAL CON 13 DECODIFICADORES.


Para entrenar Sound of Pixels hemos utilizado máscaras binarias complementarias como máscaras de verdad sobre el terreno, definidas como:



El U-Net multicabezal ha sido entrenado con máscaras de proporciones complementarias, definidas como:



D. Resultados


Los resultados de referencia para la relación fuente-distorsión (SDR), la relación fuente-interferencias (SIR) y la relación fuentes-artefactos (SAR) propuestos en [43] se muestran en la Tabla II en términos de media y desviación estándar. Como se puede observar, Sound of Pixels evaluado usando sus pesos originales tiene el peor desempeño. Una posible razón para esto podría ser la ausencia de algunas de las categorías URMP en el conjunto de datos MUSIC. Si entrenamos la red desde cero en Solos, los resultados mejoran casi 1 dB. Sin embargo, es posible lograr un resultado aún mejor ajustando la red, previamente entrenada con MUSIC, en Solos. Nuestra hipótesis es que la mejora se produce a medida que la red está expuesta a muchos más datos de entrenamiento. Además, los resultados de la tabla muestran cómo es posible alcanzar un mayor rendimiento utilizando arquitecturas más potentes como MHU-Net.


Este documento está disponible en arxiv bajo licencia CC BY-NC-SA 4.0 DEED.