Autores:
(1) Juan F. Montesinos, Departamento de Tecnologias de Informação e Comunicação Universitat Pompeu Fabra, Barcelona, Espanha {[email protected]};
(2) Olga Slizovskaia, Departamento de Tecnologias de Informação e Comunicação Universitat Pompeu Fabra, Barcelona, Espanha {[email protected]};
(3) Gloria Haro, Departamento de Tecnologias de Informação e Comunicação Universitat Pompeu Fabra, Barcelona, Espanha {[email protected]}.
Apresentamos Solos, um novo conjunto de dados audiovisuais de gravações musicais de solistas, adequado para diferentes tarefas de aprendizagem auto-supervisionadas, como separação de fontes usando a estratégia mix-and-separate, localização de som, geração cross-modal e localização de recursos audiovisuais. correspondências. Existem 13 instrumentos diferentes no conjunto de dados; esses são instrumentos comuns em orquestras de câmara e incluídos no conjunto de dados de Performance Musical Multimodal da Universidade de Rochester (URMP) [1]. As características do URMP – pequeno conjunto de dados de desempenhos reais com hastes individuais verdadeiras – tornam-no um conjunto de dados adequado para fins de teste, mas até onde sabemos, até o momento não existe nenhum conjunto de dados em grande escala com os mesmos instrumentos que no URMP. Duas redes diferentes para separação de fontes audiovisuais baseadas na arquitetura U-Net foram treinadas no novo conjunto de dados e avaliadas posteriormente no URMP, mostrando o impacto do treinamento no mesmo conjunto de instrumentos do conjunto de teste. Além disso, Solos fornece esqueletos e carimbos de data/hora para intervalos de vídeo onde os ponteiros são suficientemente visíveis. Esta informação pode ser útil para fins de treinamento e também para aprender a resolver a tarefa de localização sonora.
[1] B. Li, X. Liu, K. Dinesh, Z. Duan e G. Sharma, “Criando um conjunto de dados de desempenho de música clássica multitrack para análise de música multimodal: Desafios, insights e aplicações”, IEEE Transactions on Multimedia, vol. 21, não. 2, pp. 522–535, fevereiro de 2019.
[2] B. Li, K. Dinesh, Z. Duan e G. Sharma, “Ver e ouvir: associação informada por pontuação de trilhas sonoras para músicos em vídeos de performance de música de câmara”, em 2017 Conferência Internacional IEEE sobre Acústica, Fala e Sinal Processamento (ICASSP). IEEE, 2017, pp.
[3] EC Cherry, “Algumas experiências sobre o reconhecimento da fala, com um e com dois ouvidos”, The Journal of the Acoustical Society of America, vol. 25, não. 5, pp.
[4] A. Hyvarinen e E. Oja, “Análise de componentes independentes: algoritmos ¨ e aplicações”, Redes Neurais, vol. 13, não. 4-5, pp.
[5] M. Zibulevsky e BA Pearlmutter, “Separação cega de fontes por decomposição esparsa em um dicionário de sinais”, Computação neural, vol. 13, não. 4, pp. 863–882, 2001.
[6] T. Virtanen, “Separação de fonte de som mono por fatoração de matriz não negativa com critérios de continuidade temporal e dispersão”, transações IEEE em processamento de áudio, fala e linguagem, vol. 15, não. 3, pp. 1066–1074, 2007.
[7] DPW Ellis, “Análise de cena auditiva computacional orientada por previsão”, Ph.D. dissertação, Instituto de Tecnologia de Massachusetts, 1996.
[8] P. Smaragdis, B. Raj e M. Shashanka, “Um modelo probabilístico de variável latente para modelagem acústica”, Avanços em modelos para processamento acústico, NIPS, vol. 148, pp. 8–1, 2006.
[9] P. Chandna, M. Miron, J. Janer e E. Gomez, “Separação de fonte de áudio monoaural usando redes neurais convolucionais profundas”, na Conferência Internacional sobre Análise de Variável Latente e Separação de Sinal, 2017, pp. 266.
[10] D. Stoller, S. Ewert e S. Dixon, “Wave-u-net: Uma rede neural multiescala para separação de fonte de áudio ponta a ponta”, pré-impressão arXiv arXiv:1806.03185, 2018.
[11] JR Hershey e JR Movellan, “Visão de áudio: usando sincronia audiovisual para localizar sons”, em Avanços em sistemas de processamento de informações neurais, 2000, pp.
[12] E. Kidron, YY Schechner e M. Elad, “Pixels that sound”, em Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, vol. 1, 2005, pp.
[13] T. Darrell, JW Fisher e P. Viola, “Segmentação audiovisual e efeito coquetel”, em Advances in Multimodal InterfacesICMI 2000, 2000, pp.
[14] D. Sodoyer, J.-L. Schwartz, L. Girin, J. Klinkisch e C. Jutten, “Separação de fontes audiovisuais de fala: uma nova abordagem que explora a coerência audiovisual de estímulos de fala”, EURASIP Journal on Advances in Signal Processing, vol. 2002, não. 11, pág. 382823, 2002.
[15] B. Rivet, L. Girin e C. Jutten, “Misturando processamento de fala audiovisual e separação cega de fontes para a extração de sinais de fala de misturas convolutivas”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 15, não. 96–108, 2007.
[16] B. Li, C. Xu e Z. Duan, “Associação de fontes audiovisuais para conjuntos de cordas por meio de análise de vibrato multimodal”, Proc. Computação de Som e Música (SMC), 2017.
[17] S. Parekh, S. Essid, A. Ozerov, NQ Duong, P. Perez e G. Richard, ´ “Guiando a separação da fonte de áudio por informações de objetos de vídeo”, em Aplicações de Processamento de Sinais para Áudio e Acústica (WASPAA ), Workshop IEEE 2017 em, 2017, pp.
[18] R. Gao e K. Grauman, “Co-separando sons de objetos visuais”, em Proceedings of the IEEE International Conference on Computer Vision, 2019, pp.
[19] H. Zhao, C. Gan, W.-C. Ma e A. Torralba, “O som dos movimentos”, em Proceedings of the IEEE International Conference on Computer Vision, 2019, pp.
[20] X. Xu, B. Dai e D. Lin, “Separação visual recursiva de som usando rede menos-mais”, em Proceedings of the IEEE International Conference on Computer Vision, 2019, pp.
[21] B. Li, K. Dinesh, C. Xu, G. Sharma e Z. Duan, “Associação de fontes audiovisuais online para apresentações de música de câmara”, Transactions of the International Society for Music Information Retrieval, vol. 2, não. 1, 2019.
[22] R. Arandjelovic e A. Zisserman, “Objects that sound”, em 'Proceedings of the IEEE European Conference on Computer Vision, 2018.
[23] H. Zhao, C. Gan, A. Rouditchenko, C. Vondrick, J. McDermott e A. Torralba, “The sound of pixels”, na Conferência Europeia sobre Visão Computacional (ECCV), setembro de 2018.
[24] A. Owens e AA Efros, “Análise de cena audiovisual com recursos multissensoriais autosupervisionados”, pré-impressão arXiv arXiv:1804.03641, 2018.
[25] B. Korbar, D. Tran e L. Torresani, “Aprendizagem cooperativa de modelos de áudio e vídeo a partir de sincronização auto-supervisionada”, em Advances in Neural Information Processing Systems, 2018, pp.
[26] T.-H. Oh, T. Dekel, C. Kim, I. Mosseri, WT Freeman, M. Rubinstein e W. Matusik, “Speech2face: Aprendendo o rosto por trás de uma voz”, em Anais da Conferência IEEE sobre Visão Computacional e Reconhecimento de Padrões, 2019, pp.
[27] L. Chen, S. Srivastava, Z. Duan e C. Xu, “Geração audiovisual transmodal profunda”, em Proceedings of the on Thematic Workshops of ACM Multimedia 2017, 2017, pp.
[28] Y. Zhou, Z. Wang, C. Fang, T. Bui e TL Berg, “Visual to sound: Generating natural sound for videos in the wild”, em Anais da Conferência IEEE sobre Visão Computacional e Reconhecimento de Padrões , 2018, pp.
[29] E. Shlizerman, LM Dery, H. Schoen e I. Kemelmacher-Shlizerman, “Áudio para dinâmica corporal”, CVPR, Conferência da Sociedade de Computadores IEEE sobre Visão Computacional e Reconhecimento de Padrões, 2017.
[30] S. Ginosar, A. Bar, G. Kohavi, C. Chan, A. Owens e J. Malik, “Aprendendo estilos individuais de gestos conversacionais”, em Anais da Conferência IEEE sobre Visão Computacional e Reconhecimento de Padrões, 2019, pp.
[31] H. Zhou, Z. Liu, X. Xu, P. Luo e X. Wang, “Pintura de áudio profunda com infusão de visão”, na Conferência Internacional IEEE sobre Visão Computacional (ICCV), outubro de 2019.
[32] C. Gan, D. Huang, H. Zhao, JB Tenenbaum e A. Torralba, “Gesto musical para separação visual de som”, em Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp .10 478–10 487.
[33] Z. Cao, G. Hidalgo Martinez, T. Simon, S. Wei e YA Sheikh, “Openpose: estimativa de pose 2D multipessoa em tempo real usando campos de afinidade de peças”, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019 .
[34] CSJ Doire e O. Okubadejo, “Aprendizagem multitarefa intercalada para separação de fontes de áudio com bancos de dados independentes”, ArXiv, vol. abs/1908.05182, 2019.
[35] F. Yu, V. Koltun e T. Funkhouser, “Redes residuais dilatadas”, em Visão Computacional e Reconhecimento de Padrões (CVPR), 2017.
[36] A. Jansson, E. Humphrey, N. Montecchio, R. Bittner, A. Kumar e T. Weyde, “Cantando separação de voz com redes convolucionais U-Net profundas”, na 18ª Conferência da Sociedade Internacional de Recuperação de Informação Musical , 2017, pp.
[37] O. Ronneberger, P. Fischer e T. Brox, “U-net: Redes convolucionais para segmentação de imagens biomédicas”, na Conferência Internacional sobre Computação de Imagens Médicas e Intervenção Assistida por Computador. Springer, 2015, pp.
[38] G. Liu, J. Si, Y. Hu e S. Li, “Síntese de imagens fotográficas com u-net melhorado”, em 2018 Décima Conferência Internacional sobre Inteligência Computacional Avançada (ICACI), março de 2018, pp. –407.
[39] X. Mao, C. Shen e Y.-B. Yang, “Restauração de imagem usando redes codificadoras-decodificadoras convolucionais muito profundas com conexões de salto simétricas”, em Avanços em sistemas de processamento de informações neurais, 2016, pp.
[40] P. Isola, J.-Y. Zhu, T. Zhou e AA Efros, “Tradução imagem para imagem com redes adversárias condicionais”, arxiv, 2016.
[41] DP Kingma e J. Ba, “Adam: Um método para otimização estocástica”, CoRR, vol. abs/1412.6980, 2014.
[42] “Capítulo 7 - processamento no domínio da frequência”, em Digital Signal Processing System Design (Segunda Edição), segunda edição ed., N. Kehtarnavaz, Ed. Burlington: Academic Press, 2008, pp.
[43] E. Vincent, R. Gribonval e C. Fevotte, “Medição de desempenho na separação cega de fontes de áudio”, IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, não. 4, pp.
Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.