paint-brush
Solos: um conjunto de dados para análise musical audiovisual - Trabalhos relacionadospor@kinetograph
152 leituras

Solos: um conjunto de dados para análise musical audiovisual - Trabalhos relacionados

Muito longo; Para ler

Neste artigo, os pesquisadores apresentam Solos, um conjunto de dados limpo de performances musicais solo para treinar modelos de aprendizado de máquina em várias tarefas audiovisuais.
featured image - Solos: um conjunto de dados para análise musical audiovisual - Trabalhos relacionados
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Juan F. Montesinos, Departamento de Tecnologias de Informação e Comunicação Universitat Pompeu Fabra, Barcelona, Espanha {[email protected]};

(2) Olga Slizovskaia, Departamento de Tecnologias de Informação e Comunicação Universitat Pompeu Fabra, Barcelona, Espanha {[email protected]};

(3) Gloria Haro, Departamento de Tecnologias de Informação e Comunicação Universitat Pompeu Fabra, Barcelona, Espanha {[email protected]}.

Tabela de links

II. TRABALHO RELATADO

O conjunto de dados de desempenho musical multimodal da Universidade de Rochester (URMP) [1] é um conjunto de dados com 44 gravações de vídeo multi-instrumentais de peças de música clássica. Cada instrumento presente em uma peça foi gravado separadamente, tanto com vídeo quanto com áudio de alta qualidade com microfone autônomo, a fim de obter faixas individuais verdadeiras. Embora tocados separadamente, os instrumentos foram coordenados por meio de um vídeo de regência com um pianista tocando, a fim de definir o tempo comum para os diferentes instrumentistas. Após a sincronização, o áudio dos vídeos individuais foi substituído pelo áudio de alta qualidade do microfone e, em seguida, diferentes gravações foram montadas para criar a mistura: as gravações individuais de áudio de alta qualidade foram somadas para criar a mistura de áudio e o conteúdo visual foi composto em um único vídeo com um fundo comum onde todos os jogadores foram dispostos no mesmo nível da esquerda para a direita. Para cada peça, o conjunto de dados fornece a partitura musical em formato MIDI, as gravações de áudio dos instrumentos individuais de alta qualidade e os vídeos das peças montadas. Os instrumentos presentes no conjunto de dados, mostrados na Figura 1, são instrumentos comuns em orquestras de câmara. Apesar de todas as suas boas características, é um conjunto de dados pequeno e, portanto, não apropriado para treinar arquiteturas de aprendizagem profunda.


Dois outros conjuntos de dados de gravações audiovisuais de performances de instrumentos musicais foram apresentados recentemente: Music [23] e MusicES [31]. A música consiste em 536 gravações de solos e 149 vídeos de duetos em 11 categorias: acordeão, violão, violoncelo, clarinete, erhu, flauta, saxofone, trompete, tuba, violino e xilofone. Este conjunto de dados foi coletado por meio de consulta ao YouTube. MusicES [31] é uma extensão de MUSIC para cerca do triplo do seu tamanho original, com aproximadamente 1475 gravações, mas distribuídas em 9 categorias: acordeão, guitarra, violoncelo, flauta, saxofone, trompete, tuba, violino e xilofone. Existem 7 categorias comuns em MÚSICA e Solos: violino, violoncelo, flauta, clarinete, saxofone, trompete e tuba. As categorias comuns entre MusicES e Solos são 6 (as primeiras exceto clarinete). Solos e MusicES são complementares. Existe apenas uma pequena intersecção de 5% entre ambos, o que significa que ambos os conjuntos de dados podem ser combinados num conjunto maior.


Podemos encontrar na literatura vários exemplos que mostram a utilidade de conjuntos de dados audiovisuais. O Sound of Pixels [23] realiza a separação da fonte de áudio gerando componentes espectrais de áudio que são selecionados de forma inteligente usando recursos visuais provenientes do fluxo de vídeo para obter fontes separadas. Esta ideia foi ampliada em [20] para separar os diferentes sons presentes na mistura de forma recursiva. Em cada etapa, o sistema separa a fonte mais saliente daquelas que permanecem na mistura. O Sound of Motions [19] utiliza trajetórias densas obtidas do fluxo óptico para condicionar a separação da fonte de áudio, podendo


Figura 1. Categorias de instrumentos Solos e URMP. Imagem adaptada de [1].


até mesmo para separar misturas do mesmo instrumento. O condicionamento visual também é usado em [18] para separar diferentes instrumentos; durante o treinamento, uma perda de classificação é usada nos sons separados para reforçar a consistência do objeto e uma perda de co-separação força os sons individuais estimados a produzir as misturas originais, uma vez remontados. Em [17], os autores desenvolveram um método baseado em energia que minimiza um termo de fatoração de matriz não negativa com uma matriz de ativação que é forçada a ser alinhada a uma matriz contendo informações de movimento por fonte. Esta matriz de movimento contém as velocidades de magnitude média das trajetórias de movimento agrupadas em cada caixa delimitadora do jogador.


Trabalhos recentes mostram o uso crescente de esqueletos em tarefas audiovisuais. Em Áudio para dinâmica corporal [29], os autores mostram que é possível prever esqueletos reproduzindo os movimentos de músicos que tocam instrumentos como piano ou violino. Os esqueletos provaram ser úteis para estabelecer correspondências audiovisuais, como movimentos do corpo ou dos dedos com inícios de notas ou flutuações de tom, em performances de música de câmara [21]. Um trabalho recente [32] aborda o problema de separação de fontes de forma semelhante ao Sound of Motions [19], mas substituindo as trajetórias densas por informações de esqueleto.


Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.