paint-brush
Solos: um conjunto de dados para análise musical audiovisual - conjunto de dadospor@kinetograph
144 leituras

Solos: um conjunto de dados para análise musical audiovisual - conjunto de dados

Muito longo; Para ler

Neste artigo, os pesquisadores apresentam Solos, um conjunto de dados limpo de performances musicais solo para treinar modelos de aprendizado de máquina em várias tarefas audiovisuais.
featured image - Solos: um conjunto de dados para análise musical audiovisual - conjunto de dados
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Juan F. Montesinos, Departamento de Tecnologias de Informação e Comunicação Universitat Pompeu Fabra, Barcelona, Espanha {[email protected]};

(2) Olga Slizovskaia, Departamento de Tecnologias de Informação e Comunicação Universitat Pompeu Fabra, Barcelona, Espanha {[email protected]};

(3) Gloria Haro, Departamento de Tecnologias de Informação e Comunicação Universitat Pompeu Fabra, Barcelona, Espanha {[email protected]}.

Tabela de links

III. CONJUNTO DE DADOS

Solos[1] foi projetado para ter as mesmas categorias do conjunto de dados URMP [1], para que o URMP possa ser usado como conjunto de dados de teste em um cenário do mundo real. Desta forma, pretendemos estabelecer uma forma padrão de avaliar o desempenho dos algoritmos de separação de fontes, evitando o uso de misturar e separar nos testes. Solos é composto por 755 gravações distribuídas em 13 categorias conforme Figura 1, com quantidade média de 58 gravações por categoria e duração média de 5:16 min. É interessante destacar que, para 8 das 13 categorias, a mediana da resolução é HD, apesar de ser um conjunto de dados coletados no YouTube. As estatísticas por categoria podem ser encontradas na Tabela I. Essas gravações foram coletadas por meio de consulta ao YouTube usando as tags solo e audições em vários idiomas, como inglês, espanhol, francês, italiano, chinês ou russo.


A. Esqueletos OpenPose


Solos não é apenas um conjunto de gravações. Além dos identificadores de vídeos, também fornecemos: i) esqueletos de corpo e mãos estimados pelo OpenPose [33] em cada quadro de cada gravação e ii) timestamps indicando partes úteis. OpenPose é um sistema capaz de prever o esqueleto do corpo e das mãos


TABELA ESTATÍSTICA DO CONJUNTO DE DADOS SOLOS


fazendo uso de duas redes neurais diferentes. Para fazer isso, eles prevêem um mapa de confiança da crença de que uma parte específica do corpo pode estar localizada em qualquer pixel, bem como campos de afinidade de parte que codificam o grau de associação entre diferentes partes do corpo. Finalmente, ele prevê esqueletos 2D e confiança por articulação por meio de inferência gananciosa. Na prática, o esqueleto corporal é estimado com uma primeira rede. Em seguida, a posição dos pulsos no esqueleto corporal é usada para estimar a posição de ambas as mãos. Uma segunda rede neural obtém o esqueleto de cada mão de forma independente. Observe que, como cada parte do corpo é estimada de forma independente, o OpenPose não faz suposições sobre os membros a serem encontrados. Ele apenas calcula o esqueleto mais provável, dados mapas de confiança e campos de afinidade parcial. Todo o processo é realizado em termos de quadro. Isso leva a pequenas oscilações e previsões erradas entre os quadros.


B. Estimativa de carimbos de data e hora e refinamento do esqueleto



OpenPose mapeia juntas mal previstas para a origem das coordenadas. Descobrimos empiricamente que um salto tão grande na posição de uma junta induz ruído. O uso de coordenadas interpoladas ajuda a resolver esse problema.


Este artigo está disponível no arxiv sob licença CC BY-NC-SA 4.0 DEED.


[1] Conjunto de dados disponível em https://juanfmontesinos.github.io/Solos/