저자:
(1) Juan F. Montesinos, 스페인 바르셀로나 폼페우 파브라 대학 정보통신기술부 {[email protected]};
(2) Olga Slizovskaia, 스페인 바르셀로나 폼페우 파브라 대학 정보통신기술부 {[email protected]};
(3) Gloria Haro, 스페인 바르셀로나 폼페우 파브라 대학 정보통신기술부 {[email protected]}.
Solos[1]는 URMP [1] 데이터 세트와 동일한 범주를 갖도록 설계되었으므로 URMP는 실제 시나리오에서 테스트 데이터 세트로 사용될 수 있습니다. 이러한 방식으로 우리는 테스트에서 혼합 및 분리를 사용하지 않고 소스 분리 알고리즘의 성능을 평가하는 표준 방법을 확립하는 것을 목표로 합니다. Solos는 그림 1에 표시된 대로 13개 카테고리에 분포된 755개의 녹음으로 구성되어 있으며, 범주당 평균 녹음 양은 58개이고 평균 지속 시간은 5:16분입니다. YouTube에서 수집한 데이터 세트임에도 불구하고 13개 카테고리 중 8개 카테고리의 해상도 중앙값이 HD라는 점을 강조하는 것은 흥미롭습니다. 카테고리별 통계는 표 I에서 확인할 수 있습니다. 이러한 녹음은 영어, 스페인어, 프랑스어, 이탈리아어, 중국어 또는 러시아어와 같은 여러 언어로 솔로 및 오디션 태그를 사용하여 YouTube에 쿼리하여 수집되었습니다.
A. OpenPose 뼈대
솔로는 단순한 녹음 세트가 아닙니다. 비디오 식별자 외에도 i) 각 녹화의 각 프레임에서 OpenPose[33]로 추정된 신체 및 손 골격과 ii) 유용한 부분을 나타내는 타임스탬프도 제공합니다. OpenPose는 신체 골격과 손 골격을 예측할 수 있는 시스템입니다.
두 개의 서로 다른 신경망을 사용합니다. 이를 위해 특정 신체 부위가 특정 픽셀에 위치할 수 있다는 믿음에 대한 신뢰도 맵과 다양한 신체 부위 간의 연관성 정도를 인코딩하는 부품 친화도 필드를 예측합니다. 마지막으로 탐욕적 추론을 통해 2D 골격과 관절별 신뢰도를 예측합니다. 실제로 신체 골격은 첫 번째 네트워크를 통해 추정됩니다. 그런 다음 신체 골격에서 손목의 위치를 사용하여 양손의 위치를 추정합니다. 두 번째 신경망은 각 손의 골격을 독립적으로 획득합니다. 각 신체 부위는 독립적으로 추정되므로 OpenPose는 찾을 팔다리에 대해 가정하지 않습니다. 신뢰도 맵과 부품 친화력 필드가 주어지면 가장 가능성이 높은 골격을 계산합니다. 전체 프로세스는 프레임 방식으로 수행됩니다. 이로 인해 프레임 간 작은 깜박임과 잘못된 예측이 발생합니다.
B. 타임스탬프 추정 및 뼈대 개선
OpenPose는 잘못 예측된 관절을 좌표 원점에 매핑합니다. 우리는 관절 위치의 큰 점프가 소음을 유발한다는 것을 경험적으로 발견했습니다. 보간된 좌표를 사용하면 이 문제를 해결하는 데 도움이 됩니다.
이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다 .
[1] https://juanfmontesinos.github.io/Solos/에서 사용 가능한 데이터 세트