저자:
(1) Juan F. Montesinos, 스페인 바르셀로나 폼페우 파브라 대학 정보통신기술부 {[email protected]};
(2) Olga Slizovskaia, 스페인 바르셀로나 폼페우 파브라 대학 정보통신기술부 {[email protected]};
(3) Gloria Haro, 스페인 바르셀로나 폼페우 파브라 대학교 정보통신기술부 {[email protected]}.
Solos의 적합성을 보여주기 위해 우리는 블라인드 소스 분리 문제에 초점을 맞추고 새로운 데이터 세트에 대해 SoP(Sound of Pixels) [23] 및 MHUNet(Multi-head U-Net) [34] 모델을 훈련했습니다. . 우리는 네 가지 실험을 수행했습니다. i) 저자가 제공한 SoP 사전 훈련된 모델을 평가했습니다. ii) 우리는 SoP를 처음부터 훈련했습니다. iii) MUSIC에서 사전 훈련된 모델의 가중치부터 시작하여 솔로에 대한 SoP를 미세 조정했으며 iv) 처음부터 멀티헤드 U-Net을 훈련했습니다. MHU-Net은 결과를 향상시키기 위해 커리큘럼 학습 절차에 따라 2개에서 7개까지 다양한 소스 수를 가진 혼합물을 분리하도록 훈련되었습니다. SoP는 [23]에 설명된 최적의 전략에 따라 훈련되었습니다.
URMP 데이터세트[1]가 제공하는 실제 혼합을 사용하여 평가가 수행됩니다. URMP 트랙은 6초 기간 세그먼트로 순차적으로 분할됩니다. 모든 결과 분할에서 측정항목을 얻습니다.
A. 아키텍처 및 교육 세부정보
가중치가 공개적으로 제공되고 네트워크가 간단한 방식으로 훈련되므로 Sound of Pixels를 기준으로 선택했습니다. SoP는 비디오 분석 네트워크인 확장된 ResNet[35], 오디오 처리 네트워크인 U-Net[36] 및 오디오 신디사이저 네트워크의 세 가지 주요 하위 네트워크로 구성됩니다. 또한 그 결과를 Multi-head U-Net[34]과 비교합니다.
U-Net [37]은 사이에 건너뛰기 연결이 있는 인코더-디코더 아키텍처입니다. 연결 건너뛰기는 원래 공간 구조를 복구하는 데 도움이 됩니다. MHU-Net은 가능한 소스 수만큼 디코더로 구성되어 있어 한 단계 더 발전했습니다. 각 디코더는 단일 소스에 특화되어 성능이 향상됩니다.
Sound of Pixels [23]는 생체 의학 영상을 위해 제안된 원래 UNet 아키텍처를 따르지 않지만 [36]에 설명된 UNet은 노래하는 음성 분리를 위해 조정되었습니다. 블록당 두 개의 컨볼루션을 수행한 후 최대 풀링을 수행하는 대신 단일 컨볼루션을 사용합니다.
더 큰 커널과 진전. 원본 작업에서는 학습 가능한 매개변수가 있는 중앙 블록을 제안하는 반면 중앙 블록은 SoP의 정적 잠재 공간입니다. U-Net은 이미지 생성[38], 노이즈 억제 및 초해상도[39], 이미지 간 변환[40], 이미지 분할[37] 또는 오디오 소스와 같은 작업을 위한 여러 아키텍처의 백본으로 널리 사용되었습니다. 분리 [36]. SoP U-Net은 각각 32, 64, 128, 256, 512, 512 및 512 채널의 7개 블록으로 구성됩니다(MHU-Net의 경우 6개 블록). 잠재 공간은 인코더의 마지막 출력으로 간주될 수 있습니다. Dilated ResNet은 결과적인 공간 해상도를 높이면서 수용 필드를 유지하기 위해 확장된 컨볼루션을 사용하는 ResNet과 유사한 아키텍처입니다. U-Net의 출력은 SoP의 경우 입력 스펙트로그램과 크기가 동일한 32개의 스펙트럼 구성요소(채널) 세트이고, MHU-Net의 경우 디코더당 단일 소스입니다. 대표 프레임이 주어지면 Dilated ResNet을 사용하여 시각적 특징을 얻습니다. 이러한 시각적 특징은 적절한 스펙트럼 구성 요소를 선택하는 데 사용되는 32개 요소(UNet의 출력 채널 수에 해당)로 구성된 벡터일 뿐입니다. 이 선택은 32개의 학습 가능한 매개변수 αk와 바이어스 β로 구성된 오디오 분석 네트워크에 의해 수행됩니다. 이 작업은 수학적으로 다음과 같이 설명할 수 있습니다.
여기서 Sk(t, f)는 시간-주파수 bin(t, f)에서 k번째로 예측된 스펙트럼 성분입니다.
그림 2는 SoP 구성을 보여줍니다. 스펙트럼 구성요소를 선택하기 위해 시각적 네트워크를 만들면 활성화 맵을 통해 추론할 수 있는 기기 위치 파악을 간접적으로 학습하게 된다는 점이 흥미롭습니다.
SoP와 MHU-Net 모두에 대한 Ground-truth 마스크 계산은 Eq.에 설명되어 있습니다. (2)와 식. (3), 초. IV-C.
B. 데이터 전처리
앞서 언급한 아키텍처를 훈련하기 위해 오디오는 11025Hz 및 16비트로 다시 샘플링됩니다. 네트워크에 공급되는 샘플의 지속 시간은 6초입니다. 우리는 단시간 푸리에 변환(STFT)을 사용하여 파형의 시간-주파수 표현을 얻습니다. [23]에 따라 STFT는 길이 1022의 Hanning 창과 홉 길이 256을 사용하여 계산되어 6s 샘플에 대한 크기 512×256의 스펙트로그램을 얻습니다. 나중에 낮은 주파수를 확장하고 높은 주파수를 압축하는 주파수 축에 로그 재조정을 적용합니다. 마지막으로 크기 스펙트로그램을 각 스펙트로그램의 최소값을 기준으로 dB로 변환하고 -1과 1 사이에서 정규화합니다.
C. 지상 진실 마스크
실측 마스크 계산을 소개하기 전에 몇 가지 고려 사항을 지적하고 싶습니다. 표준 부동 소수점 오디오 형식은 -1과 1 사이의 경계를 갖는 파형을 적용합니다. 인위적인 혼합을 생성할 때 결과 파형은 이러한 경계를 벗어날 수 있습니다. 이는 신경망이 과적합에 대한 지름길을 찾는 데 도움이 될 수 있습니다. 이러한 동작을 방지하기 위해 스펙트로그램은 시간-주파수 영역의 등가 경계에 따라 고정됩니다.
이산 단시간 푸리에 변환은 [42]에 설명된 대로 계산할 수 있습니다.
Sound of Pixels 훈련을 위해 우리는 보완 바이너리 마스크를 다음과 같이 정의된 실측 마스크로 사용했습니다.
다중 헤드 U-Net은 다음과 같이 정의된 보완 비율 마스크로 훈련되었습니다.
D. 결과
[43]에서 제안된 소스 대 왜곡 비율(SDR), 소스 대 간섭 비율(SIR), 소스 대 아티팩트 비율(SAR)에 대한 벤치마크 결과는 평균 및 표준 편차 측면에서 표 II에 표시됩니다. 관찰할 수 있듯이 원래 가중치를 사용하여 평가한 사운드 오브 픽셀의 성능이 가장 나빴습니다. 그 이유 중 하나는 MUSIC 데이터세트에 일부 URMP 카테고리가 없기 때문일 수 있습니다. Solos에서 네트워크를 처음부터 훈련하면 결과가 거의 1dB 향상됩니다. 그러나 Solos에서는 MUSIC으로 사전 훈련된 네트워크를 미세 조정하면 훨씬 더 나은 결과를 얻을 수 있습니다. 우리는 네트워크가 훨씬 더 많은 훈련 데이터에 노출됨에 따라 개선이 일어난다고 가정합니다. 또한 표 결과는 MHU-Net과 같은 보다 강력한 아키텍처를 사용하여 더 높은 성능에 도달할 수 있는 방법을 보여줍니다.
이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다 .