저자:
(1) Juan F. Montesinos, 스페인 바르셀로나 폼페우 파브라 대학 정보통신기술부 {[email protected]};
(2) Olga Slizovskaia, 스페인 바르셀로나 폼페우 파브라 대학 정보통신기술부 {[email protected]};
(3) Gloria Haro, 스페인 바르셀로나 폼페우 파브라 대학교 정보통신기술부 {[email protected]}.
우리는 혼합 및 분리 전략을 사용한 소스 분리, 사운드 위치 파악, 교차 모드 생성 및 시청각 찾기와 같은 다양한 자기 지도 학습 작업에 적합한 솔리스트의 음악 녹음에 대한 새로운 시청각 데이터 세트인 Solos를 선보였습니다. 서신. 데이터 세트에는 13가지의 다양한 도구가 있습니다. 이는 실내악 오케스트라의 일반적인 악기이며 University of Rochester Multi-Modal Music Performance(URMP) 데이터세트에 포함된 악기입니다[1]. URMP의 특성(실제 개별 줄기가 포함된 실제 성능의 소규모 데이터 세트)은 테스트 목적에 적합한 데이터 세트이지만 우리가 아는 한 현재까지 URMP와 동일한 도구를 사용하는 대규모 데이터 세트는 없습니다. U-Net 아키텍처를 기반으로 하는 시청각 소스 분리를 위한 두 개의 서로 다른 네트워크가 새로운 데이터 세트에서 훈련되고 URMP에서 추가로 평가되어 테스트 세트와 동일한 장비 세트에 대한 훈련의 영향을 보여줍니다. 또한 Solos는 손이 충분히 보이는 비디오 간격에 대한 뼈대와 타임스탬프를 제공합니다. 이 정보는 교육 목적으로 유용할 수 있으며 소리 위치 파악 작업을 해결하는 방법을 학습하는 데에도 유용할 수 있습니다.
[1] B. Li, X. Liu, K. Dinesh, Z. Duan 및 G. Sharma, "다중 모드 음악 분석을 위한 멀티트랙 클래식 음악 연주 데이터 세트 생성: 과제, 통찰력 및 응용", IEEE Transactions on Multimedia, 권. 21, 아니. 2, 522-535페이지, 2019년 2월.
[2] B. Li, K. Dinesh, Z. Duan 및 G. Sharma, "보고 듣기: 실내악 연주 비디오에서 연주자와 사운드 트랙의 점수 정보 연관", 2017년 음향, 음성 및 신호에 관한 IEEE 국제 컨퍼런스 처리(ICASSP). IEEE, 2017, 페이지 2906-2910.
[3] EC Cherry, "한 귀와 두 귀를 사용한 음성 인식에 대한 몇 가지 실험", The Journal of the Acoustical Society of America, vol. 25, 아니. 5, 975-979페이지, 1953년.
[4] A. Hyvarinen 및 E. Oja, "독립 구성요소 분석: 알고리즘 및 애플리케이션", 신경망, vol. 13, 아니. 4-5, pp. 411–430, 2000.
[5] M. Zibulevsky 및 BA Pearlmutter, "신호 사전의 희소 분해에 의한 블라인드 소스 분리", 신경 계산, vol. 13, 아니. 4, pp. 863–882, 2001.
[6] T. Virtanen, "시간 연속성 및 희소성 기준을 사용하여 음이 아닌 행렬 분해를 통한 모노럴 음원 분리", 오디오, 음성 및 언어 처리에 대한 IEEE 트랜잭션, vol. 15, 아니. 3, pp. 1066–1074, 2007.
[7] DPW Ellis, “예측 기반 계산 청각 장면 분석”, Ph.D. 1996년 매사추세츠 공과대학 논문.
[8] P. Smaragdis, B. Raj 및 M. Shashanka, "음향 모델링을 위한 확률적 잠재 변수 모델", 음향 처리를 위한 모델의 발전, NIPS, vol. 148, 8~1페이지, 2006년.
[9] P. Chandna, M. Miron, J. Janer 및 E. Gomez, "심층 컨벌루션 신경망을 사용한 모노럴 오디오 소스 ´ 분리", 잠재 변수 분석 및 신호 분리에 관한 국제 회의, 2017, pp. 258– 266.
[10] D. Stoller, S. Ewert 및 S. Dixon, "Wave-u-net: 엔드투엔드 오디오 소스 분리를 위한 다중 규모 신경망", arXiv 사전 인쇄 arXiv:1806.03185, 2018.
[11] JR Hershey 및 JR Movellan, "오디오 비전: 소리를 찾기 위해 시청각 동기화 사용", 신경 정보 처리 시스템의 발전, 2000, 페이지 813-819.
[12] E. Kidron, YY Schechner 및 M. Elad, "소리가 나는 픽셀", 컴퓨터 비전 및 패턴 인식, 2005. CVPR 2005. IEEE 컴퓨터 학회 컨퍼런스, vol. 2005년 1월 1일, 88~95페이지.
[13] T. Darrell, JW Fisher 및 P. Viola, "시청각 분할 및 칵테일 파티 효과", Advances in Multimodal InterfacesICMI 2000, 2000, pp. 32-40.
[14] D. Sodoyer, J.-L. Schwartz, L. Girin, J. Klinkisch 및 C. Jutten, "시청각 음성 소스 분리: 음성 자극의 시청각 일관성을 활용하는 새로운 접근 방식", 신호 처리의 발전에 관한 EURASIP 저널, vol. 2002년, 아니. 11, p. 382823, 2002.
[15] B. Rivet, L. Girin 및 C. Jutten, "혼합 혼합에서 음성 신호 추출을 위한 시청각 음성 처리 및 블라인드 소스 분리 혼합", 오디오, 음성 및 언어 처리에 관한 IEEE 트랜잭션, vol. 15, 아니. 1, 96-108페이지, 2007년.
[16] B. Li, C. Xu, Z. Duan, "다중 모드 비브라토 분석을 통한 현악 앙상블의 시청각 소스 연관", Proc. 사운드 및 음악 컴퓨팅(SMC), 2017.
[17] S. Parekh, S. Essid, A. Ozerov, NQ Duong, P. Perez 및 G. Richard, '비디오 객체 정보에 의한 오디오 소스 분리 안내', 오디오 및 음향에 대한 신호 처리 응용(WASPAA) ), 2017 IEEE 워크샵, 2017, pp. 61–65.
[18] R. Gao 및 K. Grauman, "시각적 객체의 소리 공동 분리", 컴퓨터 비전에 관한 IEEE 국제 컨퍼런스 회보, 2019, 페이지 3879-3888.
[19] H. Zhao, C. Gan, W.-C. Ma, A. Torralba, "움직임의 소리", 컴퓨터 비전에 관한 IEEE 국제 컨퍼런스 진행, 2019, pp. 1735-1744.
[20] X. Xu, B. Dai 및 D. Lin, "마이너스-플러스 네트를 사용한 재귀적 시각적 사운드 분리", 컴퓨터 비전에 관한 IEEE 국제 컨퍼런스 회보, 2019, 페이지 882-891.
[21] B. Li, K. Dinesh, C. Xu, G. Sharma, Z. Duan, “실내악 연주를 위한 온라인 시청각 소스 협회,” 국제 음악 정보 검색 협회 거래, vol. 2, 아니. 2019년 1월 1일
[22] R. Arandjelovic 및 A. Zisserman, "소리가 나는 개체", 2018년 컴퓨터 비전에 관한 IEEE 유럽 컨퍼런스 회의록.
[23] H. Zhao, C. Gan, A. Rouditchenko, C. Vondrick, J. McDermott 및 A. Torralba, "픽셀의 소리", 컴퓨터 비전에 관한 유럽 회의(ECCV), 2018년 9월.
[24] A. Owens 및 AA Efros, "자기 감독 다중 감각 기능을 사용한 시청각 장면 분석", arXiv 사전 인쇄 arXiv:1804.03641, 2018.
[25] B. Korbar, D. Tran 및 L. Torresani, "자기 감독 동기화를 통한 오디오 및 비디오 모델의 협력 학습", 신경 정보 처리 시스템의 발전, 2018, pp. 7763-7774.
[26] T.-H. Oh, T. Dekel, C. Kim, I. Mosseri, WT Freeman, M. Rubinstein 및 W. Matusik, "Speech2face: 음성 뒤의 얼굴 학습", 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컨퍼런스 진행, 2019년, 7539-7548페이지.
[27] L. Chen, S. Srivastava, Z. Duan 및 C. Xu, "심층 교차 모달 시청각 생성", ACM Multimedia 2017의 주제별 워크숍 진행, 2017, pp. 349-357.
[28] Y. Zhou, Z. Wang, C. Fang, T. Bui 및 TL Berg, "시각에서 사운드로: 야생에서 비디오를 위한 자연스러운 사운드 생성", 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컨퍼런스 진행 중 , 2018, pp. 3550–3558.
[29] E. Shlizerman, LM Dery, H. Schoen 및 I. Kemelmacher-Shlizerman, "신체 역학에 대한 오디오", CVPR, 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컴퓨터 학회 컨퍼런스, 2017.
[30] S. Ginosar, A. Bar, G. Kohavi, C. Chan, A. Owens 및 J. Malik, 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컨퍼런스 진행 중 "개별적인 대화 제스처 스타일 학습", 2019년, 3497~3506페이지.
[31] H. Zhou, Z. Liu, X. Xu, P. Luo 및 X. Wang, "비전 주입 딥 오디오 인페인팅", 컴퓨터 비전에 관한 IEEE 국제 회의(ICCV), 2019년 10월.
[32] C. Gan, D. Huang, H. Zhao, JB Tenenbaum 및 A. Torralba, "시각적 사운드 분리를 위한 음악 제스처", 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 진행, 2020, pp .10 478–10 487.
[33] Z. Cao, G. Hidalgo Martinez, T. Simon, S. Wei 및 YA Sheikh, "Openpose: 부분 친화력 필드를 사용한 실시간 다중 사람 2D 포즈 추정", 패턴 분석 및 기계 지능에 관한 IEEE 트랜잭션, 2019 .
[34] CSJ Doire 및 O. Okubadejo, "독립 데이터베이스를 사용한 오디오 소스 분리를 위한 인터리브 멀티태스크 학습", ArXiv, vol. ABS/1908.05182, 2019.
[35] F. Yu, V. Koltun 및 T. Funkhouser, "확장된 잔여 네트워크", 컴퓨터 비전 및 패턴 인식(CVPR), 2017.
[36] A. Jansson, E. Humphrey, N. Montecchio, R. Bittner, A. Kumar 및 T. Weyde, "깊은 U-Net 컨볼루션 네트워크를 사용한 노래 음성 분리", 제18회 국제 음악 정보 검색 학회 컨퍼런스 , 2017, 23~27페이지.
[37] O. Ronneberger, P. Fischer 및 T. Brox, "U-net: 생체 의학 이미지 분할을 위한 컨볼루션 네트워크", 의료 이미지 컴퓨팅 및 컴퓨터 보조 중재에 관한 국제 회의. 스프링거, 2015, pp. 234–241.
[38] G. Liu, J. Si, Y. Hu, S. Li, "개선된 u-net을 사용한 사진 이미지 합성", 2018년 제10차 첨단 컴퓨터 지능 국제 회의(ICACI), 2018년 3월, 402페이지 -407.
[39] X. Mao, C. Shen 및 Y.-B. Yang, "대칭 건너뛰기 연결이 있는 매우 깊은 컨벌루션 인코더-디코더 네트워크를 사용한 이미지 복원", 신경 정보 처리 시스템의 발전, 2016, 페이지 2802-2810.
[40] P. Isola, J.-Y. Zhu, T. Zhou 및 AA Efros, "조건부 적대 네트워크를 사용한 이미지 간 변환", arxiv, 2016.
[41] DP Kingma 및 J. Ba, "Adam: 확률론적 최적화를 위한 방법", CoRR, vol. ABS/1412.6980, 2014.
[42] "제7장 - 주파수 영역 처리", 디지털 신호 처리 시스템 설계(제2판), 제2판, N. Kehtarnavaz, Ed. 벌링턴: Academic Press, 2008, pp. 175 – 196.
[43] E. Vincent, R. Gribonval 및 C. Fevotte, "블라인드 오디오 소스 분리의 성능 측정", 오디오, 음성 및 언어 처리에 관한 IEEE 트랜잭션, vol. 14, 아니. 4, pp. 1462–1469, 2006.
이 문서는 CC BY-NC-SA 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다 .