Yazarlar:
(1) Juan F. Montesinos, Bilgi ve İletişim Teknolojileri Bölümü Universitat Pompeu Fabra, Barselona, İspanya {[email protected]};
(2) Olga Slizovskaia, Bilgi ve İletişim Teknolojileri Bölümü Universitat Pompeu Fabra, Barselona, İspanya {[email protected]};
(3) Gloria Haro, Bilgi ve İletişim Teknolojileri Bölümü Universitat Pompeu Fabra, Barselona, İspanya {[email protected]}.
Karıştır ve ayır stratejisini kullanarak kaynak ayırma, ses yerelleştirme, modlar arası oluşturma ve görsel-işitsel bulma gibi farklı öz denetimli öğrenme görevlerine uygun, solistlerin müzik kayıtlarından oluşan yeni bir görsel-işitsel veri seti olan Solos'u sunduk. yazışmalar. Veri setinde 13 farklı araç bulunmaktadır; bunlar oda orkestralarında yaygın olarak kullanılan enstrümanlardır ve Rochester Üniversitesi Çok Modlu Müzik Performansı (URMP) veri setinde yer alan enstrümanlardır [1]. URMP'nin özellikleri - temel gerçek bireysel gövdelere sahip gerçek performansların küçük veri seti - onu test amaçları için uygun bir veri seti haline getirir, ancak bilgimiz dahilinde, bugüne kadar URMP'deki ile aynı araçlara sahip mevcut büyük ölçekli bir veri seti bulunmamaktadır. U-Net mimarisini temel alan görsel-işitsel kaynak ayrımı için iki farklı ağ, yeni veri setinde eğitilmiş ve URMP'de daha ayrıntılı olarak değerlendirilerek, eğitimin test seti ile aynı cihaz seti üzerindeki etkisi gösterilmiştir. Üstelik Solos, ellerin yeterince görülebildiği video aralıklarına iskeletler ve zaman damgaları sağlar. Bu bilgi eğitim amaçlı ve aynı zamanda sağlam yerelleştirme görevini çözmeyi öğrenmek için yararlı olabilir.
[1] B. Li, X. Liu, K. Dinesh, Z. Duan ve G. Sharma, "Çok modlu müzik analizi için çok kanallı bir klasik müzik performansı veri kümesi oluşturma: Zorluklar, içgörüler ve uygulamalar", Multimedyada IEEE İşlemleri, cilt 21, hayır. 2, s. 522–535, Şubat 2019.
[2] B. Li, K. Dinesh, Z. Duan ve G. Sharma, 2017 IEEE Uluslararası Akustik, Konuşma ve Sinyal Konferansı'nda "Gör ve dinle: Oda müziği performans videolarında ses parçalarının oyuncularla puan bilgisine dayalı ilişkisi" İşleme (ICASSP). IEEE, 2017, s. 2906–2910.
[3] EC Cherry, "Bir ve iki kulakla konuşmanın tanınması üzerine bazı deneyler" The Journal of the akustik toplum Amerika, cilt. 25, hayır. 5, s. 975–979, 1953.
[4] A. Hyvarinen ve E. Oja, “Bağımsız bileşen analizi: algoritmalar ve uygulamalar,” Sinir ağları, cilt. 13, hayır. 4-5, s. 411–430, 2000.
[5] M. Zibulevsky ve BA Pearlmutter, “Bir sinyal sözlüğünde seyrek ayrıştırma yoluyla kör kaynak ayrımı,” Sinirsel hesaplama, cilt. 13, hayır. 4, s. 863–882, 2001.
[6] T. Virtanen, "Zamansal süreklilik ve seyreklik kriterleri ile negatif olmayan matris çarpanlarına ayırma yoluyla mono ses kaynağı ayrımı", ses, konuşma ve dil işlemede IEEE işlemleri, cilt. 15, hayır. 3, s. 1066–1074, 2007.
[7] DPW Ellis, "Tahmin odaklı hesaplamalı işitsel sahne analizi", Ph.D. tez, Massachusetts Teknoloji Enstitüsü, 1996.
[8] P. Smaragdis, B. Raj ve M. Shashanka, “Austisistik gizli değişken model için akustik modelleme,” Akustik işleme için modellerde ilerlemeler, NIPS, cilt. 148, s. 8–1, 2006.
[9] P. Chandna, M. Miron, J. Janer ve E. Gomez, "Derin evrişimli sinir ağlarını kullanarak monoaural audio source' separasyonu", Uluslararası Latent Değişken Analizi ve Sinyal Ayırma Konferansı, 2017, s. 258– 266.
[10] D. Stoller, S. Ewert ve S. Dixon, "Wave-u-net: Uçtan uca ses kaynağı ayrımı için çok ölçekli bir sinir ağı" arXiv ön baskı arXiv:1806.03185, 2018.
[11] JR Hershey ve JR Movellan, "İşitsel görüş: Seslerin yerini belirlemek için görsel-işitsel senkronizasyonun kullanılması", Advances in nöral bilgi işleme sistemleri, 2000, s. 813–819.
[12] E. Kidron, YY Schechner ve M. Elad, “Pixels that sound,” Bilgisayarla Görme ve Örüntü Tanıma, 2005. CVPR 2005. IEEE Bilgisayar Topluluğu Konferansı, cilt. 1, 2005, s. 88–95.
[13] T. Darrell, JW Fisher ve P. Viola, "Görsel-işitsel segmentasyon ve kokteyl partisi etkisi", Advances in Multimodal InterfacesICMI 2000, 2000, s. 32–40.
[14] D. Sodoyer, J.-L. Schwartz, L. Girin, J. Klinkisch ve C. Jutten, "Görsel-işitsel konuşma kaynaklarının ayrılması: konuşma uyaranlarının görsel-işitsel tutarlılığından yararlanan yeni bir yaklaşım", EURASIP Journal on Advances in Signal Processing, cilt. 2002, hayır. 11, s. 382823, 2002.
[15] B. Rivet, L. Girin ve C. Jutten, "Konvolütif karışımlardan konuşma sinyallerinin çıkarılması için görsel-işitsel konuşma işlemeyi ve kör kaynak ayırmayı karıştırmak", IEEE Transactions on Audio, Speech, and Language Processing, cilt. 15, hayır. 1, s. 96–108, 2007.
[16] B. Li, C. Xu ve Z. Duan, "Çok modlu vibrato analizi yoluyla yaylı topluluklar için görsel-işitsel kaynak ilişkilendirmesi" Proc. Ses ve Müzik Bilgisayarı (SMC), 2017.
[17] S. Parekh, S. Essid, A. Ozerov, NQ Duong, P. Perez ve G. Richard, ´ "Video nesnesi bilgisine göre ses kaynağı ayrımının yönlendirilmesi", Applications of Signal Processing to Audio and Acoustics (WASPAA) içinde ), 2017 IEEE Çalıştayı, 2017, s. 61–65.
[18] R. Gao ve K. Grauman, "Görsel nesnelerin seslerini birlikte ayırmak", IEEE Uluslararası Bilgisayarlı Görme Konferansı Bildirileri, 2019, s. 3879–3888.
[19] H. Zhao, C. Gan, W.-C. Ma ve A. Torralba, "Hareketlerin sesi", IEEE Uluslararası Bilgisayarla Görme Konferansı Bildirileri, 2019, s. 1735–1744.
[20] X. Xu, B. Dai ve D. Lin, "Eksi artı net kullanarak özyinelemeli görsel ses ayrımı", IEEE Uluslararası Bilgisayarlı Görme Konferansı Bildirileri, 2019, s. 882–891.
[21] B. Li, K. Dinesh, C. Xu, G. Sharma ve Z. Duan, “Oda müziği performansları için çevrimiçi görsel-işitsel kaynak birliği,” Transactions of the International Society for Music Information Retrieval, cilt. 2, hayır. 1, 2019.
[22] R. Arandjelovic ve A. Zisserman, “Objects that sound,” IEEE Avrupa Bilgisayarlı Görme Konferansı Bildirileri, 2018.
[23] H. Zhao, C. Gan, A. Rouditchenko, C. Vondrick, J. McDermott ve A. Torralba, “The sound of piksels,” Avrupa Bilgisayarlı Görme Konferansı (ECCV), Eylül 2018.
[24] A. Owens ve AA Efros, “Kendi kendini denetleyen çoklu duyusal özelliklere sahip görsel-işitsel sahne analizi,” arXiv önbaskı arXiv:1804.03641, 2018.
[25] B. Korbar, D. Tran ve L. Torresani, "Kendi kendini denetleyen senkronizasyondan ses ve video modellerinin işbirlikçi öğrenimi", Advances in Neural Information Processing Systems, 2018, s. 7763–7774.
[26] T.-H. Oh, T. Dekel, C. Kim, I. Mosseri, WT Freeman, M. Rubinstein ve W. Matusik, "Speech2face: Bir sesin arkasındaki yüzü öğrenmek", IEEE Bilgisayarla Görme ve Örüntü Tanıma Konferansı Bildirileri'nde, 2019, s. 7539–7548.
[27] L. Chen, S. Srivastava, Z. Duan ve C. Xu, "Derin modlar arası görsel-işitsel nesil", ACM Multimedya Tematik Atölyeleri Bildirileri 2017, 2017, s. 349–357.
[28] Y. Zhou, Z. Wang, C. Fang, T. Bui ve TL Berg, "Görselden sese: Vahşi doğada videolar için doğal ses oluşturmak", IEEE Bilgisayarla Görme ve Örüntü Tanıma Konferansı Bildirileri'nde , 2018, s. 3550–3558.
[29] E. Shlizerman, LM Dery, H. Schoen ve I. Kemelmacher-Shlizerman, “Audio to bodydynamics,” CVPR, IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2017.
[30] S. Ginosar, A. Bar, G. Kohavi, C. Chan, A. Owens ve J. Malik, "Learning bireysel konuşma jestleri stilleri", IEEE Bilgisayarla Görme ve Örüntü Tanıma Konferansı Bildirileri'nde, 2019, s. 3497–3506.
[31] H. Zhou, Z. Liu, X. Xu, P. Luo ve X. Wang, "Vision-infused deep audio inpainting", IEEE Uluslararası Bilgisayarla Görme Konferansı (ICCV), Ekim 2019.
[32] C. Gan, D. Huang, H. Zhao, JB Tenenbaum ve A. Torralba, "Görsel ses ayrımı için müzik hareketi", IEEE/CVF Bilgisayarla Görme ve Örüntü Tanıma Konferansı Bildirileri, 2020, s. 10 478–10 487.
[33] Z. Cao, G. Hidalgo Martinez, T. Simon, S. Wei ve YA Sheikh, "Openpose: Parça benzeşim alanlarını kullanarak gerçek zamanlı çok kişili 2d poz tahmini," IEEE Model Analizi ve Makine Zekası İşlemleri, 2019 .
[34] CSJ Doire ve O. Okubadejo, "Bağımsız veritabanlarıyla ses kaynağı ayrımı için aralıklı çoklu görev öğrenimi" ArXiv, cilt. abs/1908.05182, 2019.
[35] F. Yu, V. Koltun ve T. Funkhouser, “Genişletilmiş artık ağlar,” Bilgisayarla Görme ve Örüntü Tanıma (CVPR), 2017.
[36] A. Jansson, E. Humphrey, N. Montecchio, R. Bittner, A. Kumar ve T. Weyde, 18. Uluslararası Müzik Bilgisine Erişim Topluluğu Konferansı'nda "Derin U-Net evrişimli ağlarla ses ayrımının söylenmesi" , 2017, s. 23–27.
[37] O. Ronneberger, P. Fischer ve T. Brox, "U-net: Biyomedikal görüntü segmentasyonu için evrişimli ağlar", Uluslararası Tıbbi görüntü hesaplama ve bilgisayar destekli müdahale Konferansı'nda. Springer, 2015, s. 234–241.
[38] G. Liu, J. Si, Y. Hu ve S. Li, "Fotoğrafik görüntü sentezi ile geliştirilmiş u-net", 2018 Onuncu Uluslararası Gelişmiş Hesaplamalı Zeka Konferansı (ICACI), Mart 2018, s. 402 –407.
[39] X. Mao, C. Shen ve Y.-B. Yang, "Simetrik atlama bağlantılarına sahip çok derin evrişimli kodlayıcı-kod çözücü ağlarını kullanarak görüntü restorasyonu", Advances in nöral bilgi işleme sistemleri, 2016, s. 2802–2810.
[40] P. Isola, J.-Y. Zhu, T. Zhou ve AA Efros, "Koşullu çekişmeli ağlarla görüntüden görüntüye çeviri" arxiv, 2016.
[41] DP Kingma ve J. Ba, “Adam: Stokastik optimizasyon için bir yöntem,” CoRR, cilt. abs/1412.6980, 2014.
[42] "Bölüm 7 - frekans alanı işleme", Dijital Sinyal İşleme Sistemi Tasarımı (İkinci Baskı), ikinci baskı baskısı, N. Kehtarnavaz, Ed. Burlington: Academic Press, 2008, s. 175 – 196.
[43] E. Vincent, R. Gribonval ve C. Fevotte, "Kör ses kaynağı ayırmada performans ölçümü", IEEE Transactions on Audio, Speech, and Language Processing, cilt. 14, hayır. 4, s. 1462–1469, 2006.