Yazarlar:
(1) Juan F. Montesinos, Bilgi ve İletişim Teknolojileri Bölümü Universitat Pompeu Fabra, Barselona, İspanya {[email protected]};
(2) Olga Slizovskaia, Bilgi ve İletişim Teknolojileri Bölümü Universitat Pompeu Fabra, Barselona, İspanya {[email protected]};
(3) Gloria Haro, Bilgi ve İletişim Teknolojileri Bölümü Universitat Pompeu Fabra, Barselona, İspanya {[email protected]}.
Solo'ların uygunluğunu göstermek için kör kaynak ayırma problemine odaklandık ve Piksellerin Sesi (SoP) [23] ve Çok Kafalı U-Net (MHUNet) [34] modellerini yeni veri seti üzerinde eğittik. . Dört deney gerçekleştirdik: i) yazarlar tarafından sağlanan SoP önceden eğitilmiş modeli değerlendirdik; ii) SoP'yi sıfırdan eğittik; iii) MUSIC'te önceden eğitilmiş modelin ağırlıklarından başlayarak Solo'larda SoP'ye ince ayar yaptık ve iv) Çok kafalı U-Net'i sıfırdan eğittik. MHU-Net, sonuçları iyileştirdiği için müfredat öğrenme prosedürünü izleyerek iki ila yedi arasında değişen kaynak sayısına sahip karışımları ayırmak üzere eğitilmiştir. SoP, [23]'te açıklanan optimal stratejiye göre eğitilmiştir.
Değerlendirme, sağladıkları gerçek karışımlar kullanılarak URMP veri seti [1] üzerinde gerçekleştirilir. URMP izleri sırayla 6 saniyelik bölümlere bölünür. Sonuçta ortaya çıkan tüm bölünmelerden metrikler elde edilir.
A. Mimariler ve eğitim detayları
Ağırlıkları halka açık olduğundan ve ağ basit bir şekilde eğitildiğinden temel olarak Piksellerin Sesi'ni seçtik. SoP üç ana alt ağdan oluşur: Video analiz ağı olarak genişletilmiş bir ResNet [35], ses işleme ağı olarak bir U-Net [36] ve bir ses sentezleyici ağı. Ayrıca sonuçlarını Çok kafalı U-Net [34] ile karşılaştırıyoruz.
U-Net [37], arada atlama bağlantıları bulunan bir kodlayıcı-kod çözücü mimarisidir. Bağlantıları atlamak, orijinal mekansal yapının kurtarılmasına yardımcı olur. MHU-Net mümkün olduğu kadar çok sayıda kod çözücüden oluştuğu için ileriye doğru bir adımdır. Her kod çözücü tek bir kaynakta uzmanlaşarak performansı artırır.
Piksellerin Sesi [23], biyomedikal görüntüleme için önerilen orijinal UNet mimarisini takip etmez, ancak şarkı söyleme sesi ayrımı için ayarlanmış olan [36]'da açıklanan UNet mimarisini takip etmez. Blok başına iki evrişim ve ardından maksimum havuzlama yerine, tek bir evrişim kullanırlar.
daha büyük bir çekirdek ve uzun adımlarla ilerlemek. Orijinal çalışma, öğrenilebilir parametrelere sahip merkezi bir blok önerirken, merkezi blok SoP'de statik bir gizli alandır. U-Net, görüntü oluşturma [38], gürültü bastırma ve süper çözünürlük [39], görüntüden görüntüye çeviri [40], görüntü bölütleme [37] veya ses kaynağı gibi görevler için çeşitli mimarilerin omurgası olarak yaygın şekilde kullanılmaktadır. ayırma [36]. SoP U-Net sırasıyla 32, 64, 128, 256, 512, 512 ve 512 kanallı 7 bloktan oluşur (MHU-Net için 6 blok). Gizli alan kodlayıcının son çıkışı olarak düşünülebilir. Dilated ResNet, sonuçta ortaya çıkan uzamsal çözünürlüğü arttırırken alıcı alanı korumak için genişletilmiş evrişimlerden yararlanan ResNet benzeri bir mimaridir. U-Net'in çıkışı, SoP durumunda giriş spektrogramıyla aynı boyutta olan ve MHU-Net durumunda kod çözücü başına tek bir kaynak olan 32 spektral bileşenden (kanal) oluşan bir dizidir. Temsili bir çerçeve verildiğinde, Dilated ResNet kullanılarak görsel özellikler elde edilir. Bu görsel özellikler, uygun spektral bileşenleri seçmek için kullanılan (UNet'in çıkış kanallarının sayısına karşılık gelen) 32 öğeden oluşan bir vektörden başka bir şey değildir. Bu seçim, 32 öğrenilebilir parametre (αk) ve bir sapma (β)'dan oluşan ses analiz ağı tarafından gerçekleştirilir. Bu işlem matematiksel olarak şu şekilde açıklanabilir:
burada Sk(t, f), zaman-frekans bölmesindeki (t, f) k'inci tahmin edilen spektral bileşendir.
Şekil 2 SoP konfigürasyonunu göstermektedir. Görsel ağın spektral bileşenleri seçmesini sağlamanın, onu dolaylı olarak aktivasyon haritaları aracılığıyla çıkarılabilecek enstrüman lokalizasyonunu öğrenmeye zorladığını vurgulamak ilginçtir.
Hem SoP hem de MHU-Net için temel gerçek maske hesaplaması Denklem 2'de açıklanmıştır. (2) ve Denk. (3), Bölüm. IV-C.
B. Veri ön işleme
Bahsi geçen mimarileri eğitmek amacıyla ses 11025 Hz ve 16 bit'e yeniden örneklenmiştir. Ağa beslenen numuneler 6 saniye sürer. Dalga formlarının zaman-frekans gösterimlerini elde etmek için Kısa Zamanlı Fourier Dönüşümü'nü (STFT) kullanıyoruz. [23]'ü takip ederek STFT, 1022 uzunluğundaki Hanning penceresi ve 256 atlama uzunluğundaki Hanning penceresi kullanılarak hesaplanır, böylece 6 saniyelik bir numune için 512x256 boyutunda bir spektrogram elde ederiz. Daha sonra, frekans ekseninde düşük frekansları genişleten ve yüksek frekansları sıkıştıran bir log yeniden ölçeklendirme uyguluyoruz. Son olarak, büyüklük spektrogramlarını, her spektrogramın minimum değerine göre dB'ye dönüştürüyoruz ve -1 ile 1 arasında normalleştiriyoruz.
C. Temel gerçeklik maskesi
Temel doğruluk maskesi hesaplamalarına geçmeden önce bazı hususlara dikkat çekmek istiyoruz. Standart kayan noktalı ses formatı, -1 ile 1 arasında sınırlanacak bir dalga biçimini zorunlu kılar. Yapay karışımlar oluşturulduğunda ortaya çıkan dalga biçimleri bu sınırların dışında olabilir. Bu, sinir ağlarının aşırı uyum için kısayollar bulmasına yardımcı olabilir. Bu davranışı önlemek için spektrogramlar zaman-frekans alanındaki eşdeğer sınırlara göre sıkıştırılır.
Ayrık Kısa Zamanlı Fourier Dönüşümü [42]'de açıklandığı gibi hesaplanabilir:
Piksellerin Sesini eğitmek için temel gerçeklik maskeleri olarak tamamlayıcı ikili maskeler kullandık ve şu şekilde tanımlandık:
Çok kafalı U-Net, şu şekilde tanımlanan tamamlayıcı oran maskeleriyle eğitilmiştir:
D. Sonuçlar
[43]'te önerilen Kaynak-Bozulma Oranı (SDR), Kaynak-Müdahale Oranı (SIR), Kaynak-Yapıt Oranı (SAR) için kıyaslama sonuçları ortalama ve standart sapma açısından Tablo II'de gösterilmektedir. Görüldüğü üzere orijinal ağırlıkları kullanılarak değerlendirilen Sound of Pixels en kötü performansı sergiliyor. Bunun olası bir nedeni, MUSIC veri kümesinde bazı URMP kategorilerinin bulunmaması olabilir. Ağı Solo'larda sıfırdan eğitirsek sonuçlar neredeyse 1 dB artar. Ancak, MUSIC ile önceden eğitilmiş ağ üzerinde Solo'larda ince ayar yaparak daha da iyi bir sonuç elde etmek mümkündür. Ağın çok daha fazla eğitim verisine maruz kalmasıyla iyileşmenin meydana geldiğini varsayıyoruz. Ayrıca tablo sonuçları, MHU-Net gibi daha güçlü mimariler kullanılarak daha yüksek performansa ulaşmanın nasıl mümkün olabileceğini gösteriyor.