paint-brush
Solos: Bộ dữ liệu để phân tích âm nhạc nghe nhìn - Thử nghiệmtừ tác giả@kinetograph
134 lượt đọc

Solos: Bộ dữ liệu để phân tích âm nhạc nghe nhìn - Thử nghiệm

dài quá đọc không nổi

Trong bài báo này, các nhà nghiên cứu giới thiệu Solos, một tập dữ liệu rõ ràng về các buổi biểu diễn âm nhạc solo để đào tạo các mô hình học máy về các nhiệm vụ nghe nhìn khác nhau.
featured image - Solos: Bộ dữ liệu để phân tích âm nhạc nghe nhìn - Thử nghiệm
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

tác giả:

(1) Juan F. Montesinos, Khoa Công nghệ Thông tin và Truyền thông Đại học Pompeu Fabra, Barcelona, Tây Ban Nha {[email protected]};

(2) Olga Slizovskaia, Khoa Công nghệ Thông tin và Truyền thông Đại học Pompeu Fabra, Barcelona, Tây Ban Nha {[email protected]};

(3) Gloria Haro, Khoa Công nghệ Thông tin và Truyền thông Đại học Pompeu Fabra, Barcelona, Tây Ban Nha {[email protected]}.

Bảng liên kết

IV. THÍ NGHIỆM

Để thể hiện sự phù hợp của Solos, chúng tôi đã tập trung vào vấn đề tách nguồn mù và đã đào tạo các mô hình The Sound of Pixels (SoP) [23] và Multi-head U-Net (MHUNet) [34] trên tập dữ liệu mới . Chúng tôi đã thực hiện bốn thử nghiệm: i) chúng tôi đã đánh giá mô hình đào tạo trước SoP do các tác giả cung cấp; ii) chúng tôi đã đào tạo SoP từ đầu; iii) chúng tôi đã tinh chỉnh SoP trên Solo bắt đầu từ trọng lượng của mô hình được đào tạo trước về MUSIC và iv) chúng tôi đã đào tạo U-Net nhiều đầu từ đầu. MHU-Net đã được đào tạo để tách các hỗn hợp với số lượng nguồn thay đổi từ hai đến bảy theo quy trình học tập trong chương trình giảng dạy vì nó cải thiện kết quả. SoP đã được đào tạo theo chiến lược tối ưu được mô tả trong [23].


Việc đánh giá được thực hiện trên tập dữ liệu URMP [1] bằng cách sử dụng các hỗn hợp thực mà họ cung cấp. Các bản nhạc URMP được chia tuần tự thành các phân đoạn có thời lượng 6 giây. Số liệu được lấy từ tất cả các phần tách kết quả.


A. Kiến trúc và chi tiết đào tạo


Chúng tôi đã chọn The Sound of Pixels làm đường cơ sở vì trọng số của nó được công bố rộng rãi và mạng được đào tạo theo cách đơn giản. SoP bao gồm ba mạng con chính: ResNet mở rộng [35] làm mạng phân tích video, U-Net [36] làm mạng xử lý âm thanh và mạng tổng hợp âm thanh. Chúng tôi cũng so sánh kết quả của nó với U-Net nhiều đầu [34].


U-Net [37] là một kiến trúc bộ mã hóa-giải mã với các kết nối bỏ qua ở giữa. Bỏ qua các kết nối giúp khôi phục cấu trúc không gian ban đầu. MHU-Net là một bước tiến vì nó bao gồm càng nhiều bộ giải mã càng tốt. Mỗi bộ giải mã chuyên biệt về một nguồn duy nhất, do đó cải thiện hiệu suất.


Sound of Pixels [23] không tuân theo kiến trúc UNet ban đầu được đề xuất cho hình ảnh y sinh, nhưng UNet được mô tả tại [36], được điều chỉnh để tách giọng hát. Thay vì có hai tích chập trên mỗi khối, sau đó là gộp tối đa, họ sử dụng một tích chập duy nhất với


Hình 2. Các kiến trúc được xem xét. Bên trái, Âm thanh của pixel: Mạng lấy đầu vào là biểu đồ phổ hỗn hợp và trả về mặt nạ nhị phân dựa trên vectơ đặc trưng hình ảnh của nguồn mong muốn. Đúng, U-Net nhiều đầu: Nó lấy đầu vào là một biểu đồ phổ hỗn hợp và trả về 13 mặt nạ tỷ lệ, mỗi mặt nạ cho mỗi bộ giải mã.


một hạt nhân lớn hơn và sải bước. Công việc ban đầu đề xuất một khối trung tâm với các tham số có thể học được trong khi khối trung tâm là không gian tiềm ẩn tĩnh trong SoP. U-Net đã được sử dụng rộng rãi như là xương sống của một số kiến trúc cho các tác vụ như tạo hình ảnh [38], khử nhiễu và siêu phân giải [39], dịch từ hình ảnh sang hình ảnh [40], phân đoạn hình ảnh [37] hoặc nguồn âm thanh sự tách biệt [36]. SoP U-Net bao gồm 7 khối với các kênh lần lượt là 32, 64, 128, 256, 512, 512 và 512 (6 khối cho MHU-Net). Không gian tiềm ẩn có thể được coi là đầu ra cuối cùng của bộ mã hóa. ResNet giãn nở là một kiến trúc giống như ResNet, sử dụng các tích chập giãn nở để giữ trường tiếp nhận trong khi tăng độ phân giải không gian thu được. Đầu ra của U-Net là một tập hợp gồm 32 thành phần quang phổ (kênh) có cùng kích thước với biểu đồ phổ đầu vào, trong trường hợp SoP và một nguồn duy nhất cho mỗi bộ giải mã trong trường hợp MHU-Net. Với khung đại diện, các tính năng trực quan có được bằng cách sử dụng ResNet giãn nở. Các đặc điểm trực quan này không gì khác ngoài một vectơ gồm 32 phần tử (tương ứng với số lượng kênh đầu ra của UNet) được sử dụng để chọn các thành phần quang phổ thích hợp. Lựa chọn này được thực hiện bởi mạng phân tích âm thanh bao gồm 32 tham số có thể học được, αk, cộng với độ lệch, β. Hoạt động này có thể được mô tả về mặt toán học như sau:



trong đó Sk(t, f) là thành phần phổ dự đoán thứ k tại ngăn tần số thời gian (t, f).


Hình 2 minh họa cấu hình SoP. Thật thú vị khi nhấn mạnh rằng việc tạo mạng trực quan để chọn các thành phần quang phổ buộc nó phải gián tiếp tìm hiểu nội địa hóa thiết bị, điều này có thể được suy ra thông qua bản đồ kích hoạt.




Tính toán mặt nạ chân thực cho cả SoP và MHU-Net được mô tả trong biểu thức. (2) và phương trình. (3), Giây. IV-C.


B. Xử lý trước dữ liệu


Để huấn luyện các kiến trúc nói trên, âm thanh được lấy mẫu lại thành 11025 Hz và 16 bit. Các mẫu được đưa vào mạng có thời lượng 6 giây. Chúng tôi sử dụng Biến đổi Fourier thời gian ngắn (STFT) để thu được biểu diễn tần số thời gian của dạng sóng. Theo [23], STFT được tính toán bằng cách sử dụng cửa sổ Hanning có độ dài 1022 và độ dài bước nhảy 256 để chúng ta thu được biểu đồ phổ có kích thước 512×256 cho mẫu 6s. Sau đó, chúng tôi áp dụng thang đo lại nhật ký trên trục tần số, mở rộng tần số thấp hơn và nén tần số cao hơn. Cuối cùng, chúng tôi chuyển đổi các biểu đồ phổ cường độ thành dB ghi giá trị tối thiểu của mỗi biểu đồ phổ và chuẩn hóa trong khoảng từ -1 đến 1.


C. Mặt nạ sự thật


Trước khi giới thiệu các tính toán mặt nạ sự thật, chúng tôi muốn chỉ ra một số điều cần cân nhắc. Định dạng âm thanh dấu phẩy động tiêu chuẩn áp đặt dạng sóng được giới hạn trong khoảng từ -1 đến 1. Tại thời điểm tạo hỗn hợp nhân tạo, dạng sóng có thể nằm ngoài các giới hạn này. Điều này có thể giúp các mạng lưới thần kinh tìm ra các lối tắt để phù hợp quá mức. Để tránh hành vi này, các biểu đồ phổ được giới hạn theo các giới hạn tương đương trong miền tần số thời gian.


Biến đổi Fourier thời gian ngắn rời rạc có thể được tính như mô tả trong [42]:



BẢNG II KẾT QUẢ TIÊU CHUẨN (TRUNG BÌNH ± ĐỘ SAI TIÊU CHUẨN). SOP:ÂM THANH CỦA TRỌNG LƯỢNG GỐC PIXEL, SOP-SOLOS: ÂM THANH CỦA PIXEL ĐƯỢC TẠO TỪ ĐẦU TRÊN SOLOS. SOP-FT: ÂM THANH CỦA PIXEL ĐƯỢC TINH TẾ TRÊN SOLOS. MHU-NET: U-NET ĐA ĐẦU VỚI 13 BỘ GIẢI MÃ.


Để đào tạo Sound of Pixels, chúng tôi đã sử dụng mặt nạ nhị phân bổ sung làm mặt nạ sự thật, được định nghĩa là:



U-Net nhiều đầu đã được huấn luyện với mặt nạ tỷ lệ bổ sung, được định nghĩa là:



D. Kết quả


Các kết quả điểm chuẩn cho Tỷ lệ nguồn trên biến dạng (SDR), Tỷ lệ nguồn trên nhiễu (SIR), Tỷ lệ nguồn trên hiện vật (SAR) được đề xuất trong [43] được thể hiện trong Bảng II về giá trị trung bình và độ lệch chuẩn. Như có thể thấy, Sound of Pixels được đánh giá bằng trọng số ban đầu của nó hoạt động kém nhất. Một lý do có thể cho điều đó có thể là do thiếu một số danh mục URMP trên bộ dữ liệu MUSIC. Nếu chúng tôi huấn luyện mạng từ đầu trên Solo, kết quả sẽ cải thiện gần 1 dB. Tuy nhiên, có thể đạt được kết quả tốt hơn nữa khi tinh chỉnh mạng, được đào tạo trước bằng MUSIC, trên Solo. Chúng tôi đưa ra giả thuyết rằng sự cải thiện xảy ra khi mạng được tiếp xúc với nhiều dữ liệu đào tạo hơn. Hơn nữa, kết quả bảng cho thấy cách có thể đạt được hiệu suất cao hơn bằng cách sử dụng các kiến trúc mạnh hơn như MHU-Net.


Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.