tác giả:
(1) Juan F. Montesinos, Khoa Công nghệ Thông tin và Truyền thông Đại học Pompeu Fabra, Barcelona, Tây Ban Nha {[email protected]};
(2) Olga Slizovskaia, Khoa Công nghệ Thông tin và Truyền thông Đại học Pompeu Fabra, Barcelona, Tây Ban Nha {[email protected]};
(3) Gloria Haro, Khoa Công nghệ Thông tin và Truyền thông Đại học Pompeu Fabra, Barcelona, Tây Ban Nha {[email protected]}.
Trong bài báo này, chúng tôi trình bày một tập dữ liệu mới về các video biểu diễn âm nhạc có thể được sử dụng để đào tạo các phương pháp học máy cho nhiều tác vụ như phân tách và bản địa hóa nguồn mù nghe nhìn, tương ứng đa phương thức, tạo đa phương thức và nói chung, bất kỳ nhiệm vụ tự giám sát nghe nhìn nào. Những video này được thu thập từ YouTube, bao gồm các màn trình diễn âm nhạc độc tấu của 13 nhạc cụ khác nhau. So với các bộ dữ liệu nghe nhìn được đề xuất trước đây, Solos sạch hơn vì phần lớn bản ghi của nó là bản thử giọng và bản ghi được kiểm tra thủ công, đảm bảo không có tiếng ồn xung quanh cũng như không có hiệu ứng nào được thêm vào trong quá trình xử lý hậu kỳ video. Ngoài ra, theo hiểu biết tốt nhất của chúng tôi, đây là bộ dữ liệu duy nhất chứa toàn bộ bộ nhạc cụ có trong bộ dữ liệu URMP [1], bộ dữ liệu chất lượng cao gồm 44 bản ghi âm nghe nhìn của các bản nhạc cổ điển nhiều nhạc cụ với các bản ghi riêng lẻ. các bản âm thanh. URMP được thiết kế để sử dụng để phân tách nguồn, do đó, chúng tôi đánh giá hiệu suất trên tập dữ liệu URMP của hai mô hình phân tách nguồn khác nhau được đào tạo về Solos. Bộ dữ liệu được cung cấp công khai tại https://juanfmontesinos.github.io/Solos/
Thuật ngữ chỉ mục —âm thanh, hình ảnh, tập dữ liệu, đa phương thức, âm nhạc
Ngày càng có nhiều mối quan tâm về các kỹ thuật đa phương thức để giải quyết các vấn đề Truy xuất Thông tin Âm nhạc (MIR). Các buổi biểu diễn âm nhạc có nội dung đa phương thức cao và các phương thức khác nhau có liên quan có mối tương quan cao: âm thanh được phát ra từ chuyển động của người chơi biểu diễn và trong các buổi biểu diễn nhạc thính phòng, điểm số tạo thành một mã hóa bổ sung có thể được tận dụng để phân tích âm nhạc tự động [ 2].
Mặt khác, bằng cách kiểm tra hiện trường bằng mắt, chúng ta có thể trích xuất thông tin về số lượng nguồn âm thanh, loại của chúng, vị trí không gian-thời gian và cả chuyển động, những thứ liên quan một cách tự nhiên đến âm thanh phát ra. Ngoài ra, có thể thực hiện các nhiệm vụ tự giám sát trong đó một phương thức giám sát phương thức kia. Điều này đòi hỏi một lĩnh vực nghiên cứu khác, thư tín đa phương thức (CMC). Chúng ta có thể tìm thấy những công trình tiên phong cho cả hai bài toán BSS và CMC. [11], [12] sử dụng dữ liệu nghe nhìn để định vị âm thanh và [13], [14], [15] để phân tách giọng nói. Trong bối cảnh âm nhạc, thông tin hình ảnh cũng đã được chứng minh là có ích cho các phương pháp dựa trên mô hình cả trong việc tách nguồn [16], [17] và bản địa hóa [2]. Với sự phát triển mạnh mẽ của các kỹ thuật học sâu, nhiều công trình gần đây khai thác cả nội dung âm thanh và video để thực hiện tách nguồn nhạc [18]–[20], liên kết nguồn [21], bản địa hóa [22] hoặc cả hai [23]. Một số công trình của CMC khám phá các tính năng được tạo ra từ quá trình đồng bộ hóa [24], [25] và chứng minh các tính năng này có thể tái sử dụng để tách nguồn. Các công trình này sử dụng các mạng đã được huấn luyện theo cách tự giám sát bằng cách sử dụng các cặp tín hiệu nghe nhìn tương ứng/không tương ứng cho mục đích bản địa hóa [22] hoặc phương pháp trộn và tách để tách nguồn [18]–[20] , [23]. Mặc dù học sâu có thể giải quyết các vấn đề cổ điển theo một cách khác, nhưng nó cũng góp phần tạo ra các lĩnh vực nghiên cứu mới như tạo đa phương thức, trong đó mục đích chính là tạo video từ âm thanh [26], [27] hoặc ngược lại [28]. Các công trình gần đây hơn liên quan đến chuyển động của con người sử dụng bộ xương như một biểu tượng bên trong cơ thể và có thể được chuyển đổi thành video [29], [30] cho thấy tiềm năng của bộ xương. Đóng góp chính của bài viết này là Solos, một tập dữ liệu mới về các bản ghi âm biểu diễn âm nhạc của các nghệ sĩ độc tấu có thể được sử dụng để đào tạo mạng lưới thần kinh sâu cho bất kỳ lĩnh vực nào nói trên. So với tập dữ liệu tương tự về các nhạc cụ được trình bày trong [23] và phiên bản mở rộng của nó [31], tập dữ liệu của chúng tôi chứa cùng loại nhạc cụ dàn nhạc thính phòng có trong tập dữ liệu URMP. Solos là tập dữ liệu gồm 755 bản ghi trong thế giới thực được thu thập từ YouTube, cung cấp một số tính năng còn thiếu trong các tập dữ liệu nói trên: khung và dấu thời gian chất lượng cao. Bản địa hóa nguồn thường được các mạng học gián tiếp. Vì vậy, việc cung cấp một nền tảng bản địa hóa thực tế không phải là điều đơn giản. Tuy nhiên, các mạng thường hướng tới bàn tay của người chơi như thể họ là nguồn âm thanh. Chúng tôi hy vọng việc bản địa hóa bàn tay có thể giúp cung cấp các tín hiệu bổ sung để cải thiện BSS nghe nhìn hoặc có thể được sử dụng làm nguồn bản địa hóa thực tế. Để cho thấy những lợi ích của việc sử dụng Solo, chúng tôi đã đào tạo một số kiến trúc BSS phổ biến và so sánh kết quả của chúng.
Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.