paint-brush
Solos: Bộ dữ liệu để phân tích âm nhạc nghe nhìn - Công việc liên quantừ tác giả@kinetograph
134 lượt đọc

Solos: Bộ dữ liệu để phân tích âm nhạc nghe nhìn - Công việc liên quan

dài quá đọc không nổi

Trong bài báo này, các nhà nghiên cứu giới thiệu Solos, một tập dữ liệu rõ ràng về các buổi biểu diễn âm nhạc solo để đào tạo các mô hình học máy về các nhiệm vụ nghe nhìn khác nhau.
featured image - Solos: Bộ dữ liệu để phân tích âm nhạc nghe nhìn - Công việc liên quan
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

tác giả:

(1) Juan F. Montesinos, Khoa Công nghệ Thông tin và Truyền thông Đại học Pompeu Fabra, Barcelona, Tây Ban Nha {[email protected]};

(2) Olga Slizovskaia, Khoa Công nghệ Thông tin và Truyền thông Đại học Pompeu Fabra, Barcelona, Tây Ban Nha {[email protected]};

(3) Gloria Haro, Khoa Công nghệ Thông tin và Truyền thông Đại học Pompeu Fabra, Barcelona, Tây Ban Nha {[email protected]}.

Bảng liên kết

II. CÔNG VIỆC CÓ LIÊN QUAN

Bộ dữ liệu biểu diễn âm nhạc đa phương thức của Đại học Rochester (URMP) [1] là bộ dữ liệu với 44 bản ghi video đa nhạc cụ của các bản nhạc cổ điển. Mỗi nhạc cụ trong một bản nhạc đều được ghi âm riêng biệt, cả bằng video và âm thanh chất lượng cao với micrô độc lập, để có các bản nhạc riêng lẻ chân thực. Mặc dù chơi riêng biệt, các nhạc cụ được phối hợp bằng cách sử dụng video hướng dẫn có nghệ sĩ piano chơi để đặt thời gian chung cho những người chơi khác nhau. Sau khi đồng bộ hóa, âm thanh của từng video được thay thế bằng âm thanh chất lượng cao của micrô và sau đó các bản ghi âm khác nhau được ghép lại để tạo thành hỗn hợp: các bản ghi âm chất lượng cao riêng lẻ được thêm vào để tạo ra hỗn hợp âm thanh và nội dung hình ảnh được tổng hợp thành một video duy nhất có nền chung trong đó tất cả người chơi được sắp xếp ở cùng cấp độ từ trái sang phải. Đối với mỗi bản nhạc, tập dữ liệu cung cấp bản nhạc ở định dạng MIDI, bản ghi âm của từng nhạc cụ chất lượng cao và video của các bản nhạc được ghép lại. Các nhạc cụ có trong tập dữ liệu, được hiển thị trong Hình 1, là những nhạc cụ phổ biến trong dàn nhạc thính phòng. Mặc dù có tất cả các đặc điểm tốt nhưng nó là một tập dữ liệu nhỏ và do đó không phù hợp để đào tạo các kiến trúc deep learning.


Hai bộ dữ liệu khác về bản ghi âm nghe nhìn của các buổi biểu diễn nhạc cụ đã được trình bày gần đây: Music [23] và MusicES [31]. Âm nhạc bao gồm 536 bản ghi âm solo và 149 video song ca thuộc 11 thể loại: đàn accordion, guitar acoustic, cello, clarinet, đàn nhị, sáo, saxophone, kèn trumpet, tuba, violin và xylophone. Tập dữ liệu này được thu thập bằng cách truy vấn YouTube. MusicES [31] là một phần mở rộng của MUSIC lên gấp ba lần kích thước ban đầu của nó với khoảng 1475 bản ghi âm nhưng thay vào đó được chia thành 9 loại: đàn accordion, guitar, cello, sáo, saxophone, kèn trumpet, tuba, violin và xylophone. Có 7 loại phổ biến trong ÂM NHẠC và Solos: violin, cello, sáo, clarinet, saxophone, trumpet và tuba. Các danh mục phổ biến giữa MusicES và Solos là 6 (các danh mục trước đây ngoại trừ kèn clarinet). Solos và MusicES là sự bổ sung cho nhau. Chỉ có một giao điểm nhỏ 5% giữa cả hai, điều đó có nghĩa là cả hai tập dữ liệu có thể được kết hợp thành một tập dữ liệu lớn hơn.


Chúng ta có thể tìm thấy trong tài liệu một số ví dụ cho thấy tiện ích của bộ dữ liệu nghe nhìn. Sound of Pixels [23] thực hiện phân tách nguồn âm thanh, tạo ra các thành phần quang phổ âm thanh được lựa chọn thông minh hơn bằng cách sử dụng các tính năng hình ảnh đến từ luồng video để thu được các nguồn riêng biệt. Ý tưởng này đã được mở rộng hơn nữa trong [20] để tách các âm thanh khác nhau có trong hỗn hợp theo cách đệ quy. Ở mỗi giai đoạn, hệ thống sẽ tách nguồn nổi bật nhất khỏi những nguồn còn lại trong hỗn hợp. Âm thanh chuyển động [19] sử dụng các quỹ đạo dày đặc thu được từ luồng quang để điều hòa việc tách nguồn âm thanh, có thể


Hình 1. Các loại nhạc cụ Solo và URMP. Hình ảnh được điều chỉnh từ [1].


thậm chí để tách các hỗn hợp cùng một dụng cụ. Điều hòa thị giác cũng được sử dụng trong [18] để tách các dụng cụ khác nhau; trong quá trình huấn luyện, sự mất mát phân loại được sử dụng trên các âm thanh tách biệt để đảm bảo tính nhất quán của đối tượng và sự mất mát đồng phân tách buộc các âm thanh riêng lẻ ước tính tạo ra các hỗn hợp ban đầu sau khi được tập hợp lại. Trong [17], các tác giả đã phát triển một phương pháp dựa trên năng lượng nhằm giảm thiểu thuật ngữ Hệ số ma trận không âm với ma trận kích hoạt buộc phải căn chỉnh theo ma trận chứa thông tin chuyển động trên mỗi nguồn. Ma trận chuyển động này chứa vận tốc độ lớn trung bình của các quỹ đạo chuyển động được phân cụm trong hộp giới hạn của mỗi người chơi.


Các công trình gần đây cho thấy việc sử dụng bộ xương ngày càng tăng trong các tác vụ nghe nhìn. Trong Âm thanh đến động lực học cơ thể [29] các tác giả cho thấy có thể dự đoán các bộ xương tái tạo chuyển động của người chơi chơi các nhạc cụ như piano hoặc violin. Bộ xương đã được chứng minh là hữu ích trong việc thiết lập sự tương ứng về nghe nhìn, chẳng hạn như chuyển động của cơ thể hoặc ngón tay khi bắt đầu nốt hoặc dao động cao độ, trong các buổi biểu diễn nhạc thính phòng [21]. Một công trình gần đây [32] đã giải quyết vấn đề tách nguồn theo cách tương tự như Âm thanh của chuyển động [19] nhưng thay thế quỹ đạo dày đặc bằng thông tin khung.


Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.