paint-brush
Solos: Bộ dữ liệu để phân tích âm nhạc nghe nhìn - Bộ dữ liệutừ tác giả@kinetograph
144 lượt đọc

Solos: Bộ dữ liệu để phân tích âm nhạc nghe nhìn - Bộ dữ liệu

dài quá đọc không nổi

Trong bài báo này, các nhà nghiên cứu giới thiệu Solos, một tập dữ liệu rõ ràng về các buổi biểu diễn âm nhạc solo để đào tạo các mô hình học máy về các nhiệm vụ nghe nhìn khác nhau.
featured image - Solos: Bộ dữ liệu để phân tích âm nhạc nghe nhìn - Bộ dữ liệu
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

tác giả:

(1) Juan F. Montesinos, Khoa Công nghệ Thông tin và Truyền thông Đại học Pompeu Fabra, Barcelona, Tây Ban Nha {[email protected]};

(2) Olga Slizovskaia, Khoa Công nghệ Thông tin và Truyền thông Đại học Pompeu Fabra, Barcelona, Tây Ban Nha {[email protected]};

(3) Gloria Haro, Khoa Công nghệ Thông tin và Truyền thông Đại học Pompeu Fabra, Barcelona, Tây Ban Nha {[email protected]}.

Bảng liên kết

III. TẬP DỮ LIỆU

Solos[1] được thiết kế để có cùng danh mục với tập dữ liệu URMP [1], do đó, URMP có thể được sử dụng làm tập dữ liệu thử nghiệm trong kịch bản thế giới thực. Bằng cách này, chúng tôi mong muốn thiết lập một cách tiêu chuẩn để đánh giá hiệu suất của các thuật toán tách nguồn, tránh sử dụng tính năng trộn và tách trong thử nghiệm. Solo bao gồm 755 bản ghi được phân bổ thành 13 danh mục như trong Hình 1, với số lượng trung bình là 58 bản ghi cho mỗi danh mục và thời lượng trung bình là 5:16 phút. Thật thú vị khi nhấn mạnh rằng, đối với 8 trong số 13 danh mục, độ phân giải trung bình là HD, mặc dù đây là tập dữ liệu do YouTube thu thập. Bạn có thể tìm thấy số liệu thống kê theo từng danh mục trong Bảng I. Những bản ghi này được thu thập bằng cách truy vấn YouTube bằng cách sử dụng thẻ solo và thử giọng bằng một số ngôn ngữ như tiếng Anh, tiếng Tây Ban Nha, tiếng Pháp, tiếng Ý, tiếng Trung hoặc tiếng Nga.


A. Bộ xương OpenPose


Solos không chỉ là một tập hợp các bản ghi âm. Ngoài các bộ nhận dạng video, chúng tôi còn cung cấp: i) bộ xương cơ thể và bàn tay được OpenPose [33] ước tính trong mỗi khung hình của mỗi bản ghi và ii) dấu thời gian cho biết các phần hữu ích. OpenPose là hệ thống có khả năng dự đoán bộ xương cơ thể và bộ xương bàn tay


BẢNG THỐNG KÊ CỦA BỘ DỮ LIỆU SOLOS


sử dụng hai mạng lưới thần kinh khác nhau. Để làm như vậy, họ dự đoán một bản đồ tin cậy về niềm tin rằng một bộ phận cơ thể cụ thể có thể được đặt tại bất kỳ pixel nhất định nào cũng như các trường ái lực bộ phận mã hóa mức độ liên kết giữa các bộ phận cơ thể khác nhau. Cuối cùng, nó dự đoán khung 2D và độ tin cậy trên mỗi khớp thông qua suy luận tham lam. Trong thực tế, bộ xương cơ thể được ước tính bằng mạng đầu tiên. Sau đó, vị trí của cổ tay trong bộ xương cơ thể được sử dụng để ước tính vị trí của cả hai tay. Mạng lưới thần kinh thứ hai thu được bộ xương của mỗi bàn tay một cách độc lập. Lưu ý rằng vì mỗi bộ phận cơ thể được ước tính độc lập nên OpenPose không đưa ra giả định nào về các chi được tìm thấy. Nó chỉ tính toán bộ xương có khả năng nhất dựa trên bản đồ độ tin cậy và các trường ái lực một phần. Toàn bộ quá trình được thực hiện theo khung. Điều này dẫn đến hiện tượng nhấp nháy nhỏ và dự đoán sai giữa các khung hình.


B. Ước tính dấu thời gian và sàng lọc khung



OpenPose ánh xạ các khớp được dự đoán sai về gốc tọa độ. Theo kinh nghiệm, chúng tôi phát hiện ra rằng một bước nhảy lớn như vậy ở vị trí khớp sẽ gây ra tiếng ồn. Sử dụng tọa độ nội suy giúp giải quyết vấn đề này.


Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.


[1] Bộ dữ liệu có sẵn tại https://juanfmontesinos.github.io/Solos/