Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.
tác giả:
(1) Zhihang Ren, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);
(2) Jefferson Ortega, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);
(3) Yifan Wang, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);
(4) Zhimin Chen, Đại học California, Berkeley (Email: [email protected]);
(5) Yunhui Guo, Đại học Texas tại Dallas (Email: [email protected]);
(6) Stella X. Yu, Đại học California, Berkeley và Đại học Michigan, Ann Arbor (Email: [email protected]);
(7) David Whitney, Đại học California, Berkeley (Email: [email protected]).
Lợi ích của tập dữ liệu VEATIC là nó có nhiều chú thích cho mỗi video với số lượng chú thích tối thiểu cho bất kỳ video cụ thể nào là 25 và tối đa là 73. Nhận thức về cảm xúc là chủ quan và đánh giá của người quan sát có thể khác nhau giữa nhiều người. Nhiều bộ dữ liệu cảm xúc được xuất bản trước đây có số lượng người chú thích rất thấp, thường chỉ có số lượng người chú thích là một chữ số (n < 10). Việc có quá ít người chú thích là một vấn đề do sự khác biệt giữa các người quan sát ngày càng tăng. Để thể hiện điều này, chúng tôi đã tính toán mức xếp hạng trung bình cho mỗi video trong tập dữ liệu của chúng tôi sẽ thay đổi như thế nào nếu chúng tôi lấy mẫu ngẫu nhiên, có thay thế, 5 chú thích so với tất cả các chú thích. Chúng tôi lặp lại quá trình này 1000 lần cho mỗi video và tính toán độ lệch chuẩn của xếp hạng trung bình được tính toán lại. Hình 12a cho thấy độ lệch chuẩn của xếp hạng đồng thuận trên các video sẽ thay đổi như thế nào nếu chúng tôi sử dụng năm hoặc tất cả chú thích cho mỗi video. Phân tích này cho thấy rằng việc có nhiều chú thích hơn sẽ dẫn đến độ lệch chuẩn nhỏ hơn nhiều trong xếp hạng đồng thuận, điều này có thể dẫn đến sự thể hiện chính xác hơn về cảm xúc chân thực cơ bản trong video.
Ngoài ra, Chúng tôi đã điều tra xem phản hồi của người quan sát khác nhau như thế nào giữa các video bằng cách tính toán độ lệch chuẩn giữa những người quan sát cho mỗi video. Hình 12b cho thấy độ lệch chuẩn trên các video. Chúng tôi thấy rằng độ lệch chuẩn cho cả kích thước hóa trị và kích thích đều nhỏ với hóa trị có độ lệch chuẩn trung bình là µ = 0,248 và trung vị là 0,222 và kích thích có độ lệch chuẩn trung bình là µ = 0,248 và trung vị là 0,244, có thể so sánh được. với phương sai đánh giá hóa trị và kích thích từ EMOIC [32].
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.