Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.
tác giả:
(1) Zhihang Ren, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);
(2) Jefferson Ortega, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);
(3) Yifan Wang, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);
(4) Zhimin Chen, Đại học California, Berkeley (Email: [email protected]);
(5) Yunhui Guo, Đại học Texas tại Dallas (Email: [email protected]);
(6) Stella X. Yu, Đại học California, Berkeley và Đại học Michigan, Ann Arbor (Email: [email protected]);
(7) David Whitney, Đại học California, Berkeley (Email: [email protected]).
Trong phần này, chúng tôi giới thiệu Bộ dữ liệu theo ngữ cảnh và cảm xúc dựa trên video ( VEATIC ). Đầu tiên, chúng tôi mô tả cách chúng tôi thu được tất cả các video clip. Tiếp theo, chúng tôi minh họa các quy trình chú thích dữ liệu và quy trình tiền xử lý. Cuối cùng, chúng tôi báo cáo số liệu thống kê tập dữ liệu quan trọng và trực quan hóa kết quả phân tích dữ liệu.
Tất cả các video clip được sử dụng trong tập dữ liệu đều được lấy từ trang web chia sẻ video trực tuyến (YouTube) và các video clip được chọn trên cơ sở cảm xúc/tác động của các nhân vật trong clip sẽ thay đổi theo thời gian. Tổng cộng, bộ dữ liệu VEATIC chứa 124 video clip, 104 clip từ phim Hollywood, 15 clip từ video gia đình và 5 clip từ phim tài liệu hoặc chương trình truyền hình thực tế. Các khung mẫu từ bộ dữ liệu VEATIC được hiển thị trong (Hình 2). Những video này chứa từ 0 đến nhiều ký tự tương tác. Toàn bộ âm thanh đã bị loại bỏ khỏi video nên người quan sát chỉ có thể tiếp cận thông tin hình ảnh khi theo dõi cảm xúc của nhân vật mục tiêu.
Tổng cộng, chúng tôi có 192 người quan sát tham gia chú thích các video trong tập dữ liệu. Tất cả những người tham gia đều cung cấp sự đồng ý có chữ ký theo các hướng dẫn và quy định của Hội đồng Đánh giá Thể chế UC Berkeley và tất cả các quy trình thử nghiệm đã được phê duyệt.
Những người tham gia đã xem và đánh giá tổng cộng 124 video trong tập dữ liệu. Để người quan sát không bị mệt mỏi, chúng tôi chia quy trình chú thích thành hai phiên chú thích kéo dài 1 giờ và 30 phút. Trước khi những người tham gia có thể chú thích bất kỳ video nào, họ được xem một phiên bản in của lưới xếp hạng ảnh hưởng hóa trị-kích thích với các cảm xúc mẫu được gắn nhãn ở các vị trí khác nhau của lưới theo xếp hạng do Bradley và Lang (1999) [6] cung cấp. Người chú thích được hướng dẫn làm quen với các kích thước và vị trí từ mẫu mà sau này họ sẽ sử dụng trong quá trình chú thích. Sau khi những người tham gia làm quen với lưới xếp hạng ảnh hưởng, họ sẽ hoàn thành chú thích thực hành dài hai phút trong đó họ liên tục theo dõi hóa trị và sự kích thích của nhân vật mục tiêu trong video (Hình 3b). Người chú thích được hướng dẫn theo dõi hóa trị và sự kích thích của nhân vật mục tiêu trong video bằng cách di chuyển liên tục con trỏ chuột của họ trong thời gian thực trong lưới kích thích hóa trị 2D. Lưới sẽ ánh xạ tới xếp hạng hóa trị và kích thích của chúng trong phạm vi [−1, 1]. Để kiểm soát các sai lệch động cơ tiềm ẩn, chúng tôi đã cân bằng các kích thước kích thích hóa trị giữa những người tham gia trong đó một nửa số người chú thích có hóa trị trên trục x và kích thích trên trục y và nửa còn lại có các kích thước được đảo ngược sao cho kích thích nằm trên x -axis và hóa trị nằm trên trục y. Sau khi người quan sát kết thúc phần chú thích thực hành, họ sẽ bắt đầu chú thích các video trong tập dữ liệu.
Trước khi người tham gia bắt đầu chú thích, họ được xem một hình ảnh có nhân vật mục tiêu được khoanh tròn (Hình 3a) để thông báo cho người tham gia biết họ sẽ theo dõi nhân vật nào khi video bắt đầu. Sau đó, họ chú thích các video clip theo thời gian thực. Ở cuối mỗi chú thích video, những người tham gia đã báo cáo mức độ quen thuộc của họ với video clip bằng thang đo Likert rời rạc từ 1-5, dao động từ "Không quen", "Hơi quen", "Hơi quen", "Tương đối quen thuộc" và "Cực kỳ quen thuộc". thân thuộc". Những người tham gia cũng được hỏi về mức độ thích thú của họ khi xem clip được đánh giá bằng thang đo Likert riêng biệt từ 1-9, dao động từ 1 (Không thú vị) đến 9 (Cực kỳ thú vị). Ngoài ra, để không gây cảm giác nhàm chán cho người tham gia, toàn bộ 124 video clip đều được chia thành hai phần. Những người tham gia đánh giá các video clip trong hai phần riêng biệt.
Trong mỗi thử nghiệm, chúng tôi đánh giá xem người tham gia có chú ý hay không bằng cách theo dõi khoảng thời gian họ giữ con trỏ chuột ở bất kỳ vị trí nào. Nếu thời lượng dài hơn 10 giây, lưới xếp hạng ảnh hưởng sẽ bắt đầu dao động, điều này nhắc nhở người tham gia tiếp tục theo dõi cảm xúc của nhân vật mục tiêu. Để đánh giá xem có bất kỳ trình chú thích gây nhiễu nào trong tập dữ liệu của chúng tôi hay không, chúng tôi đã tính toán sự đồng thuận của từng người chú thích riêng lẻ với sự đồng thuận bằng cách tính toán mối tương quan Pearson giữa mỗi trình chú thích và sự đồng thuận loại bỏ một lần (tổng hợp các phản hồi ngoại trừ trình chú thích hiện tại) cho mỗi video. Chúng tôi nhận thấy rằng chỉ có một người chú thích có mối tương quan thấp hơn 0,2 trên tất cả các video có sự đồng thuận loại bỏ một lần. Vì chỉ có một chú thích nằm dưới ngưỡng của chúng tôi nên chúng tôi đã quyết định giữ lại chú thích đó trong tập dữ liệu để không xóa bất kỳ chú thích thay thế quan trọng nào đối với video.
Hình 4 hiển thị xếp hạng trung bình mẫu và các khung hình chính trong 2 video clip khác nhau. Rõ ràng, cả hóa trị và sự kích thích ở đây đều có nhiều mức xếp hạng khác nhau. Hơn nữa, nó cho thấy thông tin bối cảnh, cả về không gian và/hoặc thời gian, đóng một vai trò quan trọng trong các nhiệm vụ nhận dạng cảm xúc. Trong ví dụ về hóa trị (hình trên), nếu không có thông tin bối cảnh không gian và/hoặc thời gian của cuộc giao tranh, sẽ khó nhận ra liệu nhân vật (người phụ nữ) ở khung hình cuối cùng (màu vàng) đang vui mừng hay kinh ngạc một cách đáng ngạc nhiên. Trong ví dụ về sự kích thích (hình dưới), ngay cả khi không có khuôn mặt của nhân vật được chọn, người quan sát vẫn có thể suy ra sự kích thích của nhân vật một cách dễ dàng và nhất quán thông qua bối cảnh căng thẳng.
Hình 5 minh họa hóa trị mẫu và xếp hạng kích thích của tất cả những người tham gia đối với một video trong tập dữ liệu của chúng tôi. Xếp hạng của từng đối tượng (đường màu xám) tuân theo xếp hạng đồng thuận giữa những người tham gia (đường màu xanh lá cây) cho cả xếp hạng hóa trị và đánh giá kích thích. Đường màu xám dày đặc chồng lên nhau xung quanh đường đồng thuận màu xanh lá cây biểu thị sự đồng thuận giữa nhiều nhà quan sát. Ngoài ra, Chúng tôi đã điều tra xem phản hồi của người quan sát khác nhau như thế nào giữa các video bằng cách tính toán độ lệch chuẩn giữa những người quan sát cho mỗi video. Chúng tôi nhận thấy rằng sự khác biệt giữa những người quan sát đối với cả kích thước hóa trị và kích thích là nhỏ với hóa trị có độ lệch chuẩn trung bình là µ = 0,248 và trung vị là 0,222 và kích thích có độ lệch chuẩn trung bình là µ = 0,248 và trung vị là 0,244, tức là có thể so sánh với phương sai đánh giá hóa trị và kích thích từ EMOTIC [32].
Sự phân bổ xếp hạng hóa trị và kích thích trên tất cả các video của chúng tôi được hiển thị trong Hình 6. Chúng tôi nhận thấy rằng xếp hạng của từng người tham gia được phân bổ đầy đủ trên cả kích thước hóa trị và kích thích, điều này làm nổi bật tính đa dạng của tập dữ liệu VEATIC. Chúng tôi cũng thu thập xếp hạng mức độ quen thuộc và mức độ thích thú cho từng video của những người tham gia (được hiển thị trong Hình 7). Chúng tôi nhận thấy rằng những người quan sát không quen thuộc với các video được sử dụng trong tập dữ liệu vì xếp hạng mức độ quen thuộc trung bình là 1,61 đối với ID video 0-97. Ngoài ra, những người quan sát đánh giá mức độ thích thú của họ khi xem video ở mức trung bình là 4,98 đối với ID video 0-97 cho thấy rằng những người quan sát thích xem và chú thích các video clip ở mức độ vừa phải. Xếp hạng về mức độ quen thuộc và mức độ thích thú không được thu thập đối với ID video 98-123 vì chú thích cho những video này được thu thập tại thời điểm sớm hơn trong quá trình thu thập dữ liệu không bao gồm các xếp hạng này.
Bảng 2 dưới đây tóm tắt số liệu thống kê cơ bản của bộ dữ liệu VEATIC. Tóm lại, VEATIC có tổng thời lượng video clip dài và nhiều nguồn video khác nhau bao gồm nhiều bối cảnh và trạng thái cảm xúc khác nhau. Hơn nữa, so với các tập dữ liệu trước đó, chúng tôi đã tuyển được nhiều người tham gia hơn để chú thích xếp hạng.
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.