paint-brush
VEATIC: Theo dõi cảm xúc và tác động dựa trên video trong Bộ dữ liệu ngữ cảnh: Bộ dữ liệu VEATICtừ tác giả@kinetograph

VEATIC: Theo dõi cảm xúc và tác động dựa trên video trong Bộ dữ liệu ngữ cảnh: Bộ dữ liệu VEATIC

dài quá đọc không nổi

Trong bài viết này, các nhà nghiên cứu giới thiệu bộ dữ liệu VEATIC để nhận dạng ảnh hưởng của con người, giải quyết các hạn chế trong bộ dữ liệu hiện có, cho phép suy luận dựa trên ngữ cảnh.
featured image - VEATIC: Theo dõi cảm xúc và tác động dựa trên video trong Bộ dữ liệu ngữ cảnh: Bộ dữ liệu VEATIC
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.

tác giả:

(1) Zhihang Ren, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);

(2) Jefferson Ortega, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);

(3) Yifan Wang, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);

(4) Zhimin Chen, Đại học California, Berkeley (Email: [email protected]);

(5) Yunhui Guo, Đại học Texas tại Dallas (Email: [email protected]);

(6) Stella X. Yu, Đại học California, Berkeley và Đại học Michigan, Ann Arbor (Email: [email protected]);

(7) David Whitney, Đại học California, Berkeley (Email: [email protected]).

Bảng liên kết

3. Bộ dữ liệu VEATIC

Trong phần này, chúng tôi giới thiệu Bộ dữ liệu theo ngữ cảnh và cảm xúc dựa trên video ( VEATIC ). Đầu tiên, chúng tôi mô tả cách chúng tôi thu được tất cả các video clip. Tiếp theo, chúng tôi minh họa các quy trình chú thích dữ liệu và quy trình tiền xử lý. Cuối cùng, chúng tôi báo cáo số liệu thống kê tập dữ liệu quan trọng và trực quan hóa kết quả phân tích dữ liệu.

3.1. Thu thập các đoạn video

Tất cả các video clip được sử dụng trong tập dữ liệu đều được lấy từ trang web chia sẻ video trực tuyến (YouTube) và các video clip được chọn trên cơ sở cảm xúc/tác động của các nhân vật trong clip sẽ thay đổi theo thời gian. Tổng cộng, bộ dữ liệu VEATIC chứa 124 video clip, 104 clip từ phim Hollywood, 15 clip từ video gia đình và 5 clip từ phim tài liệu hoặc chương trình truyền hình thực tế. Các khung mẫu từ bộ dữ liệu VEATIC được hiển thị trong (Hình 2). Những video này chứa từ 0 đến nhiều ký tự tương tác. Toàn bộ âm thanh đã bị loại bỏ khỏi video nên người quan sát chỉ có thể tiếp cận thông tin hình ảnh khi theo dõi cảm xúc của nhân vật mục tiêu.


Hình 2. Tổng quan về khung hình video trong VEATIC. Chúng tôi đã lấy mẫu 4 khung hình chính từ 5 video trong tập dữ liệu của mình. Không giống như các bộ dữ liệu khác có nguồn video clip là duy nhất, các video clip của VEATIC đến từ nhiều nguồn khác nhau. Chúng bao gồm phim Hollywood, phim tài liệu và video tự chế. Do đó, nó sẽ làm cho mô hình được đào tạo trên tập dữ liệu của chúng tôi có khả năng khái quát hóa hơn. Đối với đầu vào trực quan, VEATIC chứa nhiều thông tin ngữ cảnh khác nhau, bao gồm các bối cảnh khác nhau, điều kiện ánh sáng, tương tác nhân vật, v.v. Nó làm cho tập dữ liệu mang tính đại diện hơn cho cuộc sống hàng ngày của chúng ta. Cuối cùng, cảm xúc/tác động của nhân vật được chọn thay đổi rất nhiều trong mỗi video clip, khiến việc mô hình hóa tác động của nhân vật trong VEATIC trở nên khó khăn hơn.

3.2. Chú thích dữ liệu và tiền xử lý

Tổng cộng, chúng tôi có 192 người quan sát tham gia chú thích các video trong tập dữ liệu. Tất cả những người tham gia đều cung cấp sự đồng ý có chữ ký theo các hướng dẫn và quy định của Hội đồng Đánh giá Thể chế UC Berkeley và tất cả các quy trình thử nghiệm đã được phê duyệt.


Những người tham gia đã xem và đánh giá tổng cộng 124 video trong tập dữ liệu. Để người quan sát không bị mệt mỏi, chúng tôi chia quy trình chú thích thành hai phiên chú thích kéo dài 1 giờ và 30 phút. Trước khi những người tham gia có thể chú thích bất kỳ video nào, họ được xem một phiên bản in của lưới xếp hạng ảnh hưởng hóa trị-kích thích với các cảm xúc mẫu được gắn nhãn ở các vị trí khác nhau của lưới theo xếp hạng do Bradley và Lang (1999) [6] cung cấp. Người chú thích được hướng dẫn làm quen với các kích thước và vị trí từ mẫu mà sau này họ sẽ sử dụng trong quá trình chú thích. Sau khi những người tham gia làm quen với lưới xếp hạng ảnh hưởng, họ sẽ hoàn thành chú thích thực hành dài hai phút trong đó họ liên tục theo dõi hóa trị và sự kích thích của nhân vật mục tiêu trong video (Hình 3b). Người chú thích được hướng dẫn theo dõi hóa trị và sự kích thích của nhân vật mục tiêu trong video bằng cách di chuyển liên tục con trỏ chuột của họ trong thời gian thực trong lưới kích thích hóa trị 2D. Lưới sẽ ánh xạ tới xếp hạng hóa trị và kích thích của chúng trong phạm vi [−1, 1]. Để kiểm soát các sai lệch động cơ tiềm ẩn, chúng tôi đã cân bằng các kích thước kích thích hóa trị giữa những người tham gia trong đó một nửa số người chú thích có hóa trị trên trục x và kích thích trên trục y và nửa còn lại có các kích thước được đảo ngược sao cho kích thích nằm trên x -axis và hóa trị nằm trên trục y. Sau khi người quan sát kết thúc phần chú thích thực hành, họ sẽ bắt đầu chú thích các video trong tập dữ liệu.


Hình 3. Giao diện người dùng được sử dụng để chú thích video. a) Người tham gia lần đầu tiên được xem nhân vật mục tiêu và được nhắc nhở về hướng dẫn nhiệm vụ trước khi bắt đầu mỗi video. b) Lưới hóa trị và lưới kích thích chồng lên nhau hiện diện khi người quan sát chú thích các video. Người quan sát được hướng dẫn liên tục đánh giá cảm xúc của nhân vật mục tiêu trong video theo thời gian thực. Nếu người quan sát không di chuyển chuột trong hơn 10 giây, lưới đánh giá phản hồi sẽ nhấp nháy để nhắc nhở người quan sát liên tục đánh giá cảm xúc.


Trước khi người tham gia bắt đầu chú thích, họ được xem một hình ảnh có nhân vật mục tiêu được khoanh tròn (Hình 3a) để thông báo cho người tham gia biết họ sẽ theo dõi nhân vật nào khi video bắt đầu. Sau đó, họ chú thích các video clip theo thời gian thực. Ở cuối mỗi chú thích video, những người tham gia đã báo cáo mức độ quen thuộc của họ với video clip bằng thang đo Likert rời rạc từ 1-5, dao động từ "Không quen", "Hơi quen", "Hơi quen", "Tương đối quen thuộc" và "Cực kỳ quen thuộc". thân thuộc". Những người tham gia cũng được hỏi về mức độ thích thú của họ khi xem clip được đánh giá bằng thang đo Likert riêng biệt từ 1-9, dao động từ 1 (Không thú vị) đến 9 (Cực kỳ thú vị). Ngoài ra, để không gây cảm giác nhàm chán cho người tham gia, toàn bộ 124 video clip đều được chia thành hai phần. Những người tham gia đánh giá các video clip trong hai phần riêng biệt.


Trong mỗi thử nghiệm, chúng tôi đánh giá xem người tham gia có chú ý hay không bằng cách theo dõi khoảng thời gian họ giữ con trỏ chuột ở bất kỳ vị trí nào. Nếu thời lượng dài hơn 10 giây, lưới xếp hạng ảnh hưởng sẽ bắt đầu dao động, điều này nhắc nhở người tham gia tiếp tục theo dõi cảm xúc của nhân vật mục tiêu. Để đánh giá xem có bất kỳ trình chú thích gây nhiễu nào trong tập dữ liệu của chúng tôi hay không, chúng tôi đã tính toán sự đồng thuận của từng người chú thích riêng lẻ với sự đồng thuận bằng cách tính toán mối tương quan Pearson giữa mỗi trình chú thích và sự đồng thuận loại bỏ một lần (tổng hợp các phản hồi ngoại trừ trình chú thích hiện tại) cho mỗi video. Chúng tôi nhận thấy rằng chỉ có một người chú thích có mối tương quan thấp hơn 0,2 trên tất cả các video có sự đồng thuận loại bỏ một lần. Vì chỉ có một chú thích nằm dưới ngưỡng của chúng tôi nên chúng tôi đã quyết định giữ lại chú thích đó trong tập dữ liệu để không xóa bất kỳ chú thích thay thế quan trọng nào đối với video.


Hình 4. Trực quan hóa xếp hạng trung bình mẫu của hóa trị và kích thích cho các video clip cụ thể bằng chế độ xem phóng to của ký tự đã chọn. Chúng tôi hiển thị các khung chính liên quan đến xếp hạng trung bình cụ thể của hóa trị và kích thích. Các khung và xếp hạng tương ứng được đánh dấu cùng màu.

3.3. Trực quan hóa và phân tích dữ liệu

Hình 4 hiển thị xếp hạng trung bình mẫu và các khung hình chính trong 2 video clip khác nhau. Rõ ràng, cả hóa trị và sự kích thích ở đây đều có nhiều mức xếp hạng khác nhau. Hơn nữa, nó cho thấy thông tin bối cảnh, cả về không gian và/hoặc thời gian, đóng một vai trò quan trọng trong các nhiệm vụ nhận dạng cảm xúc. Trong ví dụ về hóa trị (hình trên), nếu không có thông tin bối cảnh không gian và/hoặc thời gian của cuộc giao tranh, sẽ khó nhận ra liệu nhân vật (người phụ nữ) ở khung hình cuối cùng (màu vàng) đang vui mừng hay kinh ngạc một cách đáng ngạc nhiên. Trong ví dụ về sự kích thích (hình dưới), ngay cả khi không có khuôn mặt của nhân vật được chọn, người quan sát vẫn có thể suy ra sự kích thích của nhân vật một cách dễ dàng và nhất quán thông qua bối cảnh căng thẳng.


Hình 5. Ví dụ về mức độ hóa trị và mức độ kích thích cho một video (video 47). Các đường màu xám trong suốt biểu thị xếp hạng từng chủ đề và đường màu xanh lá cây là xếp hạng trung bình của những người tham gia.


Hình 5 minh họa hóa trị mẫu và xếp hạng kích thích của tất cả những người tham gia đối với một video trong tập dữ liệu của chúng tôi. Xếp hạng của từng đối tượng (đường màu xám) tuân theo xếp hạng đồng thuận giữa những người tham gia (đường màu xanh lá cây) cho cả xếp hạng hóa trị và đánh giá kích thích. Đường màu xám dày đặc chồng lên nhau xung quanh đường đồng thuận màu xanh lá cây biểu thị sự đồng thuận giữa nhiều nhà quan sát. Ngoài ra, Chúng tôi đã điều tra xem phản hồi của người quan sát khác nhau như thế nào giữa các video bằng cách tính toán độ lệch chuẩn giữa những người quan sát cho mỗi video. Chúng tôi nhận thấy rằng sự khác biệt giữa những người quan sát đối với cả kích thước hóa trị và kích thích là nhỏ với hóa trị có độ lệch chuẩn trung bình là µ = 0,248 và trung vị là 0,222 và kích thích có độ lệch chuẩn trung bình là µ = 0,248 và trung vị là 0,244, tức là có thể so sánh với phương sai đánh giá hóa trị và kích thích từ EMOTIC [32].


Sự phân bổ xếp hạng hóa trị và kích thích trên tất cả các video của chúng tôi được hiển thị trong Hình 6. Chúng tôi nhận thấy rằng xếp hạng của từng người tham gia được phân bổ đầy đủ trên cả kích thước hóa trị và kích thích, điều này làm nổi bật tính đa dạng của tập dữ liệu VEATIC. Chúng tôi cũng thu thập xếp hạng mức độ quen thuộc và mức độ thích thú cho từng video của những người tham gia (được hiển thị trong Hình 7). Chúng tôi nhận thấy rằng những người quan sát không quen thuộc với các video được sử dụng trong tập dữ liệu vì xếp hạng mức độ quen thuộc trung bình là 1,61 đối với ID video 0-97. Ngoài ra, những người quan sát đánh giá mức độ thích thú của họ khi xem video ở mức trung bình là 4,98 đối với ID video 0-97 cho thấy rằng những người quan sát thích xem và chú thích các video clip ở mức độ vừa phải. Xếp hạng về mức độ quen thuộc và mức độ thích thú không được thu thập đối với ID video 98-123 vì chú thích cho những video này được thu thập tại thời điểm sớm hơn trong quá trình thu thập dữ liệu không bao gồm các xếp hạng này.


Hình 6. Phân bổ hóa trị và xếp hạng kích thích giữa những người tham gia. Các chấm trắng riêng lẻ biểu thị hóa trị trung bình và mức độ kích thích của xếp hạng liên tục cho mỗi video clip dành cho phim Hollywood. Hình vuông màu xanh lam và hình tam giác màu xanh lục lần lượt thể hiện hóa trị trung bình và mức độ kích thích đối với phim tài liệu và video gia đình. Xếp hạng được chia thành các khoảng 0,02 và tổng số điểm dữ liệu được tính trong mỗi thùng.


Hình 7. Xếp hạng mức độ quen thuộc và thích thú trên các video dành cho ID video 0-97. Các đường màu đen dọc biểu thị 1 SD.


Bảng 2 dưới đây tóm tắt số liệu thống kê cơ bản của bộ dữ liệu VEATIC. Tóm lại, VEATIC có tổng thời lượng video clip dài và nhiều nguồn video khác nhau bao gồm nhiều bối cảnh và trạng thái cảm xúc khác nhau. Hơn nữa, so với các tập dữ liệu trước đó, chúng tôi đã tuyển được nhiều người tham gia hơn để chú thích xếp hạng.


Bảng 2. Thống kê của VEATIC Dataset.



Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.