paint-brush
VEATIC: Theo dõi cảm xúc và tác động dựa trên video trong Bộ dữ liệu ngữ cảnh: Tóm tắt và giới thiệutừ tác giả@kinetograph
126 lượt đọc

VEATIC: Theo dõi cảm xúc và tác động dựa trên video trong Bộ dữ liệu ngữ cảnh: Tóm tắt và giới thiệu

dài quá đọc không nổi

Trong bài viết này, các nhà nghiên cứu giới thiệu bộ dữ liệu VEATIC để nhận dạng ảnh hưởng của con người, giải quyết các hạn chế trong bộ dữ liệu hiện có, cho phép suy luận dựa trên ngữ cảnh.
featured image - VEATIC: Theo dõi cảm xúc và tác động dựa trên video trong Bộ dữ liệu ngữ cảnh: Tóm tắt và giới thiệu
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

tác giả:

(1) Zhihang Ren, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);

(2) Jefferson Ortega, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);

(3) Yifan Wang, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);

(4) Zhimin Chen, Đại học California, Berkeley (Email: [email protected]);

(5) Yunhui Guo, Đại học Texas tại Dallas (Email: [email protected]);

(6) Stella X. Yu, Đại học California, Berkeley và Đại học Michigan, Ann Arbor (Email: [email protected]);

(7) David Whitney, Đại học California, Berkeley (Email: [email protected]).

Bảng liên kết

trừu tượng

Nhận dạng ảnh hưởng của con người là một chủ đề quan trọng trong tâm lý học và thị giác máy tính. Tuy nhiên, các bộ dữ liệu được công bố hiện nay còn nhiều hạn chế. Ví dụ: hầu hết các tập dữ liệu đều chứa các khung chỉ chứa thông tin về nét mặt. Do những hạn chế của các bộ dữ liệu trước đó, rất khó để hiểu các cơ chế nhận dạng ảnh hưởng của con người hoặc khái quát hóa tốt các trường hợp phổ biến đối với các mô hình thị giác máy tính được đào tạo trên các bộ dữ liệu đó. Trong công việc này, chúng tôi giới thiệu một tập dữ liệu lớn hoàn toàn mới, Tập dữ liệu theo dõi cảm xúc và tác động dựa trên video (VEATIC), có thể khắc phục những hạn chế của các tập dữ liệu trước đó. VEATIC có 124 video clip từ các bộ phim, phim tài liệu và video gia đình của Hollywood với xếp hạng hóa trị và kích thích liên tục cho từng khung hình thông qua chú thích thời gian thực. Cùng với tập dữ liệu, chúng tôi đề xuất một nhiệm vụ thị giác máy tính mới để suy ra tác động của ký tự được chọn thông qua cả thông tin bối cảnh và ký tự trong mỗi khung hình video. Ngoài ra, chúng tôi đề xuất một mô hình đơn giản để đánh giá nhiệm vụ thị giác máy tính mới này. Chúng tôi cũng so sánh hiệu suất của mô hình được đào tạo trước bằng cách sử dụng tập dữ liệu của chúng tôi với các tập dữ liệu tương tự khác. Các thử nghiệm cho thấy kết quả cạnh tranh của mô hình được huấn luyện trước của chúng tôi thông qua VEATIC, cho thấy tính khái quát của VEATIC. Tập dữ liệu của chúng tôi có sẵn tại https://veatic.github.io.

1. Giới thiệu

Nhận thức được ảnh hưởng của con người có tầm quan trọng sống còn trong cuộc sống hàng ngày của chúng ta. Chúng ta có thể suy ra cảm xúc của mọi người và dự đoán phản ứng tiếp theo của họ dựa trên nét mặt, sự tương tác với người khác và bối cảnh của cảnh đó. Đó là một phần vô giá trong giao tiếp của chúng tôi. Vì vậy, nhiều nghiên cứu được dành để tìm hiểu cơ chế nhận biết ảnh hưởng. Với sự xuất hiện của Trí tuệ nhân tạo (AI), nhiều nghiên cứu cũng đã đề xuất các thuật toán để tự động nhận thức và giải thích tác động của con người, với hàm ý tiềm tàng là các hệ thống như robot và con người ảo có thể tương tác với con người theo cách tự nhiên.


Hình 1. Tầm quan trọng của bối cảnh trong việc nhận biết cảm xúc. Cô ấy cảm thấy thế nào? Hãy nhìn người phụ nữ trong hình (a). Nếu bạn phải đoán cảm xúc của cô ấy, bạn có thể nói rằng cô ấy đang buồn hoặc đang đau buồn. Tuy nhiên, hình (b) cho thấy bối cảnh của cảnh đó cho phép chúng ta quan sát chính xác rằng cô ấy đang rất vui hoặc phấn khích.


Khi được giao nhiệm vụ nhận dạng cảm xúc trong thế giới thực, con người có quyền truy cập vào nhiều thông tin hơn là chỉ biểu cảm trên khuôn mặt. Mặc dù vậy, nhiều nghiên cứu điều tra nhận dạng cảm xúc thường sử dụng các kích thích tĩnh của nét mặt tách biệt với bối cảnh, đặc biệt là trong đánh giá các rối loạn tâm lý [3, 18] và trong các mô hình thị giác máy tính [60, 62]. Ngoài ra, trong khi các nghiên cứu trước đây tiếp tục điều tra quá trình con người cảm nhận được cảm xúc, nhiều nghiên cứu trong số này không tìm hiểu được việc nhận biết cảm xúc bị ảnh hưởng như thế nào bởi các yếu tố ngữ cảnh như khung cảnh thị giác, thông tin cơ bản, chuyển động cơ thể, khuôn mặt khác và thậm chí cả niềm tin của chúng ta, mong muốn và xử lý khái niệm [4, 34, 8, 42, 44]. Điều thú vị là thông tin ngữ cảnh trực quan đã được phát hiện là được tích hợp tự động và dễ dàng với nét mặt [2]. Nó cũng có thể ghi đè các tín hiệu trên khuôn mặt trong quá trình đánh giá cảm xúc [26] (Hình 1) và thậm chí có thể ảnh hưởng đến nhận thức cảm xúc ở giai đoạn đầu của quá trình xử lý hình ảnh [7]. Trên thực tế, thông tin theo ngữ cảnh thường có giá trị để hiểu cảm xúc của một người như chính khuôn mặt [8, 9, 10]. Bằng chứng ngày càng tăng về tầm quan trọng của thông tin theo ngữ cảnh trong nhận dạng cảm xúc [4] đòi hỏi các nhà nghiên cứu phải đánh giá lại các mô hình thử nghiệm trong đó họ điều tra nhận dạng cảm xúc của con người. Ví dụ, để hiểu rõ hơn về cơ chế và quy trình dẫn đến nhận biết cảm xúc của con người trong các tương tác xã hội hàng ngày, cần xem xét nghiêm túc tính khái quát của các nghiên cứu. Quan trọng nhất, các tập dữ liệu để theo dõi cảm xúc và tác động không chỉ phải chứa khuôn mặt hoặc các ký tự cụ thể riêng biệt mà còn phải bao gồm các yếu tố ngữ cảnh như thông tin cảnh nền và tương tác giữa các ký tự.


Để thể hiện trạng thái cảm xúc của con người, nhiều nghiên cứu về Tâm lý học và Khoa học thần kinh đã đề xuất các phương pháp định lượng trạng thái cảm xúc của con người, bao gồm cả mô hình cảm xúc phân loại và liên tục. Lý thuyết phân loại cảm xúc nổi tiếng và chiếm ưu thế nhất là lý thuyết về cảm xúc cơ bản, trong đó nêu rõ rằng một số cảm xúc nhất định được công nhận rộng rãi trên khắp các nền văn hóa (tức giận, sợ hãi, hạnh phúc, v.v.) và rằng tất cả các cảm xúc đều khác nhau về phản ứng hành vi và sinh lý, sự đánh giá của chúng, và trong biểu thức [16]. Ngoài ra, mô hình cảm xúc phức tạp, một mô hình cảm xúc liên tục, đề xuất rằng tất cả các trạng thái cảm xúc phát sinh từ hai hệ thống sinh lý thần kinh liên quan đến hóa trị và kích thích và tất cả cảm xúc có thể được mô tả bằng sự kết hợp tuyến tính của hai chiều này [52, 47, 53] . Một mô hình nhận dạng cảm xúc khác, mô hình Hệ thống mã hóa hành động trên khuôn mặt, tuyên bố rằng tất cả các biểu cảm trên khuôn mặt có thể được chia thành các thành phần cốt lõi của chuyển động cơ được gọi là Đơn vị hành động [17]. Các mô hình nhận dạng cảm xúc trước đây đã được xây dựng dựa trên các mô hình khác nhau này [61, 63, 41]. Tuy nhiên, một số mô hình tập trung vào việc đo lường ảnh hưởng bằng cách sử dụng các chiều liên tục, một sản phẩm đáng tiếc do thiếu cơ sở dữ liệu có chú thích dành cho tính toán cảm xúc.


Dựa trên các số liệu cảm xúc nói trên, nhiều bộ dữ liệu nhận dạng cảm xúc đã được phát triển. Các bộ dữ liệu ban đầu, chẳng hạn như SAL [15], SEMAINE [39], Belfast do [58], DEAP [28] và MAHNOB-HCI [59] được thu thập trong môi trường phòng thí nghiệm được kiểm soát chặt chẽ và thường có kích thước dữ liệu nhỏ. Các bộ dữ liệu trước đây thiếu sự đa dạng về nhân vật, chuyển động, ánh sáng cảnh và hình nền. Hơn nữa, các biểu diễn trong bộ dữ liệu ban đầu thường rời rạc. Các bộ dữ liệu gần đây, như RECOLA [49], MELD [46], bộ dữ liệu cảm xúc OMG [5], Aff-Wild [69] và Aff-Wild2 [29, 30], bắt đầu thu thập các trạng thái cảm xúc thông qua xếp hạng liên tục và sử dụng video trên internet hay còn gọi là “in-the-wild”. Tuy nhiên, những bộ dữ liệu này thiếu thông tin theo ngữ cảnh và chỉ tập trung vào nét mặt. Các khung hình bị chi phối bởi các nhân vật hoặc khuôn mặt cụ thể. Hơn nữa, các bộ dữ liệu nói trên có số lượng chú thích hạn chế (thường dưới 10). Vì những người quan sát là con người có những khác biệt cá nhân mạnh mẽ và chịu nhiều thành kiến [12, 45, 48], nên những người chú thích bị hạn chế có thể dẫn đến những thành kiến đáng kể về chú thích.


Trong nghiên cứu này, chúng tôi giới thiệu Tập dữ liệu theo dõi cảm xúc và tác động trong bối cảnh dựa trên video (VEATIC, /ve"ætIc/), một tập dữ liệu lớn có thể mang lại lợi ích cho cả nhóm Tâm lý học và thị giác máy tính. Tập dữ liệu này bao gồm 124 video clip từ Hollywood phim, phim tài liệu và video gia đình có xếp hạng hóa trị và kích thích liên tục cho từng khung hình thông qua chú thích thời gian thực. Chúng tôi cũng đã tuyển dụng một số lượng lớn người tham gia để chú thích dữ liệu. Dựa trên tập dữ liệu này, chúng tôi đề xuất một nhiệm vụ thị giác máy tính mới, tức là. tự động suy ra ảnh hưởng của ký tự được chọn thông qua cả thông tin bối cảnh và ký tự trong từng khung hình video. Trong nghiên cứu này, chúng tôi cũng cung cấp một giải pháp đơn giản cho nhiệm vụ này. Các thử nghiệm cho thấy tính hiệu quả của phương pháp cũng như lợi ích của bộ dữ liệu VEATIC được đề xuất. Tóm lại, những đóng góp chính của công việc này là:


• Chúng tôi xây dựng tập dữ liệu video lớn đầu tiên, VEATIC, để theo dõi cảm xúc và tác động, chứa cả đặc điểm khuôn mặt và các yếu tố ngữ cảnh. Tập dữ liệu có xếp hạng hóa trị và kích thích liên tục cho từng khung hình.


• Để giảm bớt những thành kiến từ người chú thích, chúng tôi đã tuyển dụng một nhóm lớn người chú thích (tổng cộng 192 người) để chú thích tập dữ liệu so với các tập dữ liệu trước đó (thường ít hơn 10).


• Chúng tôi cung cấp mô hình cơ sở để dự đoán mức độ kích thích và hóa trị của ký tự được chọn từ mỗi khung hình bằng cách sử dụng cả thông tin ký tự và các yếu tố ngữ cảnh.



Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.