tác giả:
(1) Zhihang Ren, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);
(2) Jefferson Ortega, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);
(3) Yifan Wang, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);
(4) Zhimin Chen, Đại học California, Berkeley (Email: [email protected]);
(5) Yunhui Guo, Đại học Texas tại Dallas (Email: [email protected]);
(6) Stella X. Yu, Đại học California, Berkeley và Đại học Michigan, Ann Arbor (Email: [email protected]);
(7) David Whitney, Đại học California, Berkeley (Email: [email protected]).
Gần đây, đã có một số bộ dữ liệu cung cấp các khung có cả thông tin về khuôn mặt và bối cảnh, như CAER [33] và EMOIC [32]. CAER [33] là tập dữ liệu dựa trên video chứa các nhãn phân loại của từng khung hình video và EMOTIC [32] là tập dữ liệu dựa trên hình ảnh chứa cả nhãn biểu thức phân loại và xếp hạng thống trị hóa trị-kích thích liên tục. Không giống như các tập dữ liệu này, tập dữ liệu của chúng tôi dựa trên video và chứa các xếp hạng hóa trị và kích thích liên tục. Có thể tìm thấy so sánh chi tiết giữa tập dữ liệu của chúng tôi với các tập dữ liệu trước đó trong Bảng 1.
Dựa trên các bộ dữ liệu cảm xúc khác nhau, các nghiên cứu đã bắt đầu tập trung vào cách tự động suy ra cảm xúc. Ảnh hưởng của con người có thể được suy ra từ nhiều phương thức, chẳng hạn như âm thanh [70, 68, 65], hình ảnh [40, 54, 55, 37] và văn bản [68, 22]. Đặc biệt, đối với đầu vào trực quan, có ba nhiệm vụ chính.
Nhiệm vụ ước tính hóa trị-kích thích nhằm mục đích dự đoán hóa trị và kích thích của từng hình ảnh/khung hình [71, 69, 29, 30]; nhiệm vụ nhận dạng biểu thức tập trung vào việc phân loại các loại cảm xúc của từng hình ảnh/khung hình [66, 57, 67]; và nhiệm vụ phát hiện đơn vị hành động (AU) nhằm mục đích phát hiện các hành động của cơ mặt từ khuôn mặt của mỗi hình ảnh/khung hình [25, 56, 35, 64]. Hiện nay, hầu hết các phương pháp được đề xuất đều dựa chủ yếu vào vùng mặt để suy ra trạng thái cảm xúc. Thật vậy, vùng mặt chứa đựng nhiều thông tin về trạng thái cảm xúc của con người. Tuy nhiên, yếu tố bối cảnh cũng cung cấp những thông tin cần thiết để con người suy luận và nhận thức chính xác trạng thái cảm xúc của người khác [8, 9, 10]. Một số nghiên cứu [33, 32, 40] đã bắt đầu kết hợp thông tin bối cảnh làm nguồn suy luận ảnh hưởng. Trong nghiên cứu này, chúng tôi cũng áp dụng cả thông tin về khuôn mặt và bối cảnh để đạt được nhiệm vụ mới, tức là suy ra hóa trị và sự kích thích cho từng khung hình video.
Để suy ra tác động của một người, chúng ta thường cần xử lý thông tin tạm thời của các đoạn âm thanh, khung hình video hoặc từ ngữ. Nhiều nghiên cứu [68, 69, 29, 30] bắt đầu sử dụng bộ nhớ dài hạn ngắn hạn (LSTM) [23], đơn vị tái phát có kiểm soát (GRU) [11] hoặc mạng thần kinh tái phát (RNN) [24, 50] để xử lý thông tin mang tính thời sự. Với sự xuất hiện của biến áp thị giác (ViT) [14], sự chú ý đã được thay đổi. Nhiều tác vụ hiểu video [19, 1, 36] đã sử dụng ViT để hiểu thông tin theo thời gian và đạt được hiệu suất cao nhất. Phương pháp cơ bản của chúng tôi cũng sử dụng ViT làm công cụ để xử lý thông tin tạm thời trong các video clip.
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.