paint-brush
VEATIC: Theo dõi cảm xúc và tác động dựa trên video trong bộ dữ liệu ngữ cảnh: Công việc liên quantừ tác giả@kinetograph
196 lượt đọc

VEATIC: Theo dõi cảm xúc và tác động dựa trên video trong bộ dữ liệu ngữ cảnh: Công việc liên quan

dài quá đọc không nổi

Trong bài viết này, các nhà nghiên cứu giới thiệu bộ dữ liệu VEATIC để nhận dạng ảnh hưởng của con người, giải quyết các hạn chế trong bộ dữ liệu hiện có, cho phép suy luận dựa trên ngữ cảnh.
featured image - VEATIC: Theo dõi cảm xúc và tác động dựa trên video trong bộ dữ liệu ngữ cảnh: Công việc liên quan
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

tác giả:

(1) Zhihang Ren, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);

(2) Jefferson Ortega, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);

(3) Yifan Wang, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);

(4) Zhimin Chen, Đại học California, Berkeley (Email: [email protected]);

(5) Yunhui Guo, Đại học Texas tại Dallas (Email: [email protected]);

(6) Stella X. Yu, Đại học California, Berkeley và Đại học Michigan, Ann Arbor (Email: [email protected]);

(7) David Whitney, Đại học California, Berkeley (Email: [email protected]).

Bảng liên kết

2. Công việc liên quan

Gần đây, đã có một số bộ dữ liệu cung cấp các khung có cả thông tin về khuôn mặt và bối cảnh, như CAER [33] và EMOIC [32]. CAER [33] là tập dữ liệu dựa trên video chứa các nhãn phân loại của từng khung hình video và EMOTIC [32] là tập dữ liệu dựa trên hình ảnh chứa cả nhãn biểu thức phân loại và xếp hạng thống trị hóa trị-kích thích liên tục. Không giống như các tập dữ liệu này, tập dữ liệu của chúng tôi dựa trên video và chứa các xếp hạng hóa trị và kích thích liên tục. Có thể tìm thấy so sánh chi tiết giữa tập dữ liệu của chúng tôi với các tập dữ liệu trước đó trong Bảng 1.


Dựa trên các bộ dữ liệu cảm xúc khác nhau, các nghiên cứu đã bắt đầu tập trung vào cách tự động suy ra cảm xúc. Ảnh hưởng của con người có thể được suy ra từ nhiều phương thức, chẳng hạn như âm thanh [70, 68, 65], hình ảnh [40, 54, 55, 37] và văn bản [68, 22]. Đặc biệt, đối với đầu vào trực quan, có ba nhiệm vụ chính.


Bảng 1. So sánh bộ dữ liệu VEATIC với bộ dữ liệu nhận dạng cảm xúc hiện có. VEATIC chứa một lượng lớn video clip và tổng thời lượng video dài. Đây là tập dữ liệu video nhận dạng cảm xúc nhận biết theo ngữ cảnh lớn đầu tiên với các chú thích hóa trị và kích thích liên tục. VEATIC cũng có nhiều chú thích hơn so với các bộ dữ liệu video nhận dạng cảm xúc theo ngữ cảnh khác. (*: Phương tiện hỗn hợp chứa cả chú thích liên tục và chú thích phân loại.)


Nhiệm vụ ước tính hóa trị-kích thích nhằm mục đích dự đoán hóa trị và kích thích của từng hình ảnh/khung hình [71, 69, 29, 30]; nhiệm vụ nhận dạng biểu thức tập trung vào việc phân loại các loại cảm xúc của từng hình ảnh/khung hình [66, 57, 67]; và nhiệm vụ phát hiện đơn vị hành động (AU) nhằm mục đích phát hiện các hành động của cơ mặt từ khuôn mặt của mỗi hình ảnh/khung hình [25, 56, 35, 64]. Hiện nay, hầu hết các phương pháp được đề xuất đều dựa chủ yếu vào vùng mặt để suy ra trạng thái cảm xúc. Thật vậy, vùng mặt chứa đựng nhiều thông tin về trạng thái cảm xúc của con người. Tuy nhiên, yếu tố bối cảnh cũng cung cấp những thông tin cần thiết để con người suy luận và nhận thức chính xác trạng thái cảm xúc của người khác [8, 9, 10]. Một số nghiên cứu [33, 32, 40] đã bắt đầu kết hợp thông tin bối cảnh làm nguồn suy luận ảnh hưởng. Trong nghiên cứu này, chúng tôi cũng áp dụng cả thông tin về khuôn mặt và bối cảnh để đạt được nhiệm vụ mới, tức là suy ra hóa trị và sự kích thích cho từng khung hình video.


Để suy ra tác động của một người, chúng ta thường cần xử lý thông tin tạm thời của các đoạn âm thanh, khung hình video hoặc từ ngữ. Nhiều nghiên cứu [68, 69, 29, 30] bắt đầu sử dụng bộ nhớ dài hạn ngắn hạn (LSTM) [23], đơn vị tái phát có kiểm soát (GRU) [11] hoặc mạng thần kinh tái phát (RNN) [24, 50] để xử lý thông tin mang tính thời sự. Với sự xuất hiện của biến áp thị giác (ViT) [14], sự chú ý đã được thay đổi. Nhiều tác vụ hiểu video [19, 1, 36] đã sử dụng ViT để hiểu thông tin theo thời gian và đạt được hiệu suất cao nhất. Phương pháp cơ bản của chúng tôi cũng sử dụng ViT làm công cụ để xử lý thông tin tạm thời trong các video clip.



Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.


L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication@kinetograph
The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI...