paint-brush
VEATIC: Theo dõi cảm xúc và tác động dựa trên video trong bộ dữ liệu ngữ cảnh: Thử nghiệmtừ tác giả@kinetograph
136 lượt đọc

VEATIC: Theo dõi cảm xúc và tác động dựa trên video trong bộ dữ liệu ngữ cảnh: Thử nghiệm

dài quá đọc không nổi

Trong bài viết này, các nhà nghiên cứu giới thiệu bộ dữ liệu VEATIC để nhận dạng ảnh hưởng của con người, giải quyết các hạn chế trong bộ dữ liệu hiện có, cho phép suy luận dựa trên ngữ cảnh.
featured image - VEATIC: Theo dõi cảm xúc và tác động dựa trên video trong bộ dữ liệu ngữ cảnh: Thử nghiệm
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.

tác giả:

(1) Zhihang Ren, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);

(2) Jefferson Ortega, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);

(3) Yifan Wang, Đại học California, Berkeley và các tác giả này đã đóng góp như nhau cho công trình này (Email: [email protected]);

(4) Zhimin Chen, Đại học California, Berkeley (Email: [email protected]);

(5) Yunhui Guo, Đại học Texas tại Dallas (Email: [email protected]);

(6) Stella X. Yu, Đại học California, Berkeley và Đại học Michigan, Ann Arbor (Email: [email protected]);

(7) David Whitney, Đại học California, Berkeley (Email: [email protected]).

Bảng liên kết

4. Thí nghiệm

Trong nghiên cứu này, chúng tôi đề xuất một phương pháp nhận dạng cảm xúc mới trong nhiệm vụ ngữ cảnh, tức là suy ra hóa trị và sự kích thích của nhân vật được chọn thông qua cả bối cảnh và thông tin nhân vật trong mỗi khung hình video. Ở đây, chúng tôi đề xuất một mô hình cơ sở đơn giản để đánh giá khả năng nhận dạng cảm xúc mới trong nhiệm vụ ngữ cảnh. Đường dẫn của mô hình được hiển thị trong Hình 8. Chúng tôi đã áp dụng hai mô-đun con đơn giản: mô-đun mạng thần kinh tích chập (CNN) để trích xuất tính năng và mô-đun biến áp trực quan để xử lý thông tin theo thời gian. Cấu trúc mô-đun CNN được áp dụng từ Resnet50 [21]. Không giống như CAER [33] và EMOIC [32], trong đó các đặc điểm khuôn mặt/nhân vật và bối cảnh được trích xuất riêng biệt và hợp nhất sau đó, chúng tôi mã hóa trực tiếp khung hình đầy đủ thông tin. Đối với một dự đoán duy nhất, N khung hình video liên tiếp được mã hóa độc lập. Sau đó, các vectơ đặc trưng của các khung liên tiếp được nhúng vào vị trí đầu tiên và đưa vào bộ mã hóa biến áp chứa L bộ mô-đun chú ý. Cuối cùng, việc dự đoán mức độ kích thích và hóa trị được thực hiện bằng đầu nhận cảm đa lớp (MLP).


Hình 8. Cấu trúc của mô hình chuẩn cho việc theo dõi cảm xúc và tác động trong nhiệm vụ ngữ cảnh. Mô hình này bao gồm mô-đun trích xuất tính năng CNN và bộ biến đổi trực quan để kết hợp thông tin thời gian của các khung liên tiếp.

4.1. Mất chức năng và thiết lập đào tạo

Hàm tổn thất của mô hình cơ sở của chúng tôi là sự kết hợp có trọng số của hai tổn thất riêng biệt. Sự mất mát MSE điều chỉnh sự liên kết cục bộ của tính xác thực cơ bản của xếp hạng và các dự đoán của mô hình. Để đảm bảo sự liên kết của xếp hạng và dự đoán ở quy mô lớn hơn, chẳng hạn như tìm hiểu số liệu thống kê tạm thời của xếp hạng cảm xúc, chúng tôi cũng sử dụng hệ số tương quan phù hợp (CCC) làm chính quy. Hệ số này được định nghĩa như sau,


4.2. Số liệu đánh giá


SAGR đo mức độ trùng khớp của dấu của các giá trị riêng lẻ của hai vectơ X và Y. Nó nhận các giá trị trong [0, 1], trong đó 1 thể hiện sự đồng ý hoàn toàn và 0 thể hiện sự mâu thuẫn hoàn toàn. Chỉ số SAGR có thể thu thập thông tin hiệu suất bổ sung hơn các thông tin khác. Ví dụ: với giá trị chân lý hóa trị là 0,2, dự đoán là 0,7 và -0,3 sẽ dẫn đến cùng giá trị RMSE. Nhưng rõ ràng, 0,7 phù hợp hơn vì nó là giá trị dương.


Bảng 3. Hiệu suất của mô hình đề xuất của chúng tôi trên các điều kiện đầy đủ thông tin, chỉ ký tự và chỉ ngữ cảnh. Suy luận thông qua cả thông tin về nhân vật và bối cảnh, mô hình hoạt động tốt nhất. Nó cho thấy tầm quan trọng của cả thông tin bối cảnh và nhân vật trong cảm xúc và ảnh hưởng đến nhiệm vụ theo dõi.


Bảng 4. So sánh phương pháp được đề xuất tinh chỉnh của chúng tôi với mô hình được huấn luyện trước EMOTIC và CARE-S trên Bộ dữ liệu của họ. Mô hình đơn giản của chúng tôi đạt được kết quả cạnh tranh, cho thấy tính khái quát của VEATIC.

4.3. Kết quả điểm chuẩn

Chúng tôi đánh giá khả năng nhận dạng cảm xúc mới trong tác vụ ngữ cảnh bằng cách sử dụng 4 số liệu đã nói ở trên là CCC, PCC, RMSE và SAGR. Kết quả được trình bày trong Bảng 3. So với các bộ dữ liệu khác, phương pháp đơn giản được đề xuất của chúng tôi ngang bằng với các phương pháp tiên tiến trên bộ dữ liệu của họ.


Chúng tôi cũng điều tra tầm quan trọng của thông tin bối cảnh và ký tự trong các nhiệm vụ nhận dạng cảm xúc bằng cách đưa các khung chỉ có ngữ cảnh và chỉ có ký tự vào mô hình được đào tạo trước trên các khung có đầy đủ thông tin. Để có được sự so sánh công bằng và loại trừ ảnh hưởng của sự khác biệt về phân bổ pixel khung hình, chúng tôi cũng tinh chỉnh mô hình được huấn luyện trước trên các khung chỉ ngữ cảnh và chỉ ký tự. Các kết quả tương ứng cũng được thể hiện ở Bảng 3. Nếu không có thông tin đầy đủ, hiệu suất của mô hình sẽ giảm đối với cả điều kiện chỉ theo ngữ cảnh và chỉ ký tự.


Để thể hiện tính hiệu quả của tập dữ liệu VEATIC, chúng tôi đã sử dụng mô hình được đào tạo trước trên VEATIC, tinh chỉnh nó trên các tập dữ liệu khác và kiểm tra hiệu suất của nó. Chúng tôi chỉ thử nghiệm EMOTIC [32] và CAER-S [33] vì tính đơn giản của mô hình của chúng tôi và sự giống nhau của mô hình của chúng tôi với các mô hình được đề xuất trong các tài liệu tập dữ liệu khác. Kết quả được thể hiện trong Bảng 4. Mô hình tiền huấn luyện của chúng tôi hoạt động ngang bằng với các phương pháp được đề xuất trong EMOIC [32] và CAERS [33]. Vì vậy, nó cho thấy tính hiệu quả của bộ dữ liệu VEATIC được đề xuất của chúng tôi.



Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.