paint-brush
VEATIC:基于视频的情境数据集中的情感和影响跟踪:相关工作经过@kinetograph
196 讀數

VEATIC:基于视频的情境数据集中的情感和影响跟踪:相关工作

太長; 讀書

在本文中,研究人员引入了用于人类情感识别的 VEATIC 数据集,解决了现有数据集的局限性,实现了基于上下文的推理。
featured image - VEATIC:基于视频的情境数据集中的情感和影响跟踪:相关工作
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

作者:

(1)加州大学伯克利分校的任志航和本文其他作者对本文的贡献相同(Email: [email protected]);

(2)加州大学伯克利分校的 Jefferson Ortega 和本文其他作者对本文做出了同等贡献(电子邮箱:[email protected]);

(3)加州大学伯克利分校的 Yifan Wang 和本文其他作者对本文的贡献相同(电子邮箱:[email protected]);

(4)陈志敏,加州大学伯克利分校(电邮:[email protected]);

(5)郭云晖,德克萨斯大学达拉斯分校(电子邮箱:[email protected]

(6)Stella X. Yu,加州大学伯克利分校和密歇根大学安娜堡分校(电子邮箱:[email protected]

(7)加州大学伯克利分校的 David Whitney(电子邮箱:[email protected])。

链接表

2.相关工作

最近,有多个数据集提供包含面部和上下文信息的帧,例如 CAER [33] 和 EMOTIC [32]。CAER [33] 是一个基于视频的数据集,包含每个视频帧的分类标签,而 EMOTIC [32] 是一个基于图像的数据集,包含分类表情标签和连续效价-唤醒-显性评级。与这些数据集不同,我们的数据集是基于视频的,包含连续效价和唤醒评级。我们的数据集与以前的数据集之间的详细比较可以在表 1 中找到。


基于各种情感数据集,研究开始关注如何自动推断情感。人类情感可以从许多模态中推断出来,例如音频[70, 68, 65]、视觉[40, 54, 55, 37]和文本[68, 22]。对于视觉输入,有三个主要任务。


表 1. VEATIC 数据集与现有情绪识别数据集的比较。VEATIC 包含大量视频片段,视频总时长较长。它是第一个具有连续效价和唤醒注释的大型情境感知情绪识别视频数据集。与其他情境感知情绪识别视频数据集相比,VEATIC 还拥有更多注释者。(*:混合意味着包含连续和分类注释。)


情绪效价-唤醒度估计任务旨在预测每幅图像/帧的情绪效价和唤醒度 [71, 69, 29, 30];表情识别任务侧重于对每幅图像/帧的情绪类别进行分类 [66, 57, 67];动作单元 (AU) 检测任务旨在从每幅图像/帧的面部检测面部肌肉动作 [25, 56, 35, 64]。目前,大多数提出的方法高度依赖面部区域来推断情绪状态。事实上,面部区域包含有关人类情绪状态的丰富信息。然而,环境因素也提供了人类正确推断和感知他人情绪状态所必需的基本信息 [8, 9, 10]。一些研究 [33, 32, 40] 已开始将环境信息作为情感推断的来源。在本研究中,我们还采用了面部和环境信息来完成新任务,即推断每个视频帧的情绪效价和唤醒度。


为了推断一个人的情感,我们通常需要处理音频片段、视频帧或单词的时间信息。许多研究 [68、69、29、30] 开始利用长短期记忆 (LSTM) [23]、门控循环单元 (GRU) [11] 或循环神经网络 (RNN) [24、50] 来处理时间信息。随着视觉变换器 (ViT) [14] 的出现,注意力发生了转移。许多视频理解任务 [19、1、36] 已经利用 ViT 来理解时间信息并取得了最先进的性能。我们的基础方法也采用 ViT 作为处理视频片段中时间信息的工具。