paint-brush
VEATIC:基于视频的情感和情境数据集跟踪:跨视频的主题一致性经过@kinetograph
327 讀數
327 讀數

VEATIC:基于视频的情感和情境数据集跟踪:跨视频的主题一致性

太長; 讀書

在本文中,研究人员引入了用于人类情感识别的 VEATIC 数据集,解决了现有数据集的局限性,实现了基于上下文的推理。
featured image - VEATIC:基于视频的情感和情境数据集跟踪:跨视频的主题一致性
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

该论文可在 arxiv 上根据 CC 4.0 许可获取。

作者:

(1)加州大学伯克利分校的任志航和本文其他作者对本文的贡献相同(Email: [email protected]);

(2)加州大学伯克利分校的 Jefferson Ortega 和本文其他作者对本文做出了同等贡献(电子邮箱:[email protected]);

(3)加州大学伯克利分校的 Yifan Wang 和本文其他作者对本文的贡献相同(电子邮箱:[email protected]);

(4)陈志敏,加州大学伯克利分校(电邮:[email protected]);

(5)郭云晖,德克萨斯大学达拉斯分校(电子邮箱:[email protected]

(6)Stella X. Yu,加州大学伯克利分校和密歇根大学安娜堡分校(电子邮箱:[email protected]

(7)加州大学伯克利分校的 David Whitney(电子邮箱:[email protected])。

链接表

10. 视频间主题一致性

VEATIC 数据集的一个优点是它为每个视频配备了多个注释者,任何给定视频的注释者数量最少为 25 人,最多为 73 人。情绪感知是主观的,观察者的判断可能因人而异。许多之前发布的情绪数据集的注释者数量非常少,通常只有个位数(n < 10)。注释者数量如此之少是有问题的,因为观察者之间的差异增加了。为了说明这一点,我们计算了如果我们随机抽取 5 名注释者与所有注释者,数据集中每个视频的平均评分会如何变化。我们对每个视频重复此过程 1000 次,并计算重新计算的平均评分的标准差。图 12a 显示了如果我们对每个视频使用 5 名或所有注释者,视频之间的共识评分的标准差会如何变化。该分析表明,注释者越多,共识评分的标准差就越小,从而可以更准确地表示视频中的真实情绪。


图 9. VEATIC 中的更多示例视频帧。VEATIC 中的视频片段包含各种背景、光照条件、角色交互等,使其成为不仅适用于情感识别任务而且适用于其他视频理解任务的综合数据集。


图 10. VEATIC 中未选定角色和纯背景的示例视频帧。每行中的第一个示例帧显示选定的角色。其余示例帧是未选定的角色或纯背景。


此外,我们通过计算每个视频的观察者标准差,研究了观察者对不同视频的反应如何变化。图 12b 显示了不同视频的标准差。我们发现效价和唤醒度维度的标准差都很小,效价的平均标准差为 µ = 0.248,中位数为 0.222,唤醒度的平均标准差为 µ = 0.248,中位数为 0.244,这与 EMOTIC [32] 的效价和唤醒度评级方差相当。