该论文可在 arxiv 上根据 CC 4.0 许可获取。
作者:
(1)加州大学伯克利分校的任志航和本文其他作者对本文的贡献相同(Email: [email protected]);
(2)加州大学伯克利分校的 Jefferson Ortega 和本文其他作者对本文做出了同等贡献(电子邮箱:[email protected]);
(3)加州大学伯克利分校的 Yifan Wang 和本文其他作者对本文的贡献相同(电子邮箱:[email protected]);
(4)陈志敏,加州大学伯克利分校(电邮:[email protected]);
(5)郭云晖,德克萨斯大学达拉斯分校(电子邮箱:[email protected])
(6)Stella X. Yu,加州大学伯克利分校和密歇根大学安娜堡分校(电子邮箱:[email protected])
(7)加州大学伯克利分校的 David Whitney(电子邮箱:[email protected])。
VEATIC 数据集的一个优点是它为每个视频配备了多个注释者,任何给定视频的注释者数量最少为 25 人,最多为 73 人。情绪感知是主观的,观察者的判断可能因人而异。许多之前发布的情绪数据集的注释者数量非常少,通常只有个位数(n < 10)。注释者数量如此之少是有问题的,因为观察者之间的差异增加了。为了说明这一点,我们计算了如果我们随机抽取 5 名注释者与所有注释者,数据集中每个视频的平均评分会如何变化。我们对每个视频重复此过程 1000 次,并计算重新计算的平均评分的标准差。图 12a 显示了如果我们对每个视频使用 5 名或所有注释者,视频之间的共识评分的标准差会如何变化。该分析表明,注释者越多,共识评分的标准差就越小,从而可以更准确地表示视频中的真实情绪。
此外,我们通过计算每个视频的观察者标准差,研究了观察者对不同视频的反应如何变化。图 12b 显示了不同视频的标准差。我们发现效价和唤醒度维度的标准差都很小,效价的平均标准差为 µ = 0.248,中位数为 0.222,唤醒度的平均标准差为 µ = 0.248,中位数为 0.244,这与 EMOTIC [32] 的效价和唤醒度评级方差相当。