该论文可在 arxiv 上根据 CC 4.0 许可获取。
作者:
(1)加州大学伯克利分校的任志航和本文其他作者对本文的贡献相同(Email: [email protected]);
(2)加州大学伯克利分校的 Jefferson Ortega 和本文其他作者对本文做出了同等贡献(电子邮箱:[email protected]);
(3)加州大学伯克利分校的 Yifan Wang 和本文其他作者对本文的贡献相同(电子邮箱:[email protected]);
(4)陈志敏,加州大学伯克利分校(电邮:[email protected]);
(5)郭云晖,德克萨斯大学达拉斯分校(电子邮箱:[email protected])
(6)Stella X. Yu,加州大学伯克利分校和密歇根大学安娜堡分校(电子邮箱:[email protected])
(7)加州大学伯克利分校的 David Whitney(电子邮箱:[email protected])。
在本节中,我们介绍基于视频的情境情感跟踪数据集 ( VEATIC )。首先,我们描述如何获取所有视频片段。接下来,我们说明数据注释程序和预处理过程。最后,我们报告重要的数据集统计数据并可视化数据分析结果。
数据集中使用的所有视频片段均来自在线视频共享网站 (YouTube),视频片段的选择基于片段中角色的情绪/情感应随时间变化。总体而言,VEATIC 数据集包含 124 个视频片段,其中 104 个片段来自好莱坞电影,15 个片段来自家庭视频,5 个片段来自纪录片或真人秀节目。VEATIC 数据集的样本帧显示在 (图 2) 中。这些视频包含零到多个交互角色。视频中的所有声音都被删除,因此观察者在跟踪目标角色的情绪时只能访问视觉信息。
总共有 192 名观察员参与了数据集中视频的注释。所有参与者均根据加州大学伯克利分校机构审查委员会的指导方针和规定签署了同意书,所有实验程序均已获得批准。
被试观看并评分了数据集中的 124 个视频。为了防止观察者疲劳,我们将注释过程分为两个 1 小时 30 分钟的注释环节。在被试能够注释任何视频之前,我们会向他们展示一份打印版的情感效价-唤醒度评分网格,其中的示例情绪根据 Bradley 和 Lang (1999) [6] 提供的评分标在网格的不同位置。注释者被要求熟悉维度和示例词位置,以便稍后在注释过程中使用。在被试熟悉情感评分网格后,他们完成了两分钟的练习注释,在此期间,他们会持续跟踪视频中目标角色的情感效价和唤醒度(图 3b)。注释者被要求通过在 2D 情感效价-唤醒度网格内实时持续移动鼠标指针来跟踪视频中目标角色的情感效价和唤醒度。网格将映射到他们的效价和唤醒度评级,范围为 [-1, 1]。为了控制潜在的运动偏差,我们平衡了参与者之间的效价-唤醒度维度,其中一半的注释者将效价放在 x 轴上,将唤醒度放在 y 轴上,而另一半的维度则翻转,这样唤醒度在 x 轴上,效价在 y 轴上。观察者完成练习注释会话后,他们便开始注释数据集中的视频。
在参与者开始注释之前,他们会看到一张标有目标角色的图像(图 3a),这幅图像会告知参与者在视频开始时他们将跟踪哪个角色。然后,他们实时注释视频片段。在每个视频注释结束时,参与者使用 1-5 离散李克特量表报告他们对视频片段的熟悉程度,范围从“不熟悉”、“有点熟悉”、“有点熟悉”、“中等熟悉”和“非常熟悉”。参与者还被问及他们观看片段时的享受程度,使用 1-9 离散李克特量表进行评分,范围从 1(不喜欢)到 9(非常喜欢)。此外,为了不让参与者感到无聊,所有 124 个视频片段被分成两个环节。参与者在两个环节中分别对视频片段进行评分。
在每次试验中,我们通过跟踪参与者将鼠标指针停留在任何一个位置的时间来评估参与者是否没有集中注意力。如果持续时间超过 10 秒,情感评级网格将开始波动,提醒参与者继续跟踪目标角色的情绪。为了评估我们的数据集中是否存在任何嘈杂的注释者,我们通过计算每个注释者与每个视频的留一法共识(当前注释者以外的响应集合)之间的 Pearson 相关性来计算每个注释者与共识的一致性。我们发现,在所有视频中,只有一名注释者与留一法共识的相关性低于 0.2。由于只有一名注释者低于我们的阈值,我们决定将该注释者保留在数据集中,以免删除视频的任何重要替代注释。
图 4 显示了 2 个不同视频片段中的样本平均评分和关键帧。显然,这里的情绪效价和唤醒度都有很宽的评分范围。此外,它表明,无论是空间还是时间,上下文信息在情绪识别任务中都起着重要作用。在情绪效价示例(上图)中,如果没有打斗的时间和/或空间上下文信息,就很难识别最后一帧(黄色)中的角色(女人)是出乎意料地高兴还是惊讶。在唤醒度示例(下图)中,即使没有选定角色的脸,观察者也可以轻松且一致地通过强烈的上下文推断出角色的唤醒度。
图 5 显示了我们数据集中单个视频的所有参与者的样本效价和唤醒评分。个体受试者的评分(灰线)遵循参与者在效价和唤醒评分方面的共识评分(绿线)。与绿色共识线重叠的密集灰线表示广泛观察者之间的一致性。此外,我们通过计算每个视频的观察者之间的标准差来研究观察者对不同视频的反应如何变化。我们发现,观察者之间在效价和唤醒维度上的差异很小,效价的平均标准差为 µ = 0.248,中位数为 0.222,唤醒的平均标准差为 µ = 0.248,中位数为 0.244,这与 EMOTIC [32] 中的效价和唤醒评分方差相当。
图 6 显示了我们所有视频的效价和唤醒度评分分布。我们发现,个体参与者的评分在效价和唤醒度维度上完全分布,这突出了 VEATIC 数据集的多样性。我们还收集了参与者对每个视频的熟悉度和享受度评分(如图 7 所示)。我们发现观察者不熟悉数据集中使用的视频,因为视频 ID 0-97 的平均熟悉度评分为 1.61。此外,观察者对视频 ID 0-97 的观看视频时的享受度评分平均为 4.98,这表明观察者相当喜欢观看和注释视频片段。没有收集视频 ID 98-123 的熟悉度和享受度评分,因为这些视频的注释是在数据收集的早期时间点收集的,不包括这些评分。
下表 2 总结了 VEATIC 数据集的基本统计数据。简而言之,VEATIC 的视频片段总时长较长,视频源种类繁多,涵盖了广泛的背景和情感条件。此外,与之前的数据集相比,我们招募了更多的参与者来注释评分。