该论文可在 arxiv 上根据 CC 4.0 许可获取。
作者:
(1)加州大学伯克利分校的任志航和本文其他作者对本文的贡献相同(Email: [email protected]);
(2)加州大学伯克利分校的 Jefferson Ortega 和本文其他作者对本文做出了同等贡献(电子邮箱:[email protected]);
(3)加州大学伯克利分校的 Yifan Wang 和本文其他作者对本文的贡献相同(电子邮箱:[email protected]);
(4)陈志敏,加州大学伯克利分校(电邮:[email protected]);
(5)郭云晖,德克萨斯大学达拉斯分校(电子邮箱:[email protected])
(6)Stella X. Yu,加州大学伯克利分校和密歇根大学安娜堡分校(电子邮箱:[email protected])
(7)加州大学伯克利分校的 David Whitney(电子邮箱:[email protected])。
VEATIC 数据集中使用的所有视频均选自在线视频共享网站 (YouTube)。VEATIC 数据集包含 124 个视频片段,其中 104 个片段来自好莱坞电影,15 个片段来自家庭视频,5 个片段来自纪录片或真人秀节目。具体来说,我们将纪录片视频归类为展示坦诚的社交互动但经过某种形式的视频编辑的任何视频,而家庭视频是指展示坦诚的社交互动而没有任何视频编辑的视频。数据集中的所有视频的帧速率均为每秒 25 帧,分辨率范围最低为 202 x 360,最高为 1920 x 1080。
除了图 2 中的视频帧概览之外,我们在图 9 中展示了更多样本。此外,与之前发布的大多数帧包含主角的数据集 [31, 29, 32] 不同,VEATIC 不仅包含选定角色的帧,而且还包含大量未选定角色和纯背景的帧(图 10)。因此,VEATIC 更类似于我们的日常生活场景,在其上训练的算法将更有希望应用于日常应用。