该论文可在 arxiv 上根据 CC 4.0 许可获取。
作者:
(1)加州大学伯克利分校的任志航和本文其他作者对本文的贡献相同(Email: [email protected]);
(2)加州大学伯克利分校的 Jefferson Ortega 和本文其他作者对本文做出了同等贡献(电子邮箱:[email protected]);
(3)加州大学伯克利分校的 Yifan Wang 和本文其他作者对本文的贡献相同(电子邮箱:[email protected]);
(4)陈志敏,加州大学伯克利分校(电邮:[email protected]);
(5)郭云晖,德克萨斯大学达拉斯分校(电子邮箱:[email protected])
(6)Stella X. Yu,加州大学伯克利分校和密歇根大学安娜堡分校(电子邮箱:[email protected])
(7)加州大学伯克利分校的 David Whitney(电子邮箱:[email protected])。
我们通过计算每个注释者与共识的一致性来评估我们的数据集中是否存在任何嘈杂的注释者。这是通过计算每个注释者与每个视频的留一法共识(除当前注释者之外的响应集合)之间的 Pearson 相关性来完成的。在我们的数据集中,只有一位观察者与视频之间的留一法共识评级的相关性小于 .2。我们选择 .2 作为阈值,因为它通常用作心理学研究中弱相关性的指标。重要的是,如果我们将每个视频的共识与删除表现出弱一致性的注释者的共识之间的相关性进行比较,我们会得到非常高的相关性(r = 0.999),这表明删除该主题不会显著影响我们数据集中的共识响应。因此,我们决定在数据集中保留一致性较弱的注释者,以避免删除视频的任何重要替代注释。