paint-brush
视频中的暴力检测:简介经过@kinetograph

视频中的暴力检测:简介

太長; 讀書

在本文中,研究人员提出了一种自动检测视频中暴力内容的系统,利用音频和视觉线索进行分类。
featured image - 视频中的暴力检测:简介
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


作者:

(1)Praveen Tirupattur,中佛罗里达大学。

链接表

1. 简介

社交网站上上传的多媒体内容数量之多,以及儿童可以轻松访问这些内容,给那些希望保护孩子免受网络上暴力和成人内容影响的父母带来了问题。上传到 YouTube 和 Facebook 等网站的视频数量正在增加。过去一年,Facebook 上的视频帖子数量增加了 75%(Blog-FB [3]),每天有超过 120,000 个视频上传到 YouTube(Wesch [56],Gill 等人 [26])。据估计,上传到这些网站的视频中有 20% 包含暴力或成人内容(Sparks [54])。这使得儿童很容易访问或意外接触这些不安全的内容。心理学对观看暴力内容对儿童的影响进行了深入研究(Tompkins [55]、Sparks [54]、Bushman 和 Huesmann [6] 以及 Huesmann 和 Taylor [32]),这些研究的结果表明,观看暴力内容对儿童的情绪有显著影响。主要影响是增加攻击性或恐惧行为的可能性,并对他人的痛苦和苦难变得不那么敏感。Huesmann 和 Eron [31] 进行了一项研究,研究对象是小学儿童,他们观看了长时间的电视暴力内容。通过观察这些孩子长大成人,他们发现,8 岁时看大量电视暴力内容的孩子成年后更有可能因犯罪行为被捕和起诉。Flood [25] 和 Mitchell 等人 [40] 的类似研究表明,接触成人内容也会对儿童产生有害影响。这激发了视频中暴力和成人内容自动检测领域的研究。


成人内容检测(Chan 等人 [8]、Schulze 等人 [52]、Pogrebnyak 等人 [47])已得到深入研究,并取得了很大进展。另一方面,暴力检测的研究较少,只是在最近才引起人们的兴趣。过去提出了一些暴力检测方法,每种方法都试图使用不同的视觉和听觉特征来检测暴力。例如,Nam 等人 [41] 结合了多种视听特征来识别暴力场景。在他们的工作中,使用预定义的颜色表检测火焰和血迹,还利用了各种代表性的音频效果(枪声、爆炸声等)。Datta 等人 [14] 提出了一种基于加速运动矢量的方法来检测拳脚等人类暴力行为。Cheng 等人 [11] 提出了一种分层方法,通过检测典型的音频事件(例如枪声、爆炸声和汽车刹车)来定位枪战和赛车场景。


第 2 章讨论了更多用于暴力检测的方法。所有这些方法主要侧重于检测好莱坞电影中的暴力内容,而不是 YouTube 或 Facebook 等视频共享和社交媒体网站的视频。好莱坞电影中的暴力内容检测相对容易,因为这些电影遵循一些电影制作规则。例如,为了展示激动人心的动作场景,通过高速视觉运动和快节奏的声音营造出快节奏的氛围。但 YouTube 和 Facebook 等视频共享网站的视频不遵循这些电影制作规则,音频和视频质量通常较差。用户生成视频的这些特点使得很难检测到其中的暴力内容。


在讨论检测暴力的方法之前,重要的是对“暴力”一词进行定义。所有以前的暴力检测方法都没有遵循相同的暴力定义,而是使用了不同的特征和不同的数据集。这使得不同方法的比较非常困难。为了解决这个问题并促进该领域的研究,Demarty 等人 [15] 于 2011 年引入了一个名为“暴力场景检测”(VSD)的数据集,该数据集的最新版本是 VSD2014。根据这个最新的数据集,视频中的“暴力”是指“任何不会让 8 岁儿童观看的场景,因为它们包含身体暴力”Schedl 等人 [51]。据信,这个定义是基于上述心理学的研究结果而制定的。从这个定义可以看出,暴力不是一个物理实体,而是一个非常通用、抽象且非常主观的概念。因此,暴力检测不是一项简单的任务。


这项工作的目的是建立一个系统,该系统不仅可以自动检测好莱坞电影中的暴力行为,还可以自动检测 YouTube 和 Facebook 等视频共享网站的视频中的暴力行为。在这项工作中,还尝试检测视频中的暴力类别,这是以前的方法无法解决的。这项工作针对的暴力类别包括血腥、冷兵器、爆炸、打斗、尖叫、火灾、枪械和枪声。这些代表了 VSD2014 中定义和使用的概念子集,用于注释视频片段。VSD2014 中的“血腥场景”和“汽车追逐”类别未被选中,因为 VSD2014 中使用这些概念注释的视频片段并不多。另一个这样的类别是“主观暴力”。它未被选中,因为属于这一类别的场景没有任何可见的暴力行为,因此很难检测到。在这项工作中,音频和视觉特征都用于暴力检测,因为结合音频和视觉信息可以提供更可靠的分类结果。


开发这样一个可以自动检测多媒体内容中暴力内容的系统有很多好处。它可以根据暴力程度对电影进行评级。社交网站可以使用它来检测和阻止将暴力视频上传到他们的平台。此外,它还可以用于场景表征和类型分类,这有助于搜索和浏览电影。识别实时摄像系统视频流中的暴力内容将非常有助于机场、医院、购物中心、公共场所、监狱、精神病房、学校操场等场所的视频监控。然而,实时检测暴力要困难得多,这项工作并没有尝试解决这个问题。


接下来将概述相关工作、详细描述所提出的方法并进行评估。以下章节的组织方式如下。第 2 章详细解释了暴力检测领域的一些先前工作。第 3 章介绍了用于训练和测试特征分类器的方法的细节。它还包括特征提取和分类器训练的细节。第 4 章描述了所用数据集的细节、实验设置以及从实验中获得的结果。最后,第 5 章给出了结论,随后介绍了可能的未来工作。