paint-brush
视频中的暴力检测:实验和结果经过@kinetograph
112 讀數

视频中的暴力检测:实验和结果

太長; 讀書

在本文中,研究人员提出了一种自动检测视频中暴力内容的系统,利用音频和视觉线索进行分类。
featured image - 视频中的暴力检测:实验和结果
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


作者:

(1)Praveen Tirupattur,中佛罗里达大学。

链接表

4.实验与结果

本章详细介绍了为评估系统检测视频中暴力内容的性能而进行的实验。第一节介绍了用于这项工作的数据集,下一节介绍了实验设置,最后一节介绍了所进行的实验的结果。

4.1. 数据集

在本研究中,我们使用了来自多个来源的数据来提取音频和视觉特征、训练分类器并测试系统的性能。这里使用的两个主要数据集是暴力场景数据集 (VSD) 和曲棍球比赛数据集。除了这两个数据集之外,还使用了来自 Google Images[1] 等网站的图像。以下各节将详细描述这些数据集及其在本研究中的用途。

4.1.1. 暴力场景数据集

暴力场景数据集 (VSD) 是一个带注释的数据集,用于检测好莱坞电影和网络视频中的暴力场景。它是一个公开可用的数据集,专门用于开发基于内容的检测技术,以检测 YouTube[2] 等网站的电影和视频中的肢体暴力。VSD 数据集最初由 Demarty 等人 [15] 在 MediaEval 基准计划的框架中引入,该计划作为数据集的验证框架,并为暴力检测任务建立了最先进的基线。数据集 VSD2014 的最新版本在几个方面对其以前的版本(Demarty 等人 [19]、Demarty 等人 [18] 和 Demarty 等人 [17])进行了相当大的扩展。首先,为了注释电影和用户生成的视频,使用了更接近目标现实世界场景的暴力定义,重点关注不会让 8 岁儿童观看的肢体暴力。其次,该数据集包含 31 部好莱坞电影。第三,VSD2014 包括从 YouTube 检索的 86 个网络视频片段及其元数据,用于测试为检测暴力而开发的系统的泛化能力。第四,它包括最先进的视听内容描述符。该数据集为 (i) 好莱坞电影和 (ii) 网络上共享的用户生成视频集合提供了暴力场景和暴力相关概念的注释。除了注释之外,还提供了预先计算的音频和视频特征以及各种元数据。


VSD2014 数据集分为三个不同的子集,分别为 Hollywood: Development、Hollywood: Test 和 YouTube: Generalization。请参阅表 4.1 了解这三个子集的概述和基本统计数据,包括持续时间、暴力场景的比例(以每帧为基础的百分比)以及暴力场景的平均长度。VSD2014 数据集的内容分为三类:电影/视频、特征和注释。


数据集中包含的好莱坞电影来自不同的流派,并且暴力类型多样。从极度暴力到几乎没有暴力内容的电影,都经过精心挑选,以创建此数据集。所选电影还包含各种暴力类型。例如,战争电影(如《拯救大兵瑞恩》)包含特定的枪战和涉及许多人的战斗场景,并带有包含大量特效的响亮而密集的音频流。动作电影(如《谍影重重》)包含仅涉及少数参与者的打斗场景,可能是肉搏战。灾难电影(如《世界末日》)展示了整个城市的毁灭,并包含巨大的爆炸。除此之外,数据集中还添加了一些完全非暴力的电影,以研究算法对此类内容的行为。由于版权问题,无法在数据集中提供实际电影,因此提供了 31 部电影的注释,其中 24 部在好莱坞:发展中,7 部在好莱坞:测试集中。YouTube:泛化集包含在知识共享许可下在 YouTube 上共享的视频片段。数据集共包含 86 个 MP4 格式的剪辑。视频元数据(例如视频标识符、发布日期、类别、标题、作者、宽高比、持续时间等)均以 XML 文件形式提供。


在此数据集中,提供了一组通用的音频和视觉描述符。每个视频帧都提供了诸如振幅包络 (AE)、均方根能量 (RMS)、过零率 (ZCR)、频带能量比 (BER)、频谱质心 (SC)、频带宽度 (BW)、频谱通量 (SF) 和梅尔频率倒谱系数 (MFCC) 等音频特征。由于音频的采样率为 44,100 Hz,并且视频以 25 fps 编码,因此考虑使用长度为 1,764 个音频样本的窗口来计算这些特征,并且为每个窗口计算 22 个 MFCC,而所有其他特征都是一维的。数据集中提供的视频特征包括颜色命名直方图 (CNH)、颜色矩 (CM)、局部二值模式 (LBP) 和方向梯度直方图 (HOG)。Matlab 版本 7.3 MAT 文件中提供了音频和视觉特征,这些文件对应于 HDF5 格式。


表 4.1:VSD2014 子集中的电影和视频统计数据。所有值均以秒为单位。


VSD2014 数据集包含所有暴力场景的二进制注释,其中场景由其开始和结束帧标识。好莱坞电影和 YouTube 视频的这些注释由多位人工评估员创建,随后进行审查和合并以确保一定程度的一致性。每个注释的暴力片段只包含一个动作(只要可能)。如果不同动作重叠,则合并片段。这在注释文件中通过添加标签“多动作场景”来指示。除了包含身体暴力的片段的二进制注释外,注释还包括好莱坞:发展集中 17 部电影的高级概念。特别是,注释了 7 个视觉概念和 3 个音频概念,采用与暴力/非暴力注释类似的注释协议。对于视觉模态,这些概念包括血腥、打斗、火灾、枪支、冷兵器、汽车追逐和血腥场景;对于音频模态,包括枪声、爆炸和尖叫声。


Schedl 等人 [51] 对该数据集进行了更详细的描述,有关每个暴力类别的详细信息,请参阅 Demarty 等人 [19] 的著作。

4.1.2. 战斗数据集

该数据集由 Nievas 等人 [42] 提出,专门用于评估打斗检测系统。该数据集由两部分组成,第一部分(“曲棍球”)包含 1,000 个分辨率为 720 × 576 像素的剪辑,分为两组,500 场打斗和 500 场非打斗,均摘自国家冰球联盟 (NHL) 的曲棍球比赛。每个剪辑限制为 50 帧,分辨率降低至 320 × 240。第二部分(“电影”)包含 200 个视频剪辑,100 场打斗和 100 场非打斗,其中打斗摘自动作电影,非打斗视频摘自公开的动作识别数据集。与格式和内容都相对统一的曲棍球数据集不同,这些视频描绘的场景更加多样,并以不同的分辨率拍摄。请参见图 4.1,查看这两个数据集中视频中显示打斗的一些帧。该数据集可在线下载[3]。


图 4.1:曲棍球(顶部)和动作电影(底部)数据集中的打斗视频的样本帧。

4.1.3. 来自网络的数据

Google 的图片用于开发血液和非血液类别的颜色模型(第 3.1.1.2 节),这些模型用于提取视频中每帧的血液特征描述符。使用“血腥图像”、“血腥场景”、“流血”、“真实血迹”等查询词从 Google Images 1 下载包含血液的图像。同样,使用“自然”、“春天”、“皮肤”、“汽车”等搜索词下载不包含血液的图像。


使用 Beautiful Soup 库(Richardson [48])用 Python 开发了一款从 Google 下载图片的实用程序,只需输入一个搜索词即可。对于每个查询,响应包含大约 100 张图像,其中只有前 50 张被选中下载并保存在本地文件目录中。总共下载了大约 1,000 张图像,包括血液和非血液类别。下载图像的平均尺寸为 260 × 193 像素,文件大小约为 10 KB。请参阅图 3.3,了解本工作中使用的一些示例图像。

4.2. 设置

本节将详细介绍实验设置和用于评估系统性能的方法。下一段将讨论数据集的划分,后面几段将解释评估技术。


如前面第 4.1 节所述,该系统使用来自多个来源的数据。最重要的来源是 VSD2014 数据集。它是唯一提供带有各种暴力类别注释视频数据的公开数据集,也是使用该数据集开发该系统的主要原因。如前面第 4.1.1 节所述,该数据集包含三个子集,好莱坞:发展、好莱坞:测试和 YouTube:泛化。在本研究中,使用了所有三个子集。好莱坞:发展子集是唯一用不同暴力类别注释的数据集。这个由 24 部好莱坞电影组成的子集分为 3 个部分。第一部分由 12 部电影(《龙骑士》、《神奇四侠 1》、《冰血暴》、《搏击俱乐部》、《哈利波特 5》、《我是传奇》、《独立日》、《律政俏佳人》、《莱昂》、《午夜快车》、《加勒比海盗》、《落水狗》)组成,用于训练分类器。第二部分由 7 部电影(《拯救大兵瑞恩》、《谍影重重》、《教父》、《钢琴家》、《第六感》、《柳条人》、《绿野仙踪》)组成,用于测试经过训练的分类器并计算每种暴力类型的权重。最后一部分由 3 部电影(《世界末日》、《跳出我人生》和《死亡诗社》)组成,用于评估。好莱坞:测试和 YouTube:泛化子集也用于评估,但用于不同的任务。以下段落详细介绍了所使用的评估方法。


为了评估系统的性能,定义了两个不同的分类任务。在第一个任务中,系统必须检测视频片段中存在的特定暴力类别。第二个任务更为通用,系统只需检测暴力的存在。对于这两个任务,使用不同的数据集进行评估。在第一个任务中,这是一个多类分类任务,使用由 3 部好莱坞电影(世界末日、比利·艾略特和死亡诗社)组成的验证集。在这个子集中,每个包含暴力的帧间隔都用存在的暴力类别进行注释。因此,这个数据集用于此任务。这 3 部电影既不用于训练、分类器测试,也不用于权重计算,因此系统可以在纯新数据上进行评估。图 3.1 中所示的过程用于计算视频片段属于特定暴力类别的概率。系统的输出概率和基本事实信息用于生成 ROC(接收者操作特性)曲线并评估系统的性能。


第二个任务是二元分类任务,使用 VSD2104 数据集的 Hollywood:测试和 YouTube:泛化子集。Hollywood:测试子集包含 8 部好莱坞电影,YouTube:泛化子集包含 86 个 YouTube 视频。这两个子集中,包含暴力的帧间隔都作为注释提供,没有提供有关暴力类别的信息。因此,这些子集用于此任务。在此任务中,与上一个任务类似,图 3.1 中所示的过程用于计算视频片段属于特定暴力类别的概率。对于每个视频片段,从任何暴力类别获得的最大概率被视为其为暴力的概率。与上述任务类似,ROC 曲线是根据这些概率值和数据集中的事实生成的。


在这两个任务中,首先从训练和测试数据集中提取所有特征。接下来,随机抽样训练和测试数据集以获得等量的正样本和负样本。选择 2,000 个特征样本进行训练,选择 3,000 个进行测试。如上所述,使用不相交的训练集和测试集以避免对训练数据进行测试。在这两个任务中,针对每种特征类型训练具有线性、径向基函数和卡方核的 SVM 分类器,并选择在测试集上具有良好分类分数的分类器进行融合步骤。在融合步骤中,通过网格搜索可能的组合来计算每种暴力类型的权重,这些组合可最大程度地提高分类器的性能。使用 EER(等错误率)度量作为性能度量。

4.3. 实验与结果

本节介绍实验及其结果。首先介绍多类分类任务的结果,然后介绍二分类任务的结果。

4.3.1. 多类分类

在这个任务中,系统必须检测视频中存在的暴力类别。该系统针对的暴力类别包括血腥、冷兵器、爆炸、打斗、火灾、枪械、枪声、尖叫声。如第 1 章所述,这些是 VSD2014 中定义的暴力类别的子集。除了这八个类别之外,VSD2014 还定义了汽车追逐和主观暴力,但由于数据集中没有足够的标有这些类别的视频片段,因此本工作未使用这些类别。这项任务非常困难,因为检测暴力子类别会使复杂的暴力检测问题更加复杂。通过该系统检测细粒度暴力概念的尝试是新颖的,并且没有现有的系统可以完成这项任务。


如第 3 章所述,该系统使用加权决策融合方法来检测多种暴力类别,其中使用网格搜索技术学习每个暴力类别的权重。有关此方法的更多详细信息,请参阅第 3.1.3 节。表 4.2 列出了使用此网格搜索技术找到的每个暴力类别的权重。


这些权重用于获取每个暴力类别的二元特征分类器输出值的加权总和。总和最高的类别就是该视频片段中存在的暴力类别。如果输出总和小于 0.5,则视频片段被归类为非暴力。验证集中的视频片段使用此方法进行分类,结果如图 4.2 所示。图中,每条曲线代表每个暴力类别的 ROC 曲线。


表 4.2:使用网格搜索技术为每个暴力类别获得的分类器权重。此处,选择暴力类别权重的标准是找到最小化该暴力类别 EER 的权重。



图 4.2:系统在多类别分类任务中的表现。

4.3.2. 二元分类

在这个二元分类任务中,系统需要能够在不找到暴力类别的情况下检测到暴力的存在。与之前的任务类似,使用加权和方法组合二元特征分类器的输出概率,并计算视频片段属于每个暴力类别的输出概率。如果任何一个类别的最大概率超过 0.5,则该视频片段被归类为暴力,否则被归类为非暴力。如第 4.2 节所述,此任务是在 YouTube-Generalization 和 Hollywood-Test 数据集上执行的。图 4.3 提供了这两个数据集上此任务的结果。两个 ROC 曲线(每个数据集一条)用于表示系统的性能。使用 0.5 作为阈值来判断视频片段是否包含暴力,计算精度、召回率和准确率值。请参阅表 4.3 了解获得的结果。


表 4.3:使用所提方法获得的分类结果。


表 4.4:MediaEval-2014 中表现最佳的团队获得的分类结果(Schedl 等人 [51])。

4.4. 讨论

本节将讨论第 4.3 节中给出的结果。在讨论多类和二元分类任务的结果之前,先讨论各个分类器的性能。

4.4.1. 个体分类器

在第 4.3 节讨论的两个分类任务中,都会进行分类器得分融合以获得最终结果。因此,系统的性能主要取决于每个分类器的单独性能,部分取决于分配给每个分类器的权重。为了获得良好的最终分类结果,每个分类器都具有良好的单独性能非常重要。为了获得性能最佳的分类器,使用三种不同的核函数(线性、RBF 和卡方)训练 SVM,并选择在测试集上性能最佳的分类器。按照这种方法,选择每种特征类型性能最佳的分类器。这些选定的分类器在测试数据集上的性能如图 4.4 所示。可以观察到,SentiBank 和 Audio 是两个在测试集上表现出合理性能的特征分类器。运动特征分类器的性能略优于偶然性,而血液的性能与偶然性相当。接下来将按性能递增的顺序详细讨论每个分类器的性能。


图 4.4:测试集上各个二元分类器的性能。


图 4.5:运动特征分类器在 Hockey 和 HollywoodTest 数据集上的表现。红色曲线表示在 Hockey 数据集上训练的分类器,其余三条曲线表示在 Hollywood-Dev 数据集上使用线性、RBF 和卡方核训练的三个分类器。

4.4.1.1. 运动

从图 4.4 可以看出,运动特征分类器在测试集上的表现仅比偶然性好一点。为了理解背后的原因,比较了在可用数据集上使用不同 SVM 核训练的所有运动特征分类器的性能。请参阅图 4.5 进行比较。在图中,左侧图显示了 Hockey 数据集的测试集上分类器的性能,右侧图显示了 Hollywood-Test 数据集上的比较。在这两个图中,红色曲线对应于在 Hockey 数据集上训练的分类器,其余三条曲线对应于在 Hollywood-Dev 数据集上训练的分类器。


从这两个图中可以看出,与在一个数据集上训练并在另一个数据集上测试的分类器相比,在同一数据集上训练和测试的分类器的性能相当好。在左侧的图中(测试集:Hockey 数据集),在 Hockey 数据集上训练的分类器具有更好的性能。同样,在右侧的图中(测试集:Hollywood-Test),在 Hollywood-Dev 数据集上训练的分类器具有更好的性能。从这些观察中可以推断,从一个数据集学习到的运动特征表示不能转移到另一个数据集。造成这种情况的原因可能是数据集之间的视频分辨率和视频格式的差异。来自 Hockey 数据集和 Hollywood-Test 数据集的视频格式不同,而且,并非所有来自 Hollywood-Development 和 Hollywood-Test 的视频都具有相同的格式。视频格式起着重要作用,因为用于提取运动特征的过程(在第 3.1.1.3.1 节中解释)使用来自视频编解码器的运动信息。视频的长度和分辨率也会产生一定的影响,尽管这里使用的过程试图通过使用视频片段的长度对提取的特征进行归一化,并通过在帧的预定义数量的子区域上聚合像素运动来减少这种影响。来自 Hockey 数据集的视频是每段一秒的非常短的片段,并且帧大小小且质量低。而来自 Hollywood 数据集的视频片段更长,帧大小更大,质量更好。解决此问题的一种方法是将所有视频转换为相同的格式,但即使这样,由于视频编码不当,也可能会出现问题。另一种解决方案可能是使用基于光流的方法来提取运动特征(在第 3.1.1.3.2 节中解释)。但如前所述,这种方法很繁琐,当视频因运动而模糊时可能不起作用。

4.4.1.2. 血液

血液特征分类器在测试集上的表现和偶然一样好。参考图 4.4 查看结果。这里的问题不在于特征提取,因为用于血液特征提取的血液检测器在检测图像中包含血液的区域方面表现出色。请参见图 3.4 查看血液检测器在来自网络的图像上的表现,并参考图 4.6 查看其在来自好莱坞数据集的样本帧上的表现。由此可以看出,血液特征提取器做得相当不错,问题不在于特征提取。因此,可以得出结论,问题在于分类器训练,这是由于训练数据的可用性有限。


在用于训练的 VSD2014 数据集中,包含血迹的视频片段标有标签(“不明显”、“低”、“中”和“高”),表示这些片段中包含的血迹量。此数据集中只有极少数片段标有“高”标签,因此 SVM 分类器无法有效学习包含血迹的帧的特征表示。通过使用包含大量包含大量血迹的帧实例的较大数据集来训练此特征分类器,可以提高其性能。或者,也可以使用 Google 的图像来训练此分类器。

4.4.1.3. 音频

音频特征分类器是测试集上表现第二好的分类器(参见图 4.4),这表明了音频在暴力检测中的重要性。虽然视觉特征是暴力内容的良好指标,但在某些场景中,音频起着更重要的作用。例如,包含打斗、枪声和爆炸的场景。这些场景具有特征性声音,可以使用 MFCC 和能量熵等音频特征来检测与这些暴力场景相关的声音模式。在这项工作中,MFCC 特征用于描述音频内容(参见第 3.1.1.1 节),因为许多先前的暴力检测工作(Acar 等人 [1]、Jiang 等人 [33]、Lam 等人 [36] 等)已经证明了 MFCC 特征在检测与暴力场景相关的音频特征方面的有效性。其他音频特征(如能量熵、音高和功率谱)也可以与 MFCC 特征一起使用,以进一步提高特征分类器的性能。但值得注意的是,单靠音频不足以检测暴力行为,它仅在检测具有独特音频特征的少数暴力类别(如枪声和爆炸)中发挥重要作用。

4.4.1.4. 信天银行

SentiBank 特征分类器在所有特征分类器中表现出最佳性能(参见图 4.4),并对系统的整体性能做出了巨大贡献。这证明了 SentiBank 在检测暴力等复杂视觉情绪方面的强大功能。图 4.7 显示了包含暴力和非暴力的帧的前 50 个 ANP 的平均分数。可以看出,暴力和非暴力类别中平均分数最高的 ANP 列表非常不同,这就是 SentiBank 在区分暴力类别和非暴力类别方面表现非常出色的原因。请注意,暴力类别的 ANP 列表中并非所有形容词都描述暴力。这可能归因于许多不同的原因,其中之一可能是在 SentiBank 使用的 1,200 个 ANP 中,只有少数描述与暴力相关的情绪(如恐惧、恐怖、愤怒、生气等)。请参见图 4.8,其中展示了 Plutchik 的情绪之轮以及 VSO 中每种情绪类别的 ANP 分布。


图 4.6:该图显示了血液检测器在好莱坞数据集的样本帧上的性能。第一列(A 和 D)中的图像是输入图像,第二列(B 和 E)中的图像是血液概率图,最后一列(C 和 F)中的图像是二值化血液概率图。

4.4.2. 融合权重

如前所述(第 3.1.3 节),最终分类分数是通过使用加权和方法对各个分类器分数进行后期融合来计算的。这里使用的权重是使用网格搜索方法计算的,目的是最小化等错误率 (EER)。因此,权重在确定系统的整体分类性能方面起着重要作用。请注意,所有这些权重都是在测试集上计算的。表 4.2 列出了使用网格搜索技术获得的八个暴力类别中每个分类器的权重。根据获得的权重,可以对权重分布做出以下观察,(i) 对于大多数暴力类别,最高权重分配给 SentiBank,因为它是最具辨别力的特征。(ii) 音频在枪声、爆炸和打斗等暴力类别中获得最高权重,其中音频起着非常重要的作用。(iii) 血腥在尖叫声、枪声和枪械等暴力类别中获得高权重。这很有趣,因为属于这些暴力类别的视频片段也可能包含血腥场面。(iv)动作在大多数暴力类别中获得的权重最小,因为它是表现最差的特征。但是,也可以观察到,对于可能出现大量动作的打斗类别,它的权重较高。


如果分析分配给每个暴力类别的权重,可以得出以下观察结果:(i)对于枪击类别,最高分布权重在音频(0.5)和血迹(0.45)之间。这是意料之中的,因为音频特征在检测枪击中起着重要作用,并且包含枪击的场景也应该有大量血迹。(ii)音频(0.4)和视觉特征(运动 - 0.25 和 SentiBank - 0.30)在打斗类别中获得的权重几乎相等。这是意料之中的,因为音频和视觉特征在检测包含打斗的场景中都很重要。(iii)对于爆炸类别,最高权重分配给音频(0.9),这是意料之中的,因为音频特征对于检测爆炸至关重要。(iv)火灾是暴力类别,其中视觉特征预计具有高权重,并且正如预期的那样,表现最佳的视觉特征 SentiBank(0.85)被分配了最高权重。(v)暴力类别冷


图 4.7:显示包含暴力和非暴力的帧的 Top 50 SentiBank ANP 平均分数的图表。


图 4.8:Plutchik 的情绪轮和 VSO 中每种情绪的 ANP 数量。


武器包含出现任何冷兵器的场景(例如,刀、剑、箭、戟等)。对于此类,视觉特征预计具有高权重。并且正如预期的那样,SentiBank(0.95)具有此类的最高权重。(vi)“枪支”是暴力类别,其中场景包含枪支和火器。与上述类别类似,视觉特征预计具有高权重。对于此类,SentiBank(0.6)和血腥(0.3)获得了最高的权重分布。血腥被分配更高权重的原因可能是由于大多数包含枪支的场景也会包含流血事件。(vii)对于血腥类别,特征血腥预计具有最高权重。但是血腥特征(0.05)只获得了较小的权重,而SentiBank(0.95)获得了最高权重。这不是预期的结果,这可能是由于血液特征分类器在测试集上的表现不佳。 (viii)直观地预期音频在“尖叫”类别中具有更高的权重,因为音频特征在检测尖叫中起着重要作用。但是,这里获得的权重与这种直觉相反。音频获得的权重非常小,而 SentiBank 获得的权重最高。总体而言,从网格搜索中获得的权重对于大多数类别或多或少都符合预期。如果测试中各个分类器的性能得到改善,则可以获得更好的权重分布。

4.4.3. 多类分类

本节将讨论多类别分类任务中获得的结果。请参阅图 4.2 了解此任务中获得的结果。从图中可以得出以下观察结果:(i) 系统在检测枪声方面表现出色(EER 约为 30%)。(ii) 对于暴力类别,冷武器、血腥和爆炸,系统表现出中等性能(EER 约为 40%)。(iii) 对于其余的暴力类别(打架、尖叫、火灾、枪械),性能与偶然情况一样好(EER 超过 45%)。这些结果表明还有很大的改进空间,但重要的是要记住,暴力检测并非一项简单的任务,区分不同类别的暴力更加困难。迄今为止提出的所有方法都只集中于检测暴力的存在与否,而不是检测暴力类别。本文提出的新方法是该方向的首批方法之一,没有基准系统可以与其性能进行比较。这项工作获得的结果将作为该领域未来工作的基础。


该系统采用了后期融合方法,该方法在类似的多媒体概念检测任务(成人内容检测)中已显示出良好的效果(Schulze 等人 [52])。因此,系统性能不佳不能归咎于所采用的方法。系统的性能取决于各个分类器的性能以及为每个暴力类别分配给它们的融合权重。由于使用网格搜索技术调整融合权重以最小化 EER,因此系统的整体性能完全取决于各个分类器的性能。因此,为了提高系统在此任务中的性能,必须提高各个分类器在检测暴力方面的性能。

4.4.4. 二元分类

图 4.3 显示了二分类任务的结果。此任务是多类分类任务的扩展。如前所述,在此任务中,如果任何一个暴力类别的输出概率大于阈值 0.5,则将视频片段归类为“暴力”。系统在此任务中的表现在两个数据集上进行评估,即 Hollywood-Test 和 YouTube-Generalization。可以观察到,系统在这些数据集上的表现略好于偶然性。还可以观察到,Hollywood-Test 数据集上的表现优于 YouTube-Generalization 数据集。这是意料之中的,因为所有分类器都是在 Hollywood-Development 数据集的数据上进行训练的,该数据集的视频内容与 Hollywood-Test 数据集相似。系统为此任务获得的精度、召回率和准确度值列于表 4.3 中。MediaEval-2014 中此任务中表现最佳的团队获得的结果列于表 4.4 中。


即使使用相同的数据集,也无法直接比较这些结果,因为用于评估的过程并不相同。在 MediaEval-2014 中,系统需要输出包含暴力内容的视频片段的开始和结束帧,如果真实值和输出帧间隔之间的重叠度超过 50%,则视为命中。有关 MediaEval-2014 中遵循的过程的更多信息,请参阅 Schedl 等人 [51]。在所提出的方法中,系统将输入视频的每个 1 秒片段归类为“暴力”或“非暴力”类,并通过将其与真实值进行比较来计算系统性能。与 MediaEval-2014 中使用的评估标准相比,此处使用的评估标准更加严格和细致。在这里,由于对每个 1 秒片段进行分类,因此不需要采取策略来惩罚较短片段的检测。 MAP 指标用于在 MediaEval 中选择性能最佳的系统,而在所提出的系统中,系统的 EER 得到了优化。


尽管无法将该系统获得的结果与 MediaEval 结果直接进行比较,但可以观察到,即使使用严格的评估标准,该系统的性能也与 MediaEval-2014 中表现最好的系统相当,甚至更好。这些结果表明,使用所提出的新方法开发的系统比暴力检测领域现有的最先进系统更好。

4.5. 总结

本章详细讨论了所开发系统的评估。第 4.1 节详细介绍了本研究中使用的数据集,下一节第 4.2 节讨论了实验设置。第 4.3 节介绍了实验及其结果,随后在第 4.4 节详细讨论了所得结果。




[1] http://www.images.google.com


[2] http://www.youtube.com


[3] http://visilab.etsii.uclm.es/personas/oscar/FightDetection/index.html