作者:
(1)Praveen Tirupattur,中佛罗里达大学。
本章的第 5.1 节和第 5.2 节分别讨论了结论和现有工作的扩展方向。
在本研究中,我们尝试开发一个使用视觉和音频特征检测视频中暴力内容的系统。尽管本研究中使用的方法是受该领域早期研究的启发,但它的独特之处在于:(i) 检测不同类型的暴力行为,(ii) 使用 SentiBank 特征描述视频的视觉内容,(iii) 使用来自网络的图像开发的血液检测器和血液模型,以及 (iv) 使用来自视频编解码器的信息生成运动特征。以下是开发该系统的过程的简要概述。
由于暴力不是物理实体,因此在视频中检测暴力并非易事。暴力是一个视觉概念,要检测暴力,需要使用多种特征。在这项工作中,MFCC 特征用于描述音频内容,血液、运动和 SentiBank 特征用于描述视觉内容。针对每个选定的特征训练 SVM 分类器,并通过加权总和将各个分类器分数组合起来,以获得每个暴力类别的最终分类分数。使用网格搜索方法找到每个类别的权重,优化标准是最小 EER。这项工作使用了不同的数据集,但最重要的是 VSD 数据集,它用于训练分类器、计算分类器权重和测试系统。
系统的性能在两个不同的分类任务上进行评估,即多类分类和二元分类。在多类分类任务中,系统必须检测视频片段中存在的暴力类别。这是一项比仅仅检测暴力存在要困难得多的任务,这里介绍的系统是第一个解决此问题的系统之一。二元分类任务是系统只需检测暴力的存在而不必找到暴力类别。在此任务中,如果多类分类任务中任何暴力类别的最终分类分数大于 0.5,则视频片段被归类为“暴力”,否则,它被归类为“无暴力”。多类分类任务的结果远非完美,还有改进的空间,而二元分类任务的结果比 MediaEval-2014 的现有基准结果要好。然而,这些结果肯定令人鼓舞。在第 5.2 节中,详细讨论了当前工作可以扩展的可能方向。
目前的工作有很多可能的方向可以扩展。一个方向是提高现有系统的性能。为此,必须提高各个分类器的性能。运动和血迹是两个分类器性能需要合理改进的特征。如第 4.4 节所述,必须改变用于提取运动特征的方法,以提高运动分类器的性能。对于血迹,问题在于用于训练分类器的数据集,而不是特征提取器。应该使用包含大量血迹帧的适当数据集进行训练。进行这些改进应该是构建更好系统的第一步。未来工作的另一个方向是调整该系统并为不同的应用开发不同的工具。例如,(i) 可以开发一种工具,可以从给定的输入视频中提取包含暴力的视频片段。这可能有助于视频标记。(ii) 可以开发一种类似的工具用于家长控制,该系统可用于根据电影中的暴力内容量对电影进行评级。未来工作的另一个可能方向是提高系统速度,以便能够实时检测安全摄像头视频中的暴力行为。开发这样一个系统所需的改进并非微不足道。