paint-brush
情境和基于对话的深度网络的多层次剖析:背景和相关工作经过@kinetograph

情境和基于对话的深度网络的多层次剖析:背景和相关工作

太長; 讀書

在本文中,研究人员提出了一种利用情境、对话和元数据特征进行电影类型分类的多模态框架。
featured image - 情境和基于对话的深度网络的多层次剖析:背景和相关工作
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

作者:

(1) Dinesh Kumar Vishwakarma,印度德里理工大学信息技术系生物特征识别研究实验室;

(2) Mayank Jindal,印度德里理工大学信息技术系生物特征识别研究实验室

(3)阿尤什·米塔尔(Ayush Mittal),印度德里理工大学信息技术系生物识别研究实验室

(4)阿迪亚·夏尔马(Aditya Sharma),印度德里理工大学信息技术系生物识别研究实验室

链接表

2.背景和相关工作

本节讨论过去电影类型分类的方法以及我们研究的动机。视频内容主要分为 (1) 视频帧(图像)和 (2) 音频(语音 {对话} + 非语音 {人声})。为了分析视频内容,过去进行了各种研究,主要分别关注认知 [3]-[7] 或情感 [8] 层面。为了进行更有效的研究,需要考虑这两个层面,以便在类型分类任务中表现更好。


在过去的研究中,许多基于认知的方法已经提出,它们基于低级特征来捕捉场景组成部分 [4],这些特征包括视觉干扰、平均镜头长度、视频帧中光强度的逐渐变化和音频波形中的峰值 [3]。用于认知分类的其他特征包括帧中的 RGB 颜色 [6]、电影镜头 [7]、镜头长度 [9]、场景中的背景类型(暗/非暗)[6] 等。同样,一些方法仅用于情感分析 [8]。


一部电影可以有多种类型,向观众传达大量信息,因此也可以作为向观众推荐电影的任务。Jain 等人 [5] 使用了 4 个视频特征(镜头长度、运动、色彩主导、灯光主调)和 5 个音频特征,仅使用 200 个训练样本对电影剪辑进行分类。他们使用完整的电影剪辑来预测类型。但是,该研究仅使用 200 个训练样本来训练他们的模型。因此,他们报告的准确度可能是由于过度拟合造成的。此外,该研究仅关注单标签分类。Huang 等人 [4] 提出了自适应和声搜索算法,该算法使用 7 个堆叠 SVM,在 223 大小的数据集上使用音频和视觉特征(总共约 277 个特征)。Ertugrul 等人 [10] 使用低级特征,包括电影情节,将情节分解成句子,将句子分类为类型,并将最终类型作为出现次数最多的类型。Pais 等人[11] 提出通过依赖整体概要中的一些重要词语来融合图像文本特征,并基于这些特征进行电影类型分类。该模型在一组 107 部电影预告片上进行了测试。Shahin 等人 [12] 使用电影情节和台词,并提出了分层注意力网络来对类型进行分类。同样,Kumar 等人 [13] 提出使用电影情节通过哈希向量化对类型进行分类,重点是降低总体时间复杂度。上述研究依赖于低级特征,没有从电影预告片中捕获任何高级特征,因此不能依赖于良好的级别识别系统。


从最近的研究来看,许多研究人员使用深度网络进行电影类型分类任务。Shambharkar 等人 [14] 提出了一种基于单标签 3D CNN 的架构来获取空间和时间特征。虽然其中捕获了空间和时间特征,但由于单标签分类,该模型并不稳健。一些研究人员研究电影海报来对电影类型进行分类。Chu 等人 [15] 构建了一个深度神经网络来促进物体检测和视觉外观。虽然工作从海报中捕获了大量信息,但海报本身不足以完整描述一部电影。Simoes 等人 [16] 提出了一种 CNN-Motion,其中包括无监督聚类算法提供的场景直方图、每个预告片的加权类型预测以及一些低级视频特征。这提供了来自视频的一组主要特征,但缺少一些基于情感和认知的特征来对类型进行分类。


因此,从过去的文献中可以看出,认知和情感研究都应从视频预告片中提取主要信息。因此,我们这项工作背后的动机是设计一种依赖于视频内容分析的两个层次的方法,如 [1] 中所述。我们相信,所提出的架构和模型是新颖且强大的,可以在未来用于各种研究视角。