作者:
(1) Dinesh Kumar Vishwakarma,印度德里理工大学信息技术系生物特征识别研究实验室;
(2) Mayank Jindal,印度德里理工大学信息技术系生物特征识别研究实验室
(3)阿尤什·米塔尔(Ayush Mittal),印度德里理工大学信息技术系生物识别研究实验室
(4)阿迪亚·夏尔马(Aditya Sharma),印度德里理工大学信息技术系生物识别研究实验室
自动电影类型分类已成为一个活跃且重要的研究和探索领域。短片预告片提供了有关电影的有用见解,因为视频内容由认知和情感层面的特征组成。以前的方法侧重于认知或情感内容分析。在本文中,我们提出了一种新颖的多模态:基于情境、对话和元数据的电影类型分类框架,该框架同时考虑了认知和基于情感的特征。基于预特征融合的框架考虑了:来自预告片常规快照的基于情境的特征,其中包括名词和动词,提供与相应类型的有用基于情感的映射,来自音频的基于对话(语音)的特征,元数据,它们共同为基于认知和基于情感的视频分析提供相关信息。我们还开发了英语电影预告片数据集 (EMTD),其中包含 2000 个属于五种流行类型的好莱坞电影预告片:动作、浪漫、喜剧、恐怖和科幻,并对标准 LMTD-9 数据集进行交叉验证以验证所提出的框架。结果表明,所提出的电影类型分类方法在 F1 分数、精确度、召回率以及精确度-召回率曲线下面积方面表现出色。
关键词:电影类型分类、卷积神经网络、英文电影预告片数据集、多模态数据分析。
电影是观众娱乐的重要来源,以多种方式影响着社会。手动识别电影类型可能会因个人品味而异。因此,自动电影类型预测是一个活跃的研究和探索领域。电影预告片正在成为预测电影类型的有用来源。它们在很短的时间内提供有关电影的有用见解。电影预告片包含两种类型的内容:认知内容和情感内容。
认知内容描述了电影预告片中某一特定视频帧中事件、物体和人物的构成,而情感内容则描述了电影预告片中的心理特征类型,例如感觉或情绪 [1]。认知内容的例子包括游乐场、建筑物、男人、狗等。情感内容的例子包括快乐、悲伤、愤怒等感觉/情绪。认知内容和基于情感的内容都为预测电影类型提供了重要的特征。
在本文中,我们提出了一种新颖的多模态情境、对话和基于元数据的电影类型分类框架,旨在使用电影预告片的视频、音频和元数据(情节/描述)内容来预测电影类型。我们的新框架专注于从电影预告片中提取认知和情感特征。为了实现这一点,从视频帧中提取由相关名词和动词组成的句子(由情境生成)。名词提供了有关预告片认知内容的相关信息,动词提供了与相应类型的有用的基于情感的映射。例如,笑、咯咯笑、挠痒痒等动词提供了与“喜剧”类型的基于情感的映射。攻击、殴打、击打等动词提供了与“动作”类型的基于情感的映射。除了情境之外,对话和基于元数据的特征还有助于认知和情感内容,因为它们包括事件描述(认知内容)和心理特征(情感内容)。
就像标准的机器学习过程一样,这项工作分多个阶段进行。第一阶段是数据集生成阶段,我们生成 EMTD,其中包含 2000 个好莱坞电影预告片,属于 5 个流行类型:动作、浪漫、喜剧、恐怖和科幻。第二阶段涉及视频预告片的预处理,其中删除并调整所有重复帧的大小。从有用的帧中提取包含重要名词和动词的句子。我们还准备电影预告片的音频记录,以获取预告片中的对话。在第三阶段,我们设计和训练所提出的架构,该架构从预告片中提取和学习重要特征。最后,在第四阶段,使用准确率曲线下面积 (AU (PRC)) 指标评估我们提出的架构的性能。以下是我们工作的重大贡献:
我们提出了一种新颖的 EMTD(英语电影预告片数据集),其中包含属于五种流行且不同类型的好莱坞英语电影预告片:动作片、浪漫片、喜剧片、恐怖片和科幻片。
这项研究提出了一种使用认知和情感特征预测电影类型的新方法。据我们所知,以前的文献都没有关注从电影预告片中提取的对话、情景和基于元数据的特征的组合。因此,我们执行:使用名词和动词进行基于情景的分析,使用语音识别进行基于对话的分析,以及使用预告片提供的元数据进行基于元数据的分析。
我们还通过在标准 LMTD-9 [2] 数据集上进行跨数据集测试来评估所提出的架构。结果表明,所提出的架构表现优异,并展示了该框架的卓越性能。
本文的剩余部分组织如下:第 2 部分回顾了电影类型分类的过去文献,并强调了本文提出的工作背后的动机。第 3 部分讨论了所提出的 EMTD。第 4 部分详细描述了所提出的架构。第 5 部分评估了所提出的框架的性能,并针对两个不同的数据集进行了验证。第 6 部分总结了本文。