基于情境和对话的深度网络的多层次剖析：摘要和简介

经过 Kinetograph: The Video Editing Technology Publication4m2024/05/28

太長; 讀書

在本文中，研究人员提出了一种利用情境、对话和元数据特征进行电影类型分类的多模态框架。

featured image - 基于情境和对话的深度网络的多层次剖析：摘要和简介

‘dialogue in movies’ Image created by HackerNoon AI Image Generator

作者：

（1） Dinesh Kumar Vishwakarma，印度德里理工大学信息技术系生物特征识别研究实验室；

（2） Mayank Jindal，印度德里理工大学信息技术系生物特征识别研究实验室

（3）阿尤什·米塔尔（Ayush Mittal），印度德里理工大学信息技术系生物识别研究实验室

（4）阿迪亚·夏尔马（Aditya Sharma），印度德里理工大学信息技术系生物识别研究实验室

链接表

抽象的

自动电影类型分类已成为一个活跃且重要的研究和探索领域。短片预告片提供了有关电影的有用见解，因为视频内容由认知和情感层面的特征组成。以前的方法侧重于认知或情感内容分析。在本文中，我们提出了一种新颖的多模态：基于情境、对话和元数据的电影类型分类框架，该框架同时考虑了认知和基于情感的特征。基于预特征融合的框架考虑了：来自预告片常规快照的基于情境的特征，其中包括名词和动词，提供与相应类型的有用基于情感的映射，来自音频的基于对话（语音）的特征，元数据，它们共同为基于认知和基于情感的视频分析提供相关信息。我们还开发了英语电影预告片数据集 (EMTD)，其中包含 2000 个属于五种流行类型的好莱坞电影预告片：动作、浪漫、喜剧、恐怖和科幻，并对标准 LMTD-9 数据集进行交叉验证以验证所提出的框架。结果表明，所提出的电影类型分类方法在 F1 分数、精确度、召回率以及精确度-召回率曲线下面积方面表现出色。

关键词：电影类型分类、卷积神经网络、英文电影预告片数据集、多模态数据分析。

1. 简介

电影是观众娱乐的重要来源，以多种方式影响着社会。手动识别电影类型可能会因个人品味而异。因此，自动电影类型预测是一个活跃的研究和探索领域。电影预告片正在成为预测电影类型的有用来源。它们在很短的时间内提供有关电影的有用见解。电影预告片包含两种类型的内容：认知内容和情感内容。

认知内容描述了电影预告片中某一特定视频帧中事件、物体和人物的构成，而情感内容则描述了电影预告片中的心理特征类型，例如感觉或情绪 [1]。认知内容的例子包括游乐场、建筑物、男人、狗等。情感内容的例子包括快乐、悲伤、愤怒等感觉/情绪。认知内容和基于情感的内容都为预测电影类型提供了重要的特征。

在本文中，我们提出了一种新颖的多模态情境、对话和基于元数据的电影类型分类框架，旨在使用电影预告片的视频、音频和元数据（情节/描述）内容来预测电影类型。我们的新框架专注于从电影预告片中提取认知和情感特征。为了实现这一点，从视频帧中提取由相关名词和动词组成的句子（由情境生成）。名词提供了有关预告片认知内容的相关信息，动词提供了与相应类型的有用的基于情感的映射。例如，笑、咯咯笑、挠痒痒等动词提供了与“喜剧”类型的基于情感的映射。攻击、殴打、击打等动词提供了与“动作”类型的基于情感的映射。除了情境之外，对话和基于元数据的特征还有助于认知和情感内容，因为它们包括事件描述（认知内容）和心理特征（情感内容）。

就像标准的机器学习过程一样，这项工作分多个阶段进行。第一阶段是数据集生成阶段，我们生成 EMTD，其中包含 2000 个好莱坞电影预告片，属于 5 个流行类型：动作、浪漫、喜剧、恐怖和科幻。第二阶段涉及视频预告片的预处理，其中删除并调整所有重复帧的大小。从有用的帧中提取包含重要名词和动词的句子。我们还准备电影预告片的音频记录，以获取预告片中的对话。在第三阶段，我们设计和训练所提出的架构，该架构从预告片中提取和学习重要特征。最后，在第四阶段，使用准确率曲线下面积 (AU (PRC)) 指标评估我们提出的架构的性能。以下是我们工作的重大贡献：

我们提出了一种新颖的 EMTD（英语电影预告片数据集），其中包含属于五种流行且不同类型的好莱坞英语电影预告片：动作片、浪漫片、喜剧片、恐怖片和科幻片。
这项研究提出了一种使用认知和情感特征预测电影类型的新方法。据我们所知，以前的文献都没有关注从电影预告片中提取的对话、情景和基于元数据的特征的组合。因此，我们执行：使用名词和动词进行基于情景的分析，使用语音识别进行基于对话的分析，以及使用预告片提供的元数据进行基于元数据的分析。
我们还通过在标准 LMTD-9 [2] 数据集上进行跨数据集测试来评估所提出的架构。结果表明，所提出的架构表现优异，并展示了该框架的卓越性能。

本文的剩余部分组织如下：第 2 部分回顾了电影类型分类的过去文献，并强调了本文提出的工作背后的动机。第 3 部分讨论了所提出的 EMTD。第 4 部分详细描述了所提出的架构。第 5 部分评估了所提出的框架的性能，并针对两个不同的数据集进行了验证。第 6 部分总结了本文。

该论文可在 arxiv 上根据 CC BY-NC-SA 4.0 DEED 许可获取。

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

Read my stories

Languages

English

中国人

这篇文章刊登在...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas

基于情境和对话的深度网络的多层次剖析：摘要和简介

太長; 讀書

链接表

抽象的

1. 简介

About Author

標籤

Languages

这篇文章刊登在...

相關故事