paint-brush
基于情境和对话的深度网络的多层次剖析:EMTD 数据集经过@kinetograph

基于情境和对话的深度网络的多层次剖析:EMTD 数据集

太長; 讀書

在本文中,研究人员提出了一种利用情境、对话和元数据特征进行电影类型分类的多模态框架。
featured image - 基于情境和对话的深度网络的多层次剖析:EMTD 数据集
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

作者:

(1) Dinesh Kumar Vishwakarma,印度德里理工大学信息技术系生物特征识别研究实验室;

(2) Mayank Jindal,印度德里理工大学信息技术系生物特征识别研究实验室

(3)阿尤什·米塔尔(Ayush Mittal),印度德里理工大学信息技术系生物识别研究实验室

(4)阿迪亚·夏尔马(Aditya Sharma),印度德里理工大学信息技术系生物识别研究实验室

链接表

3.EMTD数据集

先前文献中的数据集缺乏统一的电影类型组成。因此,我们提出了一个 EMTD(英语电影预告片数据集),它包含从 IMDB1 下载的约 2000 个独特的好莱坞电影预告片。EMTD 包含 5 个类型(即动作、喜剧、恐怖、浪漫、科幻)的 2000 个独特的预告片。该数据集通过网络抓取程序从 IMDB 中提取,如下所示:(1)获取 IMDB 上可用的电影标题列表(至少有一个类型与上面提到的类型相同),(2)抓取与每个电影标题相对应的元数据,包括要下载的预告片链接,以及(3)将与链接相对应的预告片(.mp4)下载到一个文件夹中,并以 CSV 文件的形式列出关于电影的所有信息/元数据,包括预告片名称、描述、情节、关键字和类型。在这项工作中,数据集被划分为训练集(1700 个预告片)和验证集(300 个预告片),如表 1 所示。


本研究仅针对上述类型进行,因为这些类型大多出现在电影中。我们还想首先在一小部分类型上探索我们的架构的性能,因此我们只选择了 5 种类型,而不是选择广泛的类型。


表 1:数据集组成