作者:
(1) Dinesh Kumar Vishwakarma,印度德里理工大学信息技术系生物特征识别研究实验室;
(2) Mayank Jindal,印度德里理工大学信息技术系生物特征识别研究实验室
(3)阿尤什·米塔尔(Ayush Mittal),印度德里理工大学信息技术系生物识别研究实验室
(4)阿迪亚·夏尔马(Aditya Sharma),印度德里理工大学信息技术系生物识别研究实验室
在本部分中,我们将研究不同模态和预特征融合模型上的各种模型架构。之后,我们将通过在标准 LMTD-9 数据集以及我们提出的数据集上验证我们的工作来验证它。最后,讨论了一项比较研究以探索我们的模型稳健性。所有实验均在具有 128 GB DDR4 RAM 和 Nvidia Titan RTX (24 GB) GPU 配置的 GPU 工作站上进行。
为了验证我们的框架,我们利用了我们提出的数据集和标准 LMTD-9 [2] 数据集。综合细节如下:
EMTD:我们提出的数据集包含一个单独的训练集,其中包含 1700 个独特的预告片,以及一个验证集,其中包含 300 个独特的预告片,全部取自 IMDB,如第 3 节所述。
LMTD [16]、[20] 是一个多标签大型电影预告片数据集,包括预告片链接、预告片元数据、情节/摘要、唯一预告片 ID,由大约 9000 个属于 22 个不同标签/类型的电影预告片组成。为了进行验证,使用了 LMTD-9 [2] 的验证集(子部分),其中仅包括 1980 年以后发行的好莱坞预告片和特定于我们类型列表的预告片。该数据集包含不同长度的预告片,视频质量和宽高比各不相同。
在本节中,我们将讨论使用不同框架变体进行的实验。我们根据不同的模态和预融合特征对 3 种不同的框架进行了实验。
MS(视频帧分析):仅考虑视频帧中基于情况的特征的模型。
MD(对话元数据分析):模型将音频中的对话和元数据中的描述作为特征。
MSD(多模态分析):模型将视频帧中的基于情境的特征、音频中的对话和元数据中的描述作为特征。
4.2.3 节中提出的预融合特征架构用于 MSD。但是,输入语料库略有修改。4.4 节中定义的语料库用于 MSD。表 5 显示了 LMTD-9 和 EMTD 上 MSD 的准确率、召回率和 F1 分数。但是,下一节将讨论 MSD 与 MS 和 MD 的 AU (PRC) 比较。
不同类型的表现之间存在一些差异。大多数属于主要类型的预告片都被准确分类(F1 得分为 0.84 及以上),这表明所提出的模型表现良好。动作类型是五种类型中表现最好的类型,在 EMTD 和 LMTD-9 上的 F1 得分分别为 0.88 和 0.89。就 F1 得分而言,浪漫类型在所有类型中表现最差。据观察,许多浪漫类型的预告片被错误地归类为喜剧,因为这两种类型都以类似的词语为主,如快乐、微笑、大笑等。
由于我们正在处理多标签分类问题,因此计算 AU(PRC),即精确召回曲线下的面积,以比较我们的分类结果。AU(PRC)测量有助于比较我们模型的实际性能,补偿由于多标签数据集中的类别不平衡造成的噪声影响。如图 5、图 6 和图 7 所示,在两个数据集上为所有 3 个模型创建了 AU(PRC)曲线。在 EMTD 的验证集上,我们发现 MSD、MD 和 MS 上的 AU(PRC)值几乎相似,分别为 92%、91%、88%。然而,我们发现我们的 MSD 在 LMTD9 数据集上给出了 82% 的 AU(PRC)值,这大于其他两个模型,即 MD 和 MS 的 72% 和 80% AU(PRC),如表 6 所示。
但是,为了与我们在研究中尝试过的其他一些模型进行全面比较,我们在表 6 中提到了它们的结果。为了选择最佳架构,在两个验证数据集上比较了模型的 AU(PRC)。特征模型数据集 EMTD LMTD-9 对话 (MD) E-Bi LSTM 0.87 0.66 ECnet 0.91 0.72 情况 (MS) ECnet 0.86 0.75 TFAnet 0.88 0.80 融合特征 (MSD) ECnet 0.92 0.82 所有提到的模型的实现都有助于我们决定融合特征的最佳模型。虽然 MD 在 EMTD 上具有与 MSD 相当的 AU(PRC)值,但在 LMTD-9 上,MSD 的表现优于 MD。MS 在 LMTD-9 上的情况类似。虽然 MSD 在两个数据集上同时表现良好,但 MS 和 MD 单独的情况下并非如此。因此,通过跨数据集验证,MSD 被证明是一种更稳健的模型。我们得出结论,所提出的 MSD 是性能最佳的模型。
在本节中,我们通过与之前的电影类型分类方法进行最新比较来验证我们提出的模型的性能,如表 7 所示,使用每个类型的 AU(PRC)指标。表 7 中提到的所有结果都精确到小数点后两位,并且基于标准 LMTD-9 数据集,但 Fish 等人 [22] 除外,其结果基于 MMX trailer-20 数据集。其研究中没有考虑浪漫类型。但是,对于其他类型,Fish 等人 [22] 和 MSD 的 AU(PRC)值的差异值得注意。MSD 平均比它高出 20%。基于低级视觉特征的分类 [23] 基于 24 个低级视觉特征,SAS-MC-v2 [24] 仅使用概要进行预告片分类,Fish 等人 [22] 和 CTT-MMC-TN [25] 基于高级特征。与低级特征方法 [23]、[24] 相比,MSD 平均表现优于 10%,与使用高级特征的方法 [22]、[25] 相比,它在每种类型中平均表现优于 8%。还观察到喜剧类型在大多数作品中的表现优于其他四种类型,而科幻小说的 AU (PRC) 值相对较低。这可能是由于科幻小说类型中缺乏适当的区分,因为它的特征与其他一些类似类型(如动作)重叠。
比较研究表明,所提出的模型非常稳健,因为它的表现优于现有方法,并能给出出色的结果。更好的性能是由于所提出的架构同时包含认知和情感特征,有助于模型学习每种类型的实质性特征,从而更准确地预测类型。