著者:
(1)ディネシュ・クマール・ヴィシュワカルマ、生体認証研究室、情報技術学部、デリー工科大学、インド
(2)マヤンク・ジンダル、生体認証研究室、情報技術学部、デリー工科大学、インド
(3)アユシュ・ミッタル、生体認証研究室、情報技術学部、デリー工科大学、インド
(4)アディティア・シャルマ、生体認証研究室、情報技術学部、デリー工科大学、デリー、インド。
この部分では、さまざまなモダリティと事前特徴融合モデルにおけるさまざまなモデル アーキテクチャを調べます。その後、標準の LMTD-9 データセットと提案データセットで検証することにより、作業を検証します。最後に、モデルの堅牢性を調べるための比較研究について説明します。すべての実験は、128 GB DDR4 RAM と Nvidia Titan RTX (24 GB) GPU 構成を備えた GPU ワークステーションで実行されます。
私たちのフレームワークを検証するために、提案データセットと標準LMTD-9 [2]データセットを利用します。包括的な詳細は以下のとおりです。
EMTD: 提案するデータセットには、セクション 3 で述べたように、すべて IMDB から取得した 1700 個の一意のトレーラーの個別のトレーニング セットと 300 個の一意のトレーラーの検証セットが含まれています。
LMTD [16]、[20]は、マルチラベルの大規模な映画予告編データセットで、予告編リンク、予告編メタデータ、あらすじ/概要、ユニークな予告編IDなどが含まれており、22の異なるラベル/ジャンルに属する約9,000本の映画予告編で構成されています。検証のために、1980年以降に公開されたハリウッドの予告編と、私たちのジャンルリストに固有の予告編のみを含むLMTD-9 [2]の検証セット(サブパート)が使用されています。データセットには、さまざまなビデオ品質とアスペクト比のさまざまな長さの予告編が含まれています。
このセクションでは、さまざまなフレームワークのバリエーションを使用した実験について説明します。個別のモダリティと事前に融合された機能に基づく 3 つの異なるフレームワークで実験を行いました。
MS (ビデオ フレーム分析):ビデオ フレームから状況ベースの機能のみを考慮したモデル。
MD (ダイアログ-メタデータ分析):オーディオからのダイアログとメタデータからの説明を特徴として考慮するモデル。
MSD (マルチモダリティ分析):ビデオフレームからの状況ベースの特徴、オーディオからの対話、メタデータからの説明を特徴として考慮するモデル。
セクション 4.2.3 で提案された、事前融合された特徴を持つアーキテクチャが MSD に使用されます。ただし、入力コーパスはわずかに変更されています。セクション 4.4 で定義されたコーパスが MSD に使用されます。LMTD-9 および EMTD での MSD の精度、再現率、および F1 スコアは、表 5 に示されています。ただし、MSD と MS および MD の AU (PRC) 比較については、次のセクションで説明します。
異なるジャンルのパフォーマンスには多少のばらつきが見られます。主要ジャンルに属する予告編のほとんどは正確に分類されており (F1 スコア 0.84 以上)、提案モデルが適切に機能していることがわかります。アクション ジャンルは 5 つのジャンルの中で最もパフォーマンスが高く、EMTD と LMTD-9 でそれぞれ F1 スコア 0.88 と 0.89 でした。ロマンス ジャンルは、F1 スコアの点ですべてのジャンルの中で最もパフォーマンスが低いジャンルであることがわかりました。ロマンス ジャンルの予告編の多くは、両方のジャンルで幸せ、笑顔、笑いなどの類似した単語が優勢であるため、コメディーに誤分類されていることが観察されています。
マルチラベル分類問題を扱っているため、AU (PRC)、すなわち適合率-再現率曲線の下の面積を計算して分類結果を比較します。AU (PRC) 測定は、マルチラベル データセットのクラス不均衡によるノイズ効果を補正し、モデルの実際のパフォーマンスを比較するのに役立ちます。AU (PRC) 曲線は、図 5、図 6、図 7 に示すように、両方のデータセットの 3 つのモデルすべてに対して作成されます。EMTD の検証セットでは、MSD、MD、MS でそれぞれ 92%、91%、88% と、ほぼ同様の AU (PRC) 値が得られました。ただし、MSD は LMTD9 データセットで 82% AU (PRC) 値を示し、これは他の 2 つのモデル、つまり表 6 に示すようにそれぞれ MD と MS の 72% と 80% AU (PRC) よりも大きいことがわかりました。
ただし、本研究で実験した他のモデルとの全体的な比較については、表 6 にその結果を示します。最適なアーキテクチャを選択するために、両方の検証データセットで AU (PRC) の観点からモデルを比較します。前述のすべてのモデルの実装は、融合された機能に最適なモデルを決定するのに役立ちます。MD は、EMTD では MSD と同等の AU (PRC) 値を持ちますが、LMTD-9 では、MSD の方が MD を上回りました。LMTD-9 の MS の場合も同様です。MSD は両方のデータセットで同時に良好なパフォーマンスを発揮しましたが、MS と MD 個別したがって、データセット間の検証により、MSD はより堅牢であることが証明されました。提案された MSD は最もパフォーマンスの高いモデルであると結論付けました。
このセクションでは、表7に示すように、各ジャンルごとにAU(PRC)メトリックを使用して映画のジャンル分類に関する以前のアプローチと最先端の比較を行うことにより、提案モデルのパフォーマンスを検証します。表7に記載されているすべての結果は、小数点第2位まで示されており、MMXトレーラー20データセットに基づくFishら[22]を除き、標準のLMTD-9データセットに基づいています。この研究ではロマンスジャンルを考慮していません。ただし、他のジャンルについては、Fishら[22]とMSDのAU(PRC)値の差は注目に値します。MSDは平均で20%優れています。低レベル視覚特徴ベースの分類[23]は24の低レベル視覚特徴に基づいており、SAS-MC-v2 [24]は予告編分類に概要のみを使用し、Fishら[22]とCTT-MMC-TN [25]は高レベル特徴に基づいています。低レベルの特徴アプローチ[23]、[24]と比較すると、MSDは平均で10%優れており、高レベルの特徴を使用するアプローチ[22]、[25]と比較すると、各ジャンルで平均8%優れています。また、コメディジャンルは他の4つのジャンルと比較してほとんどの作品で優れたパフォーマンスを発揮するのに対し、SFはAU(PRC)値が比較的低いことも観察されています。これは、SFジャンルの特徴が他のいくつかの類似ジャンル(アクションなど)と重複しているため、適切な区別ができないことが原因である可能性があります。
比較研究により、提案されたモデルは既存のアプローチよりも優れており、優れた結果をもたらすため、堅牢であることが実証されています。パフォーマンスが向上するのは、提案されたアーキテクチャに認知機能と感情機能の両方が含まれているためであり、モデルが各ジャンルの実質的な特性を学習し、ジャンルをより正確に予測するのに役立ちます。
この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下でarxiv で公開されています。