著者:
(1)ディネシュ・クマール・ヴィシュワカルマ、生体認証研究室、情報技術学部、デリー工科大学、インド
(2)マヤンク・ジンダル、生体認証研究室、情報技術学部、デリー工科大学、インド
(3)アユシュ・ミッタル、生体認証研究室、情報技術学部、デリー工科大学、インド
(4)アディティア・シャルマ、生体認証研究室、情報技術学部、デリー工科大学、デリー、インド。
映画のあらすじ/説明は、映画を説明する上で重要な特徴です。公開される映画のあらすじは、ほとんどの場合、短すぎるか、まったく書かれていないことがあります。これを考慮して、映画の予告編から抽出したセリフと連結した説明を使用して、最終的に映画のジャンルを予測することにしました。詳細はセクション 4.2 で説明します。説明は、セクション 3 ですでに述べたように、IMDB Web サイトからメタデータとして取得されます。
このセクションでは、映画のジャンルを予測するために、予告編のオーディオから会話のリスト(説明/プロットを会話に連結したもの)を処理するアーキテクチャを提案します。このストリームの重要なステップは次のとおりです。(1)映画の予告編から音声(会話)を抽出し、(2)音声とメタデータに基づいてジャンルを予測するモデルを設計します。
(.wav) 形式のオーディオ ファイルは、(.mp4) ビデオ トレーラーから抽出されます。次に、オーディオ ファイルは小さなオーディオ クリップに分割され、[17] で提案されているようにダイアログに変換されます。すべてのテキストが収集されて入力コーパスが形成されます。説明/あらすじ (メタデータで利用可能な場合) もこのコーパスにマージされます。私たちの研究は、英語のトレーラーのみを対象としています。映画のあらすじと同様に、トレーラーから抽出された音声はテキスト コーパスの補足として機能し、テキスト コンテキストと映画のジャンルの関係をより深く理解するのに役立ちます。トレーニング/テスト フェーズでトレーラーごとに 1 つのレコードで構成されるコーパスを生成した後、すべてのテキストを小文字に変換し、数字、句読点、ストップワード、Web リンクを削除するという前処理手順が実行されました。上記で取得したテキストは、トレーニング/テスト用のモデル/事前トレーニング済みモデルへの入力として使用されます。
認知ベースのジャンル検出アーキテクチャを構築するには、テキスト コーパス形式のトレーラーの重要な特徴をモデルで学習する必要があります。これは、埋め込みと CNN (畳み込みニューラル ネットワーク) レイヤーの組み合わせを使用して実現できます。マルチラベル分類ネットワークのレイヤーは、表 3 に示されています。埋め込みは、単語を数値ベクトル形式の数学的表現に変換するために NLP 問題で使用される一般的な手法の 1 つです。
実際に入力をアーキテクチャに送信する前に、語彙を設計し、各データ ポイントのコーパスのサイズを固定する必要があります。10,395 語のサイズの語彙が設計され、各コーパスの語数の最大長は、トレーニング コーパスの最長文の長さ (この場合は 330) に設定されています。コーパスの語数が最大長より少ない場合、コーパスは 0 で埋められます。2 ~ 3 分の映画予告編の場合、予告編の一部にセリフがない (ボーカルのみ) 可能性があるため、330 語で十分であることがわかりました。
ここで、入力データの各コーパスについて、形状 (330,) (330 は各データ ポイントの単語数) の入力があり、図 2 に示すように、この入力がアーキテクチャの最初のレイヤー、つまり埋め込みレイヤーに送られます。埋め込みレイヤーは、提案されたアーキテクチャでは各単語の埋め込みの長さが 64 とされているため、次元 (330, 64,) の出力を生成します。
埋め込み層の後に、埋め込み層の出力が 1 次元畳み込み層に入力されます。ここでも、畳み込み層は (330, 64,) の出力形状を生成します。同じ出力を得るために、畳み込み層の入力にパディングを均一に適用します。次に、最大プーリング層を使用して、データの次元を (330, 64,) から (165, 64,) に縮小します。このアーキテクチャの後には、2 次元データを 1 次元データに変換する平坦化層が続き、出力がさらに高密度層に送信されます。
表 3 に示すように、平坦化層は形状 (10560,) の出力を生成し、これが入力として密層に送られ、出力形状 (32,) を生成します。最後に、最後の密層がアーキテクチャに適用され、5 つのジャンルを示す出力形状 (5,) が返されます。アーキテクチャの最後の密層では、マルチラベル分類問題に最適な活性化関数として「シグモイド」を使用します。
このセクションには、映画予告編の視覚的特徴について提案した作業が含まれています。このストリームの主な手順は次のとおりです: (1) 予告編からビデオ フレームを取得する、(2) フレームから状況を抽出する、(3) アーキテクチャを構築して最終的に予告編をジャンルに分類する。
映像から抽出した各フレームの視覚的特徴に基づいて状況とイベントを抽出し、それらを収集してモデルのトレーニング/テストを行うためのコーパスを作成することで、新しい状況ベースの映像解析モデルを提案します。
私たちの知る限りでは、ジャンル分類のために状況、イベント、対話の分析を融合した新しいフレームワークを提案しています。フレームワークの詳細については、以下のセクションで説明します。
映画予告編のサブセットを使用してさまざまな実験を行った結果、フレームの冗長性(ビデオの連続フレームが類似しているように見える)を回避するには、10𝑡ℎごとにフレームを取得することが有益であることがわかりました。したがって、冗長なフレームを破棄した後、検討対象の最終的なビデオフレームは式(9)のように表すことができます。
以降のセクションでは、すべてのトレーラーについてこれらのフレームを検討します。
状況Sが画像Iに属する確率は式(11)のように表される。
𝛼はニューラルネットワークのパラメータを表します。これで、画像内の意味的役割を特定の順序で定義できます。したがって、式(12)は式(13)に簡略化されます。
式(13)はさらに式(14)のように簡略化できる。
特定の画像/フレームについては、式(14)で定義された最大値確率を持つ状況がその画像に対して考慮される。
ここで、タスクはテキスト分類タスクに変換され、次のセクションで説明するように、モデル アーキテクチャが提案されます。次のステップに進む前に、テキストの前処理が行われます。セクション 4.2.1 で説明したように、すべてのテキストを小文字に変換し、数字、句読点、ストップワードを削除します。これらの同じ手順は、映画予告編のジャンルを予測するためのテスト手順でも実行されます。
視覚的特徴を抽出した後、予告編の最終的なジャンルを分類するための堅牢なアーキテクチャが必要です。このモデルは、ダイアログ ストリームで提案したモデルとは異なります。ここでは、図 4 に示すように、密な層とドロップアウト層のディープ ネットワークで構成される TFAnet (Term Frequency Artificial Neural Network) が提案されています。
提案されたアーキテクチャに入る前に、[19]のTF-IDFを使用したテキスト表現について説明します。このアーキテクチャでは、各データポイントのコーパス内の単語数を使用することが提案されています。したがって、コーパスの単語数を、映画予告編のジャンルを分類するための特徴として使用します。語彙セットに特徴として含まれる単語の数を増やすために、EMTDではリリース日の広い範囲の予告編を使用して、モデルのトレーニング中に利用できる巨大なコーパスを取得します。コーパスからユニグラム、バイグラム、トライグラムの組み合わせを特徴として使用し、TF-IDF(用語頻度-逆文書頻度)アルゴリズムでテキストを数値形式で表現します。取得されるnグラムの特徴の合計は約34,684です。これで、テキストベースの特徴が数学的な形式に変換され、次に(人工ニューラルネットワーク)をトレーニングして、予告編のジャンルを分類します。
TFAnet (Term Frequency Artificial Neural Network) のアーキテクチャを表 4 に示します。前述のように、入力形状は (34684,) です。この入力は密な層に渡され、形状 (64,) の出力が得られます。次に、ドロップアウト層が適用され、レート 0.4 でオーバーフィッティングが軽減されます。再び密な層が適用され、形状 (32,) の出力が得られ、その後、レート 0.2 のドロップアウト層が適用されます。最後に、密な層が適用され、形状 (5,) の出力が得られ、最終的にシグモイドを活性化関数として 5 つのジャンルを予測します。
MSD モデルのトレーニング フェーズのアルゴリズムは、アルゴリズム 1 として記述されます。
この論文は、CC BY-NC-SA 4.0 DEED ライセンスの下でarxiv で公開されています。