著者:
(1)ピネロピ・パパランピディ、エディンバラ大学情報学部言語・認知・計算研究所
(2)フランク・ケラー、エディンバラ大学情報学部言語・認知・計算研究所
(3)ミレラ・ラパタ、エディンバラ大学情報学部言語・認知・計算研究所
予告編生成には、M ショット (LM) のフルレングス映画から L ショットを選択する必要がある。映画は複雑なストーリーを展開し、非線形に展開する明確なサブプロットやイベントが含まれる場合がある一方、「フィラー」と呼ばれる冗長なイベントがメインストーリーを豊かにする。したがって、連続するショットが必ずしも意味的に関連しているとは想定できない。イベント間の関係をよりよく調査するために、映画をグラフとして表現する [42]。G = (V, E) がグラフを示し、頂点 V がショット、辺 E がそれらの意味的類似性を表すものとする。さらに、以前のショットから将来のショットへの有向辺のみを許可することにより、G 内のショットの元の時間的順序を考慮する。G は、ショット i から将来のすべてのショット j に遷移する確率を記録する上三角遷移行列 T によって記述される。
G 内では、いくつかのショットが映画の主要なイベントを説明している一方で(図 2 の太い円)、すべてのショットには感情(ポジティブまたはネガティブ)があり、その強さはスコア(図 2 の緑/赤の濃淡)で示されると仮定します。G を走査して予告編ショットのシーケンスを選択するアルゴリズムを提案します。以下では、最初にこのアルゴリズムについて説明し(セクション 3.1)、次にグラフ G がどのように学習され、TP 識別 [41] によって主要なイベントが検出されるかについて説明します(セクション 3.2)。最後に、ショットベースの感情スコアがどのように予測されるかについても説明します(セクション 3.5)。
合計で L ショットを選択し (ターゲット トレーラーの長さによって異なります)、図 2 (太線) に示すように、提案トレーラー シーケンスを取得します。各ステップで、作成された感情フローとこれまでに識別された TP を追跡します (それぞれアルゴリズム 1 の行 10 と 13 ~ 14)。ショットまたはそのすぐ近くのショットがパスに追加された場合、トレーラーでの表示用に TP イベントが選択されています。
ビデオベースのモデルは、ショットレベルのTPラベルへのアクセスを前提としています。しかし、TP識別のための我々が知っている唯一のデータセットはTRIPOD [41]であり、これには脚本に基づくシーンレベルのラベルが含まれています。よりきめの細かいラベルを取得するために、単純な1対多のマッピングに従って、シーンベースの注釈をショットに投影します(詳細についてはセクション4を参照)。トレーニング信号には避けられないノイズがあるため、脚本へのアクセスにより、ビデオベースのモデルが各TPをより代表するショットを選択するように促されると仮定します。言い換えれば、脚本は特権的な知識と暗黙の監督信号を表し、推論中に追加の前処理の必要性を軽減します。さらに、脚本は、例えば、登場人物やシーンでの彼らの役割、または彼らの行動や感情(カメラが見ているものを説明するセリフによって伝えられる)に関する豊富な追加情報を提供します。そうでなければ、この情報をビデオで正確に特定することは難しいかもしれません。また、脚本のラベルなしテキストコーパスは比較的簡単に入手でき、ネットワークの事前トレーニングに使用できます。
ここでは、データ ストリーム (マルチモーダル vs. テキストのみ) とそれらのセマンティック単位 (ショット vs. シーン) へのセグメンテーションの観点から映画の異なるビューをカプセル化する 2 つのネットワークの共同トレーニング レジームについて説明します。
表現一貫性損失2 つのネットワーク間で 2 つ目の正則化損失を使用することを提案します。これは、2 つのグラフベースの表現 (つまり、ビデオ ショットと脚本のシーン) 間の一貫性も強化するためです。この損失の目的は 2 つあります。対照表現学習に関する以前の研究 [38, 39, 48] に示されているように、2 つのネットワークの TP 予測を改善することと、ショット間のより正確な接続を学習できるようにすることです (ショットベースのグラフは、トレーラー生成アルゴリズムへの入力として機能することを思い出してください。セクション 3.1)。映画の中で自己完結的なイベントを記述する脚本のシーンと比較すると、ビデオ ショットは数秒しかなく、意味については周囲のコンテキストに依存しています。ショットのグラフ近傍を、対応する脚本のシーンと同様の意味を保持するために強化することで、ショットベースのグラフで適切な近傍が選択されるよう促進できると仮定しています。
事前トレーニングの目的は、映画のビデオよりもアクセスしやすい(著作権の問題が少なく、計算オーバーヘッドが少ないなど)脚本から、より優れたシーン表現を学習し、この知識が一貫性の損失を通じてビデオベースのネットワークに転送されることを期待することです。
最後に、私たちのモデルは、感情が 1 つのショットから次のショットにどう流れるかを考慮に入れます。私たちは、TP 識別に使用するのと同じジョイント アーキテクチャ (セクション 3.3) とトレーニング レジームを使用して、ショットごとに感情スコアを予測します。ビデオ ベースのネットワークは、感情ラベル (つまり、ポジティブ、ネガティブ、ニュートラル) 付きのショットでトレーニングされ、脚本ベースのネットワークは、感情ラベル付きのシーンでトレーニングされます (セクション 4 でラベルの取得方法について説明します)。トレーニング後、感情の流れを捉え、高強度ショットと低強度ショットを区別するために、ショットごとに感情ラベルの確率分布を予測します (詳細については付録を参照)。
この論文は、CC BY-SA 4.0 DEED ライセンスの下でarxiv で公開されています。