著者:
(1)ピネロピ・パパランピディ、エディンバラ大学情報学部言語・認知・計算研究所
(2)フランク・ケラー、エディンバラ大学情報学部言語・認知・計算研究所
(3)ミレラ・ラパタ、エディンバラ大学情報学部言語・認知・計算研究所
知識蒸留の有用性まず、予告編生成タスクにとって重要な TP 識別が改善されるかどうかを調査します。グラウンドトゥルースシーンレベルの TP ラベルが付いた映画のセットを開発セットとテストセットに分割し、映画内の TP ごとに上位 5 ショット (@5) と上位 10 ショット (@10) を選択します。評価指標として、部分一致 (PA; [41]) を考慮します。これは、映画から選択された 5 ショットまたは 10 ショットから、モデルが少なくとも 1 つのグラウンドトゥルースショットを正しく識別する TP の割合を測定します (詳細については付録を参照)。
表 2 は、テスト セットでの結果をまとめたものです。次の比較システムを検討します。Randomは、均等に分散されたセクションからショットを選択します (10 回の実行の平均)。Theoryは、脚本理論に従ってTPをショットに割り当てます (例: 「機会」は映画の 10% で発生し、「計画変更」は 25% で発生するなど)。Distribution は、トレーニング データ内の予想される位置に基づいてショットを選択します。GRAPHTP は、脚本でトレーニングされた [42] のオリジナル モデルです (シーン レベルの TP 予測をショットに投影します)。Transformerは、グラフ関連の情報がない基本モデルです。TP 識別には、脚本へのアクセスなしとアクセスあり、予測一貫性損失 (P) のみでトレーニング、予測損失と表現損失の両方 (P + R)、および対照的な共同トレーニング体制でトレーニングした、独自のモデル GRAPHTRAILER をいくつかのバリエーションで使用します。
GRAPHTRAILER は、すべてのベースライン、および Transformer モデルよりも優れていることがわかります。後者はショット間の長距離依存関係をエンコードしますが、GRAPHTRAILER はグラフで学習したスパース接続を直接エンコードすることからさらにメリットを得ています。さらに、予測一貫性損失 (P) による非同期知識蒸留によりパフォーマンスがさらに向上し、脚本に含まれる知識がビデオから抽出できる知識を補完することを示唆しています。表現一貫性損失 (P + R) を追加すると、パフォーマンスが大幅に低下しますが、提案されたトレーニング アプローチ (対照ジョイント) は最高のパフォーマンスを発揮することに注意してください。最後に、事前トレーニングにより、わずかではありますがさらなるゲインが得られ、脚本ベースのネットワークの利点が強調されます。
予告編の品質 41 本の映画セットで GRAPHTRAILER の予告編生成アルゴリズムを評価します (表 1 を参照)。評価基準として、精度、つまり正しく識別された予告編ショットの割合を使用し、希望の長さ (約 2 分) を達成するために予告編の合計予算を 10 ショットと見なします。
GRAPHTRAILER を、すべてのショットと GRAPHTRAILER によって識別された TP の中からランダムに選択する、いくつかの教師なしアプローチ (表 3 の最初のブロック) と比較します。また、完全に接続されたグラフに基づく 2 つのグラフベース システムを実装します。このグラフでは、ノードはショットで、エッジはそれらの類似度を示します。このグラフは TP を認識しないため、一般的なマルチモーダル表現間の類似性を計算することで構築されます。TEXTRANK [35] はこのグラフ上で動作し、中心性に基づいてショットを選択します。一方、TP のない GRAPHTRAILER は、TP と感情基準を削除してグラフをトラバースします (式 2)。確率性を含み提案を生成する教師なしシステム (ランダム、GRAPHTRAILER) の場合、最適な提案トレーラーを検討します。表 3 の 2 番目のブロックは、トレーニングにノイズの多いトレーラー ラベルを使用する教師ありアプローチを示しています。これらには、視覚情報のみを考慮し、映画と予告編のショット間の相互注意を計算するCCANet [53]や、脚本、感情、TPを考慮せずにショットが予告編に含まれるべきかどうかを識別するバイナリタスク用にトレーニングされたバニラTransformerが含まれます。教師ありGRAPHTRAILERは、Transformerと同じデータでトレーニングされたビデオベースのネットワークで構成されています。
GRAPHTRAILERは、教師なし手法の中で最も優れたパフォーマンスを発揮します。興味深いことに、TEXTRANKはランダムよりも劣っており、トレーラー生成などのタスクは標準的な要約問題として見ることができないことを示しています。TPのないGRAPHTRAILERは、TEXTRANKやランダムTP選択よりも優れたパフォーマンスを発揮します。[7] 教師ありアプローチに関しては、標準アーキテクチャですべてのモダリティを使用すると(Transformer)、視覚的類似性を使用する洗練されたモデル(CCANet)よりもパフォーマンスが向上することがわかりました。グラフ関連の情報を追加することで(教師ありGRAPHTRAILER)、さらに改善されます。
GRAPHTRAILER の開発セットに対して 2 つのアブレーション研究を実施しました。最初の研究の目的は、デュアル ネットワークの異なるトレーニング レジームが下流のトレーラー生成パフォーマンスにどのように影響するかを評価することです。表 4 を見ると、非同期トレーニングではベース モデルに対して目立った改善が見られないことがわかります。ただし、予測と表現の一貫性損失を使用して 2 つのネットワーク (ビデオ ベースと脚本ベース) を共同でトレーニングすると、パフォーマンスが約 3% 向上します。脚本ベースのネットワークをより多くのデータで事前トレーニングすると、さらにわずかな向上が見られます。
2番目のアブレーション研究は、グラフG上でランダムウォークを実行するために使用される基準に関するものです。表5に示すように、選択したパスのノードが主要なイベントに近くなるように強制すると(類似性+TP)、パフォーマンスが向上します。感情のみに依存すると(類似性+感情)、パフォーマンスはわずかに低下します。これは、主に表面的な視覚的魅力[53、57]や視聴覚感情分析[47]に焦点を当てた以前のアプローチとは対照的に、感情情報だけでは不十分であり、予告編にうまく適合しない外れ値を促進する可能性があることを示唆しています。一方、感情情報を物語構造に関する知識と組み合わせると(類似性+TP+感情)、最高の精度が観察されます。これは、予告編の作成に関する2つの理論(つまり、物語構造と感情に基づく)は補完的であり、組み合わせることができるという私たちの仮説をさらに検証します。
最後に、映画ごとに複数の予告編があるため (開発セットの場合)、それらのショット間の重複を測定できます (上限)。平均重複は 86.14% で、予告編作成者間の一致は良好ですが、人間のパフォーマンスと自動モデルの間には大きなギャップがあることがわかります。
最後に、映画ごとに複数の予告編があるため (開発セットの場合)、それらのショット間の重複を測定できます (上限)。平均重複は 86.14% で、予告編作成者間の一致は良好ですが、人間のパフォーマンスと自動モデルの間には大きなギャップがあることがわかります。
人間による評価 生成された予告編の品質を評価するために、人間による評価調査も実施しました。人間による評価では、TPなしのランダム選択を下限として、最もパフォーマンスの高い2つの教師なしモデル(TPありとTPなしのGRAPHTRAILER)、および2つの教師ありモデル(予告編生成のこれまでの最先端技術であるCCANetと、自動メトリックによると最もパフォーマンスの高いモデルである私たちのモデルの教師ありバージョン)を含めました。[8] 私たちは、ホールドアウトセット内のすべての映画の予告編を生成しました。次に、Amazon Mechanical Turk(AMT)クラウドワーカーに、映画のすべての予告編を見て、提供された情報(Q1)と予告編の魅力(Q2)に関する質問に答えて、最高の予告編と最悪の予告編を選択するように依頼しました。映画ごとに5人の審査員から評価を収集しました。
表 6 は、TP のある GRAPHTRAILER が、平均して他のすべてのシステムよりも情報量が多く (Q1)、魅力的 (Q2) な予告編を提供していることを示しています。TP のない GRAPHTRAILER と教師あり GRAPHTRAILER は最良として選択される頻度が高いものの、最悪として選択される頻度も同程度です。最良-最悪スケーリング [31] を使用して標準化スコア (z スコア) を計算すると、TP のある GRAPHTRAILER が最高のパフォーマンスを達成し (最悪として選択されることもほとんどないことに注意)、次に教師あり GRAPHTRAILER が続きます。興味深いことに、TP のない GRAPHTRAILER が最良として選択される頻度が最も高く (24.40%)、これは、映画をグラフとしてモデル化し、ショットを個別に選択するのではなくランダム ウォークを実行するという全体的なアプローチが、首尾一貫した予告編の作成に役立つことを示唆しています。ただし、同じモデルが最悪として選択される頻度も最も高く、この単純なアプローチだけでは高品質の予告編を保証できないことを示しています。
補足資料には、私たちのアプローチに基づいて生成されたトレーラーのビデオ例が含まれています。さらに、付録には、グラフ トラバーサル アルゴリズムのステップバイステップのグラフィカルな例が記載されています。
ネタバレ注意!私たちのモデルは、生成された予告編でネタバレを明示的に回避しません。アルゴリズム 1 で映画のグラフをトラバースするときに、ネタバレ関連の基準を試しました。具体的には、「ネタバレに敏感な」グラフの近傍にあるショットを選択するときにペナルティを追加しました。このような近傍は、定義上、映画で最大のネタバレである最後の 2 つの TP からの最短パスを測定することで特定しました。ただし、このアルゴリズムのバリエーションではパフォーマンスが劣っていたため、それ以上追求しませんでした。このような基準は、モデルが映画の最後の部分からエキサイティングなショットを選択することを妨げてしまうため、予告編シーケンスの提案には有益ではないと考えています。これらの緊張感の高いショットは、興味深い予告編を作成するために重要であり、実際の予告編にも含まれています。データセット内のプロの予告編の 3 分の 1 以上には、最後の 2 つの TP (「大きな挫折」、「クライマックス」) からのショットが含まれています。これについては、付録で詳しく説明します。
また、生成された予告編を手動で検査したところ、ネタバレはあまり一般的ではないことがわかりました (つまり、テスト セットからランダムに抽出した 12 本の予告編で、主要なネタバレ ショットを 1 つ特定しました)。これは、主要なネタバレが選択される確率が一般的に低いためと考えられます。また、ネタバレになりそうなショットが含まれていたとしても、文脈から外れると、映画の結末を明らかにするのに十分ではない可能性があります。ただし、より精巧なネタバレ識別手法の調査は今後の作業に残します。これは、追加の基準として簡単にアルゴリズムに統合できます。
この論文は、CC BY-SA 4.0 DEED ライセンスの下でarxiv で公開されています。
[7] テストセットでは公式トレーラーのトレーラーラベルのみを考慮しているのに対し、開発セットには複数のトレーラーが含まれているため、パフォーマンスは低くなります。
[8] グラウンドトゥルーストレーラーは後処理(モンタージュ、ナレーション、音楽など)されているため、自動トレーラーと直接比較することはできないため、人間による評価には含めていません。