著者:
(1)ピネロピ・パパランピディ、エディンバラ大学情報学部言語・認知・計算研究所
(2)フランク・ケラー、エディンバラ大学情報学部言語・認知・計算研究所
(3)ミレラ・ラパタ、エディンバラ大学情報学部言語・認知・計算研究所
映画の予告編には、視聴者にストーリーを紹介し、映画の雰囲気や芸術的なスタイルを伝え、観客に映画を見たいと思わせるなど、さまざまな機能があります。これらの多様な機能により、予告編の自動生成は困難な作業となっています。私たちはこれを、物語構造の識別と感情の予測という 2 つのサブタスクに分解します。映画をグラフとしてモデル化し、ノードはショット、エッジはショット間の意味関係を示します。これらの関係は、脚本からの特権テキスト情報 (キャラクター、アクション、状況など) を活用する共同対照トレーニングを使用して学習します。次に、教師なしアルゴリズムがグラフをトラバースし、競合する教師ありアプローチによって生成されたものよりも人間の審査員が好む予告編を生成します。
予告編は映画の宣伝に使われる短いビデオで、商業的成功に欠かせないものとなることが多い。その主な機能は幅広い観客に映画を売り込むことであるが、予告編は視聴者に映画を見たいと思わせるための説得力のある芸術や宣伝物語の一種でもある。予告編の制作は芸術的な取り組みとみなされているが、映画業界では予告編の制作を導く戦略が開発されている。ある学派によると、予告編は3幕から成る物語構造を示さなければならない[1]。第1幕では登場人物と物語の設定を確立し、第2幕では主要な対立を紹介し、第3幕では緊張感を高め、結末のティーザーを提供する。別の学派は、物語の起伏によって定義される予告編の雰囲気をより重視している[2]。このアプローチによると、予告編は最初は視聴者を魅了するために中程度の強度で、次に物語に関する重要な情報を伝えるために低強度で、その後徐々に強度を上げていき、予告編の最後にクライマックスに達する。
予告編を自動的に作成するには、人物の識別、行動の認識、感情の予測などの低レベルのタスクだけでなく、イベント間のつながりとその因果関係を理解したり、登場人物とその行動について推論したりするなど、より高レベルのタスクも実行する必要があります。タスクの複雑さを考えると、映画と予告編のペアからこのすべての知識を直接学習するには何千もの例が必要になり、その処理と注釈付けは困難です。したがって、自動予告編生成に対するこれまでのアプローチ[24,46,53]がオーディオビジュアル機能のみに焦点を当てていたのも不思議ではありません。
人間の編集者の創作プロセスにヒントを得て、私たちはトレーラー生成にボトムアップアプローチを採用し、それを2つの直交する、より単純で明確に定義されたサブタスクに分解します。1つ目は物語構造の特定、つまり映画の最も重要なイベントの取得です。脚本執筆で一般的に採用されている理論[13,22,51]によると、映画のプロットには5種類の重要なイベントがあり、ターニングポイント(TP、図1の定義を参照)と呼ばれています。2つ目のサブタスクは感情予測で、これはショット間の強度の流れと喚起される感情の近似値であると考えています。
私たちは、教師なしグラフベースのアプローチに従って、提案トレーラーを生成します。私たちは、ノードがショットで、エッジがショット間の重要な意味的つながりを示すグラフとして映画をモデル化します (図 2 を参照)。さらに、ノードには、主要なイベント (TP) であるかどうかを示すラベルと、感情の強さ (肯定的または否定的) を示すスコアが付いています。私たちのアルゴリズムは、この映画グラフをトラバースしてトレーラー シーケンスを作成します。これらは、人間の編集者がレビューして修正するための提案として使用できます。
TP 識別と感情予測の両方のタスクは、映画コンテンツの低レベルの理解から恩恵を受ける可能性があります。実際、キャラクターと場所の識別、アクションの認識、および意味単位のローカライズに既製のモジュールを使用できます。ただし、このようなアプローチでは、トレーニングと推論中の前処理時間とメモリ要件が大幅に増加し、エラーの伝播に悩まされます。代わりに、脚本を特権情報、つまりトレーニング時にのみ利用可能な情報として利用する対照学習方式を提案します。脚本は、映画がどのようにシーンに分割されているか、キャラクターが誰であるか、いつ誰に話しかけているか、どこにいて何をしているかを明らかにします (つまり、「シーンの見出し」はアクションが行われる場所を説明し、「アクション ライン」はカメラが見ているものを説明します)。具体的には、脚本に基づくテキスト ネットワークとビデオに基づくマルチモーダル ネットワークの 2 つの個別のネットワークを構築し、補助的な対照損失を使用してそれらを共同でトレーニングします。さらに、テキスト ネットワークは、対応する映画を収集して処理する必要なく、自己教師学習を介して大量の脚本のコレクションで事前トレーニングできます。実験結果では、この対照的なトレーニング アプローチが有益であり、内容と魅力の点で人間に好意的に判断される予告編を生み出すことが示されています。
この論文は、CC BY-SA 4.0 DEED ライセンスの下でarxiv で公開されています。
[1] https://www.studiobinder.com/blog/how-to-make-a-movie-trailer
[2] https://www.derek-lieu.com/blog/2017/9/10/the-matrix-is-a-trailereditors-dream