paint-brush
タスク分解による映画予告編生成: 関連研究@kinetograph

タスク分解による映画予告編生成: 関連研究

長すぎる; 読むには

この論文では、研究者らが映画をグラフとしてモデル化して予告編を生成し、物語の構造を識別して感情を予測し、教師あり手法を上回っています。
featured image - タスク分解による映画予告編生成: 関連研究
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

著者:

(1)ピネロピ・パパランピディ、エディンバラ大学情報学部言語・認知・計算研究所

(2)フランク・ケラー、エディンバラ大学情報学部言語・認知・計算研究所

(3)ミレラ・ラパタ、エディンバラ大学情報学部言語・認知・計算研究所

リンク一覧

2. 関連研究

これまでの映画理解へのアプローチは、主に孤立したビデオクリップに焦点を当てており、映画のシーンと本の章の整合[49]、質問応答[50]、映画のショットのビデオキャプション[44]、テキストからビデオへの検索[5]などのタスクが行われてきました。最近の研究[40–42]では、テキストの様相(つまり脚本)のみに焦点を当てて、高レベルの物語構造を識別し、テレビのエピソードや映画全体を要約しようとしています。


既存の予告編生成のアプローチでは、背景音楽や連続ショット間の視覚的変化など、表面的な視聴覚的特徴を利用している[24, 46]。他の研究では、グラフベースのモデルを使用してショットを選択し、「魅力的な」予告編を作成したり[57]、視聴覚感情分析を介してホラー映画でトレーニングされたモデルと組み合わせて人間を使用したりする[47]。予告編瞬間検出データセット[53]は、公式予告編と重要な瞬間の注釈を組み合わせたフルレングスの映画で構成されていますが、公開されておらず、脚本は含まれていません。


知識蒸留[3, 23] はもともと、より大きな教師モデルからより小さな生徒モデルに情報を蒸留するために提案されました。一般化蒸留 [30] は、特権情報、つまりトレーニング時にのみ利用可能な情報を使用するためのフレームワークを提供します。私たちの研究に最も関連しているのは、同じコンテンツの異なるモダリティまたはビューの使用です [33, 34]、たとえば、教育ビデオの視覚表現を学習するための転写されたナレーションです。私たちは、特権情報のソースとして脚本を活用し、映画のイベント、キャラクター、シーンに関する知識を蒸留し、その後、ビデオ内の予告編に値するショットを識別するためにそれを利用します。



この論文は、CC BY-SA 4.0 DEED ライセンスの下でarxiv で公開されています