著者:
(1)ピネロピ・パパランピディ、エディンバラ大学情報学部言語・認知・計算研究所
(2)フランク・ケラー、エディンバラ大学情報学部言語・認知・計算研究所
(3)ミレラ・ラパタ、エディンバラ大学情報学部言語・認知・計算研究所
データセット私たちのモデルはTRIPODデータセット[41, 42]の拡張版であるTRIPODLでトレーニングされました。TRIPODLには、シルバースタンダードのTP注釈(シーンレベル)[3]が付いた122の脚本と対応するビデオ[4]が含まれています。各映画について、公式および(本格的な)ファンベースのもの、または古い映画の最新の予告編など、YouTubeから可能な限り多くの予告編をさらに収集しました。アルゴリズムによって生成された予告編を評価するために、41本の映画の新しいホールドアウトセットも収集しました。これらの映画は、公式の映画予告編を含むMoviescopeデータセット[5] [11]から選択されました。ホールドアウトセットには、脚本やTP注釈などの追加情報は含まれていません。TRIPODLの統計を表1に示します。
映画と予告編の処理 前のセクションで提案したモデリングアプローチでは、脚本のシーンと映画のショットの対応関係がわかっていることを前提としています。このマッピングは、Dynamic Time Warping (DTW; [36, 42]) を使用して脚本のセリフと字幕を自動的に揃えることで取得します。まず、このマッピングに基づいてビデオをシーンに分割し、次に PySceneDetect[6] を使用して各シーンをショットに分割します。合計で 100 フレーム未満のショットは、処理にも予告編の一部としての表示にも短すぎるため、破棄されます。
さらに、各ショットについて、視覚的特徴と音声的特徴を抽出します。3 つの異なるタイプの視覚的特徴を考慮します。
(1) ショットごとに 1 つのキーフレームをサンプリングし、ImageNet [14] でオブジェクト認識用に事前トレーニングされた ResNeXt-101 [56] を使用して特徴を抽出します。 (2) 10 フレームに 1 つの頻度でフレームをサンプリングし (メモリの問題があるため、より長い継続時間のショットではこの時間間隔を長くします)、Kinetics [10] で事前トレーニングされた 2 ストリームの I3D ネットワークを使用して動きの特徴を抽出します。 (3) Detectron2 [54] に実装されている Faster-RCNN [18] を使用して、すべてのキーフレームで人物インスタンスを検出し、ショットごとに最も高い信頼度を持つ上位 4 つの境界ボックスをそれぞれの領域表現とともに保持します。最初に、すべての個々の表現を同じ低次元に投影し、L2 正規化を実行します。次に、視覚的なショット表現を個々のベクトルの合計と見なします。オーディオ モダリティについては、AudioSet-YouTube コーパス [16] で事前トレーニングされた YAMNet を使用して、オーディオ セグメントを 521 のオーディオ クラス (ツール、音楽、爆発など) に分類します。シーンに含まれる各オーディオセグメントについて、最後から2番目のレイヤーから特徴を抽出します。最後に、ユニバーサルセンテンスエンコーダ(USE; [12])を使用して字幕と脚本シーンからテキスト特徴[42]を抽出します。
評価のために、映画のどのショットが予告編に値するかを知る必要があります。これを行うには、対応する予告編をショットに分割し、各ショットについて映画のすべてのショットとの視覚的な類似性を計算します。最も類似度の高いショットには肯定的なラベルが付けられます (つまり、予告編に含めるべきショット)。ただし、予告編には映画には含まれていないショット (テキストが表示された黒い画面、または最終的な映画には含まれなかった素材など) も含まれているため、予告編のショットを映画のショットにマッピングしないしきい値も設定します。このようにして、映画のショットのシルバー スタンダード バイナリ ラベルを作成します。
感情ラベルTRIPODには感情注釈が含まれていないため、代わりに、自然言語会話における感情と感情の分類で最先端のパフォーマンスを備えた常識誘導フレームワークであるCOSMIC [17]を介してシルバー標準ラベルを取得します。具体的には、テレビシリーズFriendsのエピソードからの会話が含まれており、他の感情分類データセット(例:[9、29])よりも私たちの分野に適しているMELD [43]でCOSMICをトレーニングします。トレーニング後、COSMICを使用してTRIPODの脚本の文レベルの感情予測を生成します。シーンの感情は、その文の大部分の感情に対応します。TPに使用されるのと同じ1対多マッピングを使用して、シーンベースの感情ラベルをショットに投影します。
この論文は、CC BY-SA 4.0 DEED ライセンスの下でarxiv で公開されています。
[3] https://github.com/ppapalampidi/TRIPOD
[4] https://datashare.ed.ac.uk/handle/10283/3819
[5] http://www.cs.virginia.edu/pc9za/research/moviescope.html
[6] https://github.com/Breakthrough/PySceneDetect