paint-brush
タスク分解による映画予告編生成: 実装の詳細@kinetograph

タスク分解による映画予告編生成: 実装の詳細

長すぎる; 読むには

この論文では、研究者らが映画をグラフとしてモデル化して予告編を生成し、物語の構造を識別して感情を予測し、教師あり手法を上回っています。
featured image - タスク分解による映画予告編生成: 実装の詳細
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

著者:

(1)ピネロピ・パパランピディ、エディンバラ大学情報学部言語・認知・計算研究所

(2)フランク・ケラー、エディンバラ大学情報学部言語・認知・計算研究所

(3)ミレラ・ラパタ、エディンバラ大学情報学部言語・認知・計算研究所

リンク一覧

B. 実装の詳細

評価基準以前の研究 [41] では、TP 識別モデルのパフォーマンスを 3 つの基準で評価しています。合計一致 (TA)、つまり、正しく識別された TP シーンの割合、部分一致 (PA)、つまり、少なくとも 1 つのゴールド スタンダード シーンが識別された TP イベントの割合、距離 (D)、つまり、特定の TP の予測シーン セットとゴールド スタンダード シーン セット間のシーン数の最小距離 (脚本の長さで正規化) です。私たちは部分一致基準を使用して結果を報告します。ショット (シーンではなく) のシルバー スタンダード ラベル (ゴールドではなく) に対して評価し、結果としてシーン内のすべてのショットを同等に重要と見なすため、合計一致は使用できなくなりました。距離基準も、非常に似た結果になり、モデル バリアント間の区別に役立たないため使用しません。


ハイパーパラメータ以前の研究[42]に従って、すべての種類の特徴(テキスト、視覚、音声)を同じ低い次元128に投影します。次元が大きくなるほどパラメータの数が大幅に増加し、データセットのサイズが小さいために結果が劣ることがわかりました。


トランスフォーマー エンコーダーを使用して、シーン (脚本に関して) とショット (ビデオに関して) をコンテキスト化します。エンコーダーで 2、3、4、5、6 レイヤーを試し、3 レイヤーで最良の結果が得られました。フィード フォワード (FF) 次元については、標準サイズの 2,048 と小さいサイズの 1,024 の両方を試し、前者の方が優れていることがわかりました。別のトランスフォーマー エンコーダーを使用して、入力文表現のシーケンスからシーンの表現を計算します。このエンコーダーには 4 つのレイヤーと 1,024 の FF 次元があります。両方のエンコーダーは、8 つのアテンション ヘッドと 0.3 のドロップアウトを採用しています。


グラフスパース化(すなわち、上位k近傍の選択)の際には、粒度とサイズが異なるため、シーンベースとショットベースのネットワークに対して異なる近傍オプションを考慮する。[42]に従って、シーンネットワークに対して[1–6]近傍を考慮し、ショットネットワークに対しては近傍サイズを[6–12]に増やす。



図 4. TP によって決定された、映画 (開発セット) のさまざまなセクションに対応する予告編ショットの分布。予告編ショットは映画の冒頭と中間からのショットが大部分を占めますが、最後も含めた映画のあらゆる部分からのショットもあります。


表 7. 開発セットで特定の種類の TP としてラベル付けされたショットが少なくとも 1 つ含まれる予告編の割合 (%)。最初の 2 つの TP (ストーリーの紹介を示す) は、最後の 2 つの TP と比べると予告編でより頻繁に登場します。最後の 2 つの TP には重大なネタバレが含まれることがよくあります。


表 8. 予告編を 3 つの均等な部分に分割した場合の予告編セクションごとの平均絶対感情強度 (開発セット)。



この論文は、CC BY-SA 4.0 DEED ライセンスの下でarxiv で公開されています