著者:
(1)ピネロピ・パパランピディ、エディンバラ大学情報学部言語・認知・計算研究所
(2)フランク・ケラー、エディンバラ大学情報学部言語・認知・計算研究所
(3)ミレラ・ラパタ、エディンバラ大学情報学部言語・認知・計算研究所
評価基準以前の研究 [41] では、TP 識別モデルのパフォーマンスを 3 つの基準で評価しています。合計一致 (TA)、つまり、正しく識別された TP シーンの割合、部分一致 (PA)、つまり、少なくとも 1 つのゴールド スタンダード シーンが識別された TP イベントの割合、距離 (D)、つまり、特定の TP の予測シーン セットとゴールド スタンダード シーン セット間のシーン数の最小距離 (脚本の長さで正規化) です。私たちは部分一致基準を使用して結果を報告します。ショット (シーンではなく) のシルバー スタンダード ラベル (ゴールドではなく) に対して評価し、結果としてシーン内のすべてのショットを同等に重要と見なすため、合計一致は使用できなくなりました。距離基準も、非常に似た結果になり、モデル バリアント間の区別に役立たないため使用しません。
ハイパーパラメータ以前の研究[42]に従って、すべての種類の特徴(テキスト、視覚、音声)を同じ低い次元128に投影します。次元が大きくなるほどパラメータの数が大幅に増加し、データセットのサイズが小さいために結果が劣ることがわかりました。
トランスフォーマー エンコーダーを使用して、シーン (脚本に関して) とショット (ビデオに関して) をコンテキスト化します。エンコーダーで 2、3、4、5、6 レイヤーを試し、3 レイヤーで最良の結果が得られました。フィード フォワード (FF) 次元については、標準サイズの 2,048 と小さいサイズの 1,024 の両方を試し、前者の方が優れていることがわかりました。別のトランスフォーマー エンコーダーを使用して、入力文表現のシーケンスからシーンの表現を計算します。このエンコーダーには 4 つのレイヤーと 1,024 の FF 次元があります。両方のエンコーダーは、8 つのアテンション ヘッドと 0.3 のドロップアウトを採用しています。
グラフスパース化(すなわち、上位k近傍の選択)の際には、粒度とサイズが異なるため、シーンベースとショットベースのネットワークに対して異なる近傍オプションを考慮する。[42]に従って、シーンネットワークに対して[1–6]近傍を考慮し、ショットネットワークに対しては近傍サイズを[6–12]に増やす。
この論文は、CC BY-SA 4.0 DEED ライセンスの下でarxiv で公開されています。