この論文はCC 4.0ライセンスの下でarxivで公開されています。
著者:
(1) Jiwan Chung、延世大学MIRラボ( https://jiwanchung.github.io/ );
(2)Youngjae Yu、延世大学MIRラボ( https://jiwanchung.github.io/ )。
計算予算。Long Story Short は、OpenAI API を介して GPT-3 (175B パラメータ) をバックボーンとして使用します。ビデオ セグメントを要約する平均的なプロンプトは、約 3000 トークンを処理しますが、QA プロンプトは通常、約 4000 トークンを使用します。CLIPCheck では、単一の NVIDIA A6000 GPU を使用して CLIP 機能を抽出し、コサイン類似度を計算します。MovieQA 検証分割のビデオ フレームを処理するには 0.5 時間かかります。
ハイパーパラメータ。すべてのハイパーパラメータは、単一のトレーニングサンプルを分析することによって事前に定義されます。ナラティブ検索では、GPT-3 が単一のインデックスを出力しない場合に、文の類似性しきい値 α ≥ 0.5 を使用してプロット部分を見つけます。CLIPCheck では、バイナリエントロピーしきい値 E ′ ≥ 0.4 を使用します。私たちの方法は決定論的であり、初期化のランダム性の影響を受けないため、各実験は 1 回だけ実行します。
ビデオ セグメンテーション スキーム。この論文で使用するすべてのデータセットには、定義済みのセグメント境界注釈があります。また、定義済みの境界でセグメント化された各クリップの要約を実行するため、すべてのプロット ピースには順番に位置合わせされたクリップ セグメントがあります。また、LSS を適用する前に、1. 短すぎる、2. 位置合わせされた画像フレームがない、または 3. テキスト コンテキストがないクリップ セグメントをフィルターして、プロット要約を使用してクリップ セグメントを取得できるようにします。
外部ライブラリ。GPT -3 言語モデルにアクセスするには OpenAI API を使用します。CLIP 機能は Huggingface 実装 (https://huggingface.co/docs/transformers/main/en/model_doc/clip) を使用して計算されます。