Jan 01, 1970
この論文はCC 4.0ライセンスの下でarxivで公開されています。
著者:
(1) Jiwan Chung、延世大学MIRラボ( https://jiwanchung.github.io/ );
(2)Youngjae Yu、延世大学MIRラボ( https://jiwanchung.github.io/ )。
要約された物語と質問が与えられたら、長いビデオから質問に関連する比較的短いクリップを取得したいと考えています。言語モデルは、不規則でノイズが多いことが多いオープンエンドのテキストを生成します。ビデオの正確な部分を取得するために、テキスト形式ではなくプロットのインデックスを出力するようにモデルを駆動します。
言語モデルのオープンエンドな性質のため、生成されたインデックスには依然としてノイズが含まれる可能性があります。モデルがテキスト形式で回答を出力する場合、生成された文との類似性が指定されたしきい値α ≥ 0.5を超えるプロットピース候補を見つけるために、rouge-l [19]スコアを使用します。