この論文はCC 4.0ライセンスの下でarxivで公開されています。
著者:
(1) Jiwan Chung、延世大学MIRラボ( https://jiwanchung.github.io/ );
(2)Youngjae Yu、延世大学MIRラボ( https://jiwanchung.github.io/ )。
私たちの研究には、次のようないくつかの限界があります。
私たちは英語の字幕付きのビデオのみで実験を行いました。ただし、強力な多言語モデルがあれば、私たちの方法は多言語のコンテキストを含めるように拡張できます。
私たちの方法は、大規模な言語モデルである GPT-3 に大きく依存しているため、計算とメモリの要件がかなり大きくなります。
Long Story Short を LLM (GPT-3) のインスタンス 1 つだけで評価します。
潜在的なリスク。GPT -3 を使用して長いビデオ コンテキストを要約すると、言語モデルのオープンエンドな性質に関連する倫理的なリスクが伴います。GPT-3 は、(a) コンテンツに関する偽の事実を幻覚的に伝えたり、(b) 有害な発言を生成したり、(c) 要約と回答の可能性に暗黙的に社会的偏見を埋め込んだりする可能性があります。
[1] Tom Brown、Benjamin Mann、Nick Ryder、Melanie Subbiah、Jared D Kaplan、Prafulla Dhariwal、Arvind Neelakantan、Pranav Shyam、Girish Sastry、Amanda Askell、et al。言語モデルは少数ショット学習者である。神経情報処理システムの進歩、33:1877–1901、2020年。
[2] Seongho Choi、Kyoung-Woon On、Yu-Jung Heo、Ahjeong Seo、Youwon Jang、Seungchan Lee、Minsu Lee、Byoung-Tak Zhang。DramaQA:階層的QAによるキャラクター中心のビデオストーリー理解。arXivプレプリントarXiv:2005.03356、2020年。
[3] Seongho Choi、Kyoung-Woon On、Yu-Jung Heo、Ahjeong Seo、Youwon Jang、Minsu Lee、Byoung-Tak Zhang。Dramaqa:階層的QAによるキャラクター中心のビデオストーリー理解。AAAI人工知能会議論文集、第35巻、1166〜1174ページ、2021年。
[4] Chenyou Fan、Xiaofan Zhang、Shu Zhang、Wensheng Wang、Chi Zhang、Heng Huang。ビデオ質問応答のための異種メモリ強化マルチモーダル注意モデル。IEEE / CVFコンピュータービジョンおよびパターン認識会議の議事録、1999〜2007ページ、2019年。
[5] Tsu-Jui Fu、Linjie Li、Zhe Gan、Kevin Lin、William Yang Wang、Lijuan Wang、Zicheng Liu。 Violet: マスクされたビジュアルトークンモデリングを備えたエンドツーエンドのビデオ言語トランスフォーマー。 arXivプレプリントarXiv:2111.12681、2021年。
[6] Jiyang Gao、Runzhou Ge、Kan Chen、Ram Nevatia。ビデオ質問応答のためのモーションアピアランス共記憶ネットワーク。IEEE Computer Vision and Pattern Recognitionカンファレンスの議事録、6576-6585ページ、2018年。
[7] フィリップ・ジョン・ゴリンスキーとミレラ・ラパタ「グラフベースのシーン抽出による映画脚本要約」NAACL、2015年。
[8] Pengcheng He、Baolin Peng、Liyang Lu、Songhe Wang、Jie Mei、Yang Liu、Ruochen Xu、Hany Hassan Awadalla、Yu Shi、Chenguang Zhu、Wayne Xiong、Michael Zeng、Jianfeng Gao、Xuedong Huang。 Z-code++: 抽象的な要約に最適化された事前トレーニング済みの言語モデル。 ArXiv、abs/2208.09770、2022年。
[9] Yunseok Jang、Yale Song、Youngjae Yu、Youngjin Kim、Gunhee Kim。Tgif-qa:視覚的な質問応答における時空間推論に向けて。IEEEコンピュータービジョンおよびパターン認識会議の議事録、2758〜2766ページ、2017年。
[10] Bhavan Jasani、Rohit Girdhar、Deva Ramanan。movieqaで正しい質問をしているのでしょうか?IEEE/CVF国際コンピュータビジョンワークショップ会議論文集、0~0ページ、2019年。
[11] キム・ジュンヨン、マ・ミヌク、キム・キョンス、キム・ソンジン、ユ・チャン。映画ストーリーの質問応答のための漸進的注意記憶ネットワーク。IEEE/CVFコンピュータービジョンとパターン認識会議の議事録、8337-8346ページ、2019年。
[12] ジュンヨン・キム、ミヌク・マ、キョンス・キム、ソンジン・キム、チャン・D・ユオ。映画ストーリー質問応答のためのプログレッシブ・アテンション・メモリ・ネットワーク。IEEE/CVFコンピュータービジョンおよびパターン認識会議論文集、8337-8346ページ、2019年。
[13] Kyung-Min Kim、Min-Oh Heo、Seong-Ho Choi、Byoung-Tak Zhang。Deepstory:ディープエンベデッドメモリネットワークによるビデオストーリーQA。第26回国際人工知能合同会議の議事録、2016〜2022ページ、2017年。
[14] Seonhoon Kim、Seohyeong Jeong、Eunbyul Kim、Inho Kang、Nojun Kwak。多肢選択式ビデオQAのための自己教師あり事前トレーニングと対照表現学習。AAAI、2021年。
[15] Myungji Lee、Hong-Seok Kwon、Jaehun Shin、WonKee Lee、Baikjin Jung、JongHyeok Lee。対話情報を用いた拡張学習表現を用いたトランスフォーマーベースの脚本要約。NUSE、2021年。
[16] Jie Lei、Licheng Yu、Mohit Bansal、Tamara L Berg。Tvqa:ローカライズされた構成的なビデオ質問応答。EMNLP、2018年。
[17] Jie Lei、Licheng Yu、Tamara L Berg、Mohit Bansal。Tvqa+:ビデオ質問応答のための時空間グラウンディング。Tech Report、arXiv、2019年。
[18] Junnan Li、Dongxu Li、Caiming Xiong、Steven Hoi。Blip:統合された視覚言語理解と生成のための言語画像の事前トレーニングのブートストラップ。ICML、2022年。
[19] Chin-Yew Lin. ROUGE: 要約の自動評価パッケージ。Text Summarization Branches Out、74~81ページ、バルセロナ、スペイン、2004年7月。計算言語学協会。URL https://aclanthology.org/W04-1013。
[20] Chao-Ning Liu、Ding-Jie Chen、Hwann-Tzong Chen、およびTyng-Luh Liu。A2a:映画に関する質問への回答のための注意への注意の推論。Computer Vision–ACCV 2018:第14回アジアコンピュータビジョン会議、オーストラリア、パース、2018年12月2日〜6日、改訂選定論文、パートVI 14、404〜419ページ。Springer、2019年。
[21] Fei Liu、Jing Liu、Xinxin Zhu、Richang Hong、Hanqing Lu。ビデオストーリーの質問応答のためのQAを考慮した動的正規化を備えたデュアル階層型時間畳み込みネットワーク。第28回ACM国際マルチメディア会議の議事録、4253〜4261ページ、2020年。
[22] Seil Na、Sangho Lee、Jisung Kim、Gunhee Kim。映画のストーリー理解のための読み書きメモリネットワーク。IEEE国際コンピュータビジョン会議論文集、677-685ページ、2017年。
[23] ピネロピ・パパランピディ、フランク・ケラー、ミレラ・ラパタ。転換点の特定による映画のプロット分析。2019年自然言語処理における経験的手法に関する会議および第9回自然言語処理に関する国際合同会議(EMNLP-IJCNLP)の議事録、2019年11月。
[24] ピネロピ・パパランピディ、フランク・ケラー、リア・フレアマン、ミレラ・ラパタ。潜在的な物語構造を用いた脚本要約。計算言語学会年次総会、2020年。
[25] Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、Jack Clark、他「自然言語の監督から転移可能な視覚モデルを学習する」国際機械学習会議、8748-8763ページ。PMLR、2021年。
[26] アンナ・ローバッハ、アトウサ・トラビ、マーカス・ローバッハ、ニケト・タンドン、クリストファー・パル、ヒューゴ・ラロシェル、アーロン・クールヴィル、ベルント・シーレ。映画の説明。IJCV、2017年。
[27] Makarand Tapaswi、Yukun Zhu、Rainer Stiefelhagen、Antonio Torralba、Raquel Urtasun、Sanja Fidler。Movieqa:質問応答による映画のストーリーの理解。IEEEコンピュータービジョンおよびパターン認識会議の議事録、4631〜4640ページ、2016年。
[28] Bo Wu、Shoubin Yu、Zhenfang Chen、Joshua B Tenenbaum、Chuang Gan。Star:実世界のビデオにおける状況推論のベンチマーク。第35回神経情報処理システムデータセットおよびベンチマークトラック会議(第2ラウンド)、2021年。
[29] ジュンビン・シャオ、シンディ・シャン、アンジェラ・ヤオ、タット・セン・チュア。「Next-qa:質問応答の次の段階、時間的行動の説明へ」IEEE/CVFコンピュータービジョンおよびパターン認識会議の議事録、9777-9786ページ、2021年。
[30] Dejing Xu、Zhou Zhao、Jun Xiao、Fei Wu、Hanwang Zhang、Xiangnan He、Yueting Zhuang。「外観と動きに対する段階的に洗練された注意によるビデオ質問応答」第25回ACM国際マルチメディア会議の議事録、1645-1653ページ、2017年。
[31] Antoine Yang、Antoine Miech、Josef Sivic、Ivan Laptev、Cordelia Schmid。「ただ尋ねる:何百万ものナレーション付きビデオから質問に答えることを学ぶ」IEEE/CVF国際コンピュータビジョン会議の議事録、1686〜1697ページ、2021年。
[32] 楊正元、浙江、王建鋒、胡暁偉、陸玉茂、劉子成、王立娟。少数ショットの知識ベース VQA のための GPT-3 の実証的研究。 arXivプレプリントarXiv:2109.05014、2021年。
[33] Rowan Zellers、Ximing Lu、Jack Hessel、Youngjae Yu、Jae Sung Park、Jize Cao、Ali Farhadi、Yejin Choi。Merlot:マルチモーダルニューラルスクリプト知識モデル。M. Ranzato、A. Beygelzimer、Y. Dauphin、PS Liang、J. Wortman Vaughan編、『Advances in Neural Information Processing Systems』第34巻、23634~23651ページ。Curran Associates、Inc.、2021年。URL https://proceedings.neurips.cc/paper/ 2021/file/c6d4eb15f1e84a36eff58eca3627c82e-Paper.pdf。
[34] Rowan Zellers、Jiasen Lu、Ximing Lu、Youngjae Yu、Yanpeng Zhao、Mohammadreza Salehi、Aditya Kusupati、Jack Hessel、Ali Farhadi、Yejin Choi。「メルローリザーブ:視覚と言語と音を介した神経スクリプト知識」IEEE/CVFコンピュータービジョンおよびパターン認識会議(CVPR)の議事録、2022年。
[35] Andy Zeng、Adrian Wong、Stefan Welker、Krzysztof Choromanski、Federico Tombari、Aveek Purohit、Michael S Ryoo、Vikas Sindhwani、Johnny Lee、Vincent Vanhoucke、他「ソクラテスモデル:言語によるゼロショットマルチモーダル推論の構成」2022年。
[36] Kuo-Hao Zeng、Tseng-Hung Chen、Ching-Yao Chuang、Yuan-Hong Liao、Juan Carlos Niebles、およびMin Sun。ビデオの説明を活用してビデオの質問応答を学習する。AAAI人工知能会議の議事録、第31巻、2017年。
[37] Jingqing Zhang、Yao Zhao、Mohammad Saleh、Peter Liu。「Pegasus:抽出されたギャップ文による抽象的要約のための事前トレーニング」。国際機械学習会議、11328〜11339ページ。PMLR、2020年。
[38] Zhou Zhao、Jinghao Lin、Xinghua Jiang、Deng Cai、Xiaofei He、Yueting Zhuang。階層的デュアルレベルアテンションネットワーク学習によるビデオ質問応答。第25回ACM国際マルチメディア会議論文集、1050-1058ページ、2017年。