이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.
저자:
(1) 정지완, 연세대학교 MIR Lab ( https://jiwanchung.github.io/ );
(2) 연세대학교 MIR Lab 유영재 ( https://jiwanchung.github.io/ ).
우리의 연구에는 다음과 같은 몇 가지 제한 사항이 있습니다.
우리는 영어 자막이 있는 비디오만을 실험합니다. 그러나 우리의 방법은 강력한 다국어 언어 모델이 주어지면 다국어 컨텍스트를 포함하도록 확장될 수 있습니다.
우리 방법의 계산 및 메모리 요구 사항은 대규모 언어 모델인 GPT-3에 크게 의존하기 때문에 상당합니다.
LLM(GPT-3)의 단일 인스턴스만으로 Long Story Short를 평가합니다.
잠재적 위험. GPT-3을 사용하여 긴 비디오 컨텍스트를 요약하면 언어 모델의 개방형 특성과 관련된 윤리적 위험이 발생합니다. GPT-3는 (a) 콘텐츠에 대한 가짜 사실을 환각시키거나, (b) 유해한 발언을 생성하거나, (c) 요약 및 답변 가능성에 암시적으로 사회적 편견을 삽입할 수 있습니다.
[1] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell 등. 언어 모델은 소수의 학습자입니다. 신경 정보 처리 시스템의 발전, 33:1877-1901, 2020.
[2] 최성호, 온경운, 허유정, 서아정, 장유원, 이승찬, 이민수, 장병탁. DramaQA: 계층적 QA를 통한 캐릭터 중심의 영상 스토리 이해. arXiv 사전 인쇄 arXiv:2005.03356, 2020.
[3] 최성호, 온경운, 허유정, 서아정, 장유원, 이민수, 장병탁. 드라마카(Dramaqa): 계층적 qa를 통한 캐릭터 중심의 영상 스토리 이해. AAAI 인공지능 회의 진행, 35권, 1166~1174페이지, 2021년.
[4] Chenyou Fan, Xiaofan Zhang, Shu Zhang, Wensheng Wang, Chi Zhang 및 Heng Huang. 비디오 질문 응답을 위한 이기종 메모리 강화 다중 모드 주의 모델. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 진행, 페이지 1999-2007, 2019.
[5] Tsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang, Lijuan Wang 및 Zicheng Liu. 보라색: 마스크된 시각적 토큰 모델링을 갖춘 엔드투엔드 비디오 언어 변환기입니다. arXiv 사전 인쇄 arXiv:2111.12681, 2021.
[6] Jiyang Gao, Runzhou Ge, Kan Chen 및 Ram Nevatia. 영상 질의 응답을 위한 모션-출현 공동 메모리 네트워크. 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컨퍼런스 진행, 페이지 6576-6585, 2018.
[7] 필립 존 고린스키(Philip John Gorinski)와 미렐라 라파타(Mirella Lapata). 그래프 기반 장면 추출로 영화 대본을 요약합니다. 2015년 NAACL에서.
[8] Pengcheng He, Baolin Peng, Liyang Lu, Songhe Wang, Jie Mei, Yang Liu, Ruochen Xu, Hany Hassan Awadalla, Yu Shi, Chenguang Zhu, Wayne Xiong, Michael Zeng, Jianfeng Gao 및 Xuedong Huang. Z-code++: 추상적인 요약에 최적화된 사전 훈련된 언어 모델입니다. ArXiv, ABS/2208.09770, 2022.
[9] 장윤석, 송예일, 유영재, 김영진, 김건희. Tgif-qa: 시각적 질의응답에서 시공간 추론을 지향합니다. 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컨퍼런스 진행, 페이지 2758-2766, 2017.
[10] Bhavan Jasani, Rohit Girdhar 및 Deva Ramanan. 우리는 movieqa에서 올바른 질문을 하고 있나요? 컴퓨터 비전 워크숍에 관한 IEEE/CVF 국제 컨퍼런스 진행 중, 페이지 0–0, 2019.
[11] 김준영, 마민욱, 김경수, 김성진, 유창두. 영화 스토리 질문 응답을 위한 점진적인 주의 기억 네트워크. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 진행, 페이지 8337-8346, 2019.
[12] 김준영, 마민욱, 김경수, 김성진, 유창두. 영화 스토리 질문 답변을 위한 점진적인 주의 기억 네트워크. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 진행, 페이지 8337-8346, 2019.
[13] 김경민, 허민오, 최성호, 장병탁. Deepstory: 딥 임베디드 메모리 네트워크의 비디오 스토리 qa. 제26차 인공 지능에 관한 국제 합동 컨퍼런스 진행, 2016~2022페이지, 2017.
[14] 김선훈, 정서형, 김은별, 강인호, 곽노준. 객관식 비디오 qa를 위한 자가 지도 사전 훈련 및 대조 표현 학습. AAAI에서는 2021년.
[15] 이명지, 권홍석, 신재훈, 이원기, 정백진, 이종혁. 대화 정보와 함께 증강 학습 표현을 활용한 트랜스포머 기반 시나리오 요약입니다. NUSE에서는 2021년.
[16] Jie Lei, Licheng Yu, Mohit Bansal 및 Tamara L Berg. Tvqa: 현지화되고 구성된 비디오 질문 답변. EMNLP, 2018.
[17] Jie Lei, Licheng Yu, Tamara L Berg 및 Mohit Bansal. Tvqa+: 비디오 질문 답변을 위한 시공간 기반. 기술 보고서, arXiv, 2019.
[18] Junnan Li, Dongxu Li, Caiming Xiong 및 Steven Hoi. Blip: 통합 비전 언어 이해 및 생성을 위한 부트스트래핑 언어 이미지 사전 훈련. ICML에서는 2022년.
[19] 친유 린. ROUGE: 요약을 자동으로 평가하는 패키지입니다. 텍스트 요약에서 Branches Out, 페이지 74-81, 스페인 바르셀로나, 2004년 7월. 전산 언어학 협회. URL https://aclanthology.org/W04-1013.
[20] Liu Chao-Ning, Ding-Jie Chen, Hwann-Tzong Chen 및 Tyng-Luh Liu. A2a: 영화 질문 답변에 대한 주의 추론에 주의하세요. 컴퓨터 비전 –ACCV 2018: 제14회 아시아 컴퓨터 비전 컨퍼런스, 호주 퍼스, 2018년 12월 2~6일, 개정된 선정 논문, 파트 VI 14, 404~419페이지. 스프링거, 2019.
[21] Fei Liu, Jing Liu, Xinxin Zhu, Richang Hong 및 Hanqing Lu. 비디오 스토리 질문 답변을 위한 qa 인식 동적 정규화 기능을 갖춘 이중 계층적 시간 컨볼루셔널 네트워크입니다. 제28차 ACM 국제 멀티미디어 컨퍼런스 진행, 페이지 4253-4261, 2020.
[22] 나세일, 이상호, 김지성, 김건희. 영화 스토리 이해를 위한 읽기-쓰기 메모리 네트워크. 컴퓨터 비전에 관한 IEEE 국제 컨퍼런스 진행, 페이지 677-685, 2017.
[23] Pinelopi Papalampidi, Frank Keller 및 Mirella Lapata. 전환점 식별을 통한 영화 플롯 분석. 2019 자연어 처리의 경험적 방법에 관한 컨퍼런스 및 제9차 자연어 처리에 관한 국제 공동 컨퍼런스(EMNLP-IJCNLP) 진행 중, 2019년 11월.
[24] Pinelopi Papalampidi, Frank Keller, Lea Frermann 및 Mirella Lapata. 잠재 내러티브 구조를 활용한 각본 요약. 2020년 전산언어학협회 연차총회에서.
[25] Alec Radford, 김종욱, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark 등 자연어 감독을 통해 전달 가능한 시각적 모델을 학습합니다. 기계 학습에 관한 국제 컨퍼런스, 8748-8763페이지. PMLR, 2021.
[26] Anna Rohrbach, Atousa Torabi, Marcus Rohrbach, Niket Tandon, Christopher Pal, Hugo Larochelle, Aaron Courville 및 Bernt Schiele. 영화 설명. IJCV, 2017.
[27] Makarand Tapaswi, Yukun Zhu, Rainer Stiefelhagen, Antonio Torralba, Raquel Urtasun 및 Sanja Fidler. 무비카: 질의 응답을 통해 영화 속 이야기를 이해합니다. 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컨퍼런스 진행, 페이지 4631–4640, 2016.
[28] Bo Wu, Shoubin Yu, Zhenfang Chen, Joshua B Tenenbaum 및 Chuang Gan. Star: 실제 비디오의 상황 추론에 대한 벤치마크입니다. 신경 정보 처리 시스템 데이터 세트 및 벤치마크 트랙에 관한 제35차 컨퍼런스(2라운드), 2021.
[29] Junbin Xiao, Xindi Shang, Angela Yao 및 Tat-Seng Chua. Next-qa: 일시적인 동작을 설명하기 위한 질문 답변의 다음 단계입니다. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 진행, 페이지 9777-9786, 2021.
[30] Dejing Xu, Zhou Zhao, Jun Xiao, Fei Wu, Hanwang Zhang, Xiangnan He 및 Yueting Zhuang. 외모와 동작에 대한 점진적인 관심을 통해 영상 질의응답을 제공합니다. 멀티미디어에 관한 제25차 ACM 국제 컨퍼런스 진행, 페이지 1645-1653, 2017.
[31] Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev 및 Cordelia Schmid. 그냥 물어보세요: 수백만 개의 내레이션 비디오를 통해 질문에 답하는 방법을 배웁니다. 컴퓨터 비전에 관한 IEEE/CVF 국제 컨퍼런스 진행, 페이지 1686-1697, 2021.
[32] Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zicheng Liu 및 Lijuan Wang. Few-shot 지식 기반 vqa를 위한 gpt-3의 실증적 연구. arXiv 사전 인쇄 arXiv:2109.05014, 2021.
[33] Rowan Zellers, Ximing Lu, Jack Hessel, 유영재, 박재성, Jize Cao, Ali Farhadi, 최예진. Merlot: 다중 모드 신경 스크립트 지식 모델. M. Ranzato, A. Beygelzimer, Y. Dauphin, PS Liang 및 J. Wortman Vaughan 편집자, 신경 정보 처리 시스템의 발전, 34권, 23634~23651페이지. Curran Associates, Inc., 2021. URL https://proceedings.neurips.cc/paper/ 2021/file/c6d4eb15f1e84a36eff58eca3627c82e-Paper.pdf.
[34] Rowan Zellers, Jiasen Lu, Ximing Lu, Youngjae Yu, Yanpeng Zhao, Mohammadreza Salehi, Aditya Kusupati, Jack Hessel, Ali Farhadi 및 최예진. Merlot Reserve: 시각과 언어, 소리를 통한 신경 각본 지식. 컴퓨터 비전 및 패턴 인식(CVPR)에 관한 IEEE/CVF 컨퍼런스 진행 중, 2022.
[35] Andy Zeng, Adrian Wong, Stefan Welker, Krzysztof Choromanski, Federico Tombari, Aveek Purohit, Michael S Ryoo, Vikas Sindhwani, Johnny Lee, Vincent Vanhoucke 등. 소크라테스 모델: 언어로 제로샷 다중 모드 추론 구성. 2022.
[36] Kuo-Hao Zeng, Tseng-Hung Chen, Ching-Yao Chuang, Yuan-Hong Liao, Juan Carlos Niebles 및 Min Sun. 비디오 설명을 활용하여 비디오 질문 답변을 배웁니다. AAAI 인공 지능 회의 진행, 31권, 2017.
[37] Jingqing Zhang, Yao Zhao, Mohammad Saleh 및 Peter Liu. Pegasus: 추상적인 요약을 위해 추출된 간격 문장을 사용한 사전 훈련. 기계 학습에 관한 국제 컨퍼런스, 11328-11339페이지. PMLR, 2020.
[38] Zhou Zhao, Jinghao Lin, Xinghua Jiang, Deng Cai, Xiaofei He 및 Yueting Zhuang. 계층적 이중 수준 주의 네트워크 학습을 통한 비디오 질문 답변. 멀티미디어에 관한 제25차 ACM 국제 컨퍼런스 진행, 페이지 1050–1058, 2017.