이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.
저자:
(1) 정지완, 연세대학교 MIR Lab ( https://jiwanchung.github.io/ );
(2) 연세대학교 MIR Lab 유영재 ( https://jiwanchung.github.io/ ).
영화 요약 영화는 명확한 서사 구조를 지닌 장편 영상의 대표적인 예입니다. Gorinskiet al. [7] 영화 장면의 최적 그래프 체인을 찾는 작업으로 짧은 버전의 시나리오를 생성합니다. TRIPOD[23]는 전환점 주석을 포함하는 시나리오 데이터세트입니다. 같은 작품에서는 영화 내러티브의 전환점을 식별하는 자동 모델을 제안합니다. Papalampidiet al. [24]는 나중에 TV 시리즈 CSI를 사용하여 자동 영화 요약에서 전환점의 유용성을 보여줍니다. Lee et al. [15]는 대화 기능 및 변환기 아키텍처를 통해 전환점 식별을 더욱 향상시킵니다.
긴 비디오 QA 비디오 질문 답변 작업은 개방형 QA[9]와 다중 선택 문제[28, 29]의 형태로 문헌에서 광범위하게 연구되었습니다. 이 작업을 해결하기 위해 RNN 기반 주의 네트워크[9, 30, 36, 38]부터 메모리 네트워크[12, 22, 27] 및 변환기[4, 6]에 이르기까지 여러 가지 접근 방식이 제안되었습니다. 최근 대규모 비디오 데이터 세트(VideoQA [31], VIOLET [5], MERLOT [33] 및 MERLOT-Reserve [34])에 대해 사전 훈련된 다중 모달 모델은 비디오 질문 답변에서도 유망한 성능을 보여줍니다.
그러나 장편 영상 QA는 그 중요성에도 불구하고 상대적으로 덜 주목을 받아왔습니다. MovieQA[27]는 일반적으로 2시간에 걸쳐 진행되는 전체 영화에 대한 QA를 공식화합니다. DramaQA [3]는 단일 TV 시리즈를 시각적 맥락으로 사용하고 해결사에게 1분에서 20분 길이의 비디오 클립을 이해하도록 작업합니다.