paint-brush
긴 비디오 질문 답변을 위한 요약 후 검색 방법: 초록 및 소개~에 의해@kinetograph
107 판독값

긴 비디오 질문 답변을 위한 요약 후 검색 방법: 초록 및 소개

너무 오래; 읽다

이 논문에서 연구자들은 GPT-3을 사용하여 감독 모델보다 뛰어난 성능을 발휘하고 내러티브 요약 및 시각적 일치를 활용하는 제로샷 비디오 QA를 탐구합니다.
featured image - 긴 비디오 질문 답변을 위한 요약 후 검색 방법: 초록 및 소개
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.

저자:

(1) 정지완, 연세대학교 MIR Lab ( https://jiwanchung.github.io/ );

(2) 연세대학교 MIR Lab 유영재 ( https://jiwanchung.github.io/ ).

링크 표

추상적인

GPT-3와 같은 대규모 언어 모델은 작업별 교육 데이터 없이도 새로운 작업에 적응할 수 있는 인상적인 기능을 보여주었습니다. 이 기능은 작업의 다양성이 엄청나지만 사용 가능한 감독 데이터가 적은 서술형 질문 답변과 같은 설정에서 특히 효과적이었습니다. 본 연구에서는 이러한 언어 모델이 스토리가 중요한 역할을 하는 드라마, 영화, 애니메이션과 같은 멀티미디어 콘텐츠의 긴 다중 모드 내러티브로 제로샷 추론 능력을 확장할 수 있는지 조사합니다. 우리는 먼저 비디오의 내러티브를 짧은 플롯으로 요약한 다음 질문과 관련된 비디오 부분을 검색하는 내러티브 비디오 QA를 위한 프레임워크인 Long Story Short를 제안합니다. 또한 CLIPCheck를 통해 시각적 매칭을 강화할 것을 제안합니다. 우리 모델은 최첨단 지도 모델보다 훨씬 뛰어난 성능을 발휘하여 긴 비디오에 대한 제로 샷 QA의 잠재력을 강조합니다.

1. 소개

최근 비디오 QA 모델은 데이터 및 주석의 한계로 인해 긴 비디오 내러티브 QA 작업[2, 13, 27](즉, 영화, 드라마 및 YouTube 웹 비디오)을 처리하는 데 어려움을 겪고 있습니다. 이로 인해 짧은 비디오 클립에 대한 주로 시각적인 질문에 답하는 것 이상으로 긴 비디오 내러티브를 이해할 수 없게 됩니다[16, 17, 30]. 이러한 긴 비디오 QA의 크기는 비디오 내의 복잡한 내러티브 구조를 완전히 이해하도록 모델을 훈련시키기에 충분하지 않아 최적의 성능을 발휘하지 못합니다. [10]은 지도 모델이 내러티브 컨텍스트보다 문제의 언어 편향에 더 많이 의존한다는 것을 보여줍니다. 비디오 컨텍스트를 보지 않고도 유사한 성능을 얻을 수 있습니다. 이는 소규모 작업별 감독을 넘어서는 다중 모드 추론 능력의 필요성을 강조합니다.


낮은 일반화로 인한 문제를 해결하기 위해 사전 훈련된 LLM(대형 언어 모델)을 사용하는 제로샷 접근 방식은 복잡한 QA 작업[32] 및 텍스트 컨텍스트 요약[8, 37]을 처리하는 효율적인 대안이 될 수 있습니다. 그러나 그러한 LLM의 내러티브 QA 기능을 비디오 도메인으로 이전할 수 있습니까?



그림 1: LSS(Long Story Short)는 LLM(대형 언어 모델)(예: GPT-3)을 사용하여 비디오에서 (a) 각본 및 요약 (b) 플롯을 생성합니다. 데이터 처리에 대한 자세한 내용은 섹션 2에서 확인할 수 있습니다. LSS가 비디오에 대한 질문에 대답하면 모델은 (c) 시각적 언어 모델, CLIP을 사용하여 주어진 원시 비디오 영상을 검증하고 (d) 역방향 방식으로 추가 기반 스크립트를 검색합니다. 섹션 2.3에서는 CLIPCheck라고 합니다.



우리는 그림 1에 설명된 LSS(Long Story Short)를 제안합니다. 이는 비디오 클립을 Socratic Model [35]에서 영감을 받은 텍스트 시나리오 형식으로 변환합니다. GPT-3 [1]을 사용하여 먼저 긴 비디오를 플롯 목록으로 요약한 다음 생성된 요약과 원시 비디오 컨텍스트를 모두 탐색하여 주어진 질문을 해결합니다. 우리의 제로샷 방법은 MovieQA 및 DramaQA 데이터 세트에서 최첨단 지도 방법보다 더 나은 결과를 보여줍니다. 또한 GPT-3에서 제공하는 추론 결과의 시각적 정렬을 향상시키기 위해 시각적 텍스트 매칭 방법인 CLIPCheck를 제안합니다. 요약하자면, 우리의 주요 기여는 세 가지입니다:


  1. 우리는 긴 비디오 내러티브를 플롯 목록으로 요약하고 질문과 관련된 하위 플롯을 검색하는 프레임워크인 LSS를 제시합니다.


  2. 우리는 시각적 프롬프트에서 CLIP 기반 매칭을 통해 시각적 정렬 강도를 고려하는 것의 중요성을 보여줍니다.


  3. 우리의 제로샷 접근 방식은 MovieQA [27] 및 DramaQA [2]에서 최고 수준의 성능을 달성하여 감독 기준을 능가합니다.