paint-brush
긴 비디오 질문 답변을 위한 요약 후 검색 방법: 방법~에 의해@kinetograph
107 판독값

긴 비디오 질문 답변을 위한 요약 후 검색 방법: 방법

너무 오래; 읽다

이 논문에서 연구자들은 GPT-3을 사용하여 감독 모델보다 뛰어난 성능을 발휘하고 내러티브 요약 및 시각적 일치를 활용하는 제로 샷 비디오 QA를 탐구합니다.
featured image - 긴 비디오 질문 답변을 위한 요약 후 검색 방법: 방법
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.

저자:

(1) 정지완, 연세대학교 MIR Lab ( https://jiwanchung.github.io/ );

(2) 연세대학교 MIR Lab 유영재 ( https://jiwanchung.github.io/ ).

링크 표

2. 방법


그림 2: 원본 비디오 영상의 인덱스를 생성하고 검색하는 LSS(Long Story Short) 모델을 보여주는 정성적 결과. 모델이 (i) 생성된 요약 및 (ii) 검색된 텍스트 컨텍스트에서 최종 답변을 예측하면 CLIPCheck는 각 후보자의 답변을 검증하여 질문에 대한 최종 답변을 수정합니다.

2.1. 플롯 생성

2.2. 내러티브 검색

요약된 설명과 질문이 주어지면 긴 비디오에서 질문과 관련된 상대적으로 짧은 클립을 검색하려고 합니다. 언어 모델은 불규칙하고 종종 시끄러운 개방형 텍스트를 생성합니다. 비디오의 정확한 부분을 검색하기 위해 텍스트 형식이 아닌 플롯의 인덱스를 출력하도록 모델을 구동합니다.



생성된 인덱스는 언어 모델의 개방형 특성으로 인해 여전히 노이즈가 있을 수 있습니다. 모델이 텍스트 형식으로 답변을 출력할 때 rouge-l [19] 점수를 사용하여 생성된 문장과의 유사성이 지정된 임계값 α ≥ 0.5보다 높은 줄거리 조각 후보를 찾습니다.


2.3. 시각적 확인