Jan 01, 1970
이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.
저자:
(1) 정지완, 연세대학교 MIR Lab ( https://jiwanchung.github.io/ );
(2) 연세대학교 MIR Lab 유영재 ( https://jiwanchung.github.io/ ).
요약된 설명과 질문이 주어지면 긴 비디오에서 질문과 관련된 상대적으로 짧은 클립을 검색하려고 합니다. 언어 모델은 불규칙하고 종종 시끄러운 개방형 텍스트를 생성합니다. 비디오의 정확한 부분을 검색하기 위해 텍스트 형식이 아닌 플롯의 인덱스를 출력하도록 모델을 구동합니다.
생성된 인덱스는 언어 모델의 개방형 특성으로 인해 여전히 노이즈가 있을 수 있습니다. 모델이 텍스트 형식으로 답변을 출력할 때 rouge-l [19] 점수를 사용하여 생성된 문장과의 유사성이 지정된 임계값 α ≥ 0.5보다 높은 줄거리 조각 후보를 찾습니다.