Jan 01, 1970
이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.
저자:
(1) 정지완, 연세대학교 MIR Lab ( https://jiwanchung.github.io/ );
(2) 연세대학교 MIR Lab 유영재 ( https://jiwanchung.github.io/ ).
비디오 내러티브 QA를 위한 글로벌 내러티브와 관련 세부 사항을 모두 이해하기 위해 요약 후 검색 방법인 Long Story Short를 도입했습니다. 우리의 접근 방식은 QA의 맥락이 광범위하고 해당 QA를 해결하기 위해 그러한 맥락과의 높은 수준의 상호 작용이 필요할 때 효과적입니다. 이는 긴 비디오 QA의 경우입니다. 또한 CLIPCheck로 시각적 정렬을 사후 확인하여 모델 생성 답변의 시각적 기반을 더욱 강화할 것을 제안합니다. 우리의 제로샷 방법은 MovieQA 및 DramaQA 벤치마크에서 지도되는 최첨단 접근 방식을 개선합니다. 우리는 코드와 생성된 플롯 데이터를 대중에게 공개할 계획입니다.
이 작업 외에 두 가지 가능한 연구 방향이 있습니다. 첫째, 캐릭터 재식별 및 공동 참조 해결을 통해 스토리에 더 잘 맞는 시각적 설명을 제공하면 GPT-3에 대한 입력 품질이 향상됩니다. 둘째, 전역 정보와 지역 정보를 계층적 방식으로 결합하는 보다 동적인 다중 홉 검색을 고안할 수 있습니다.