이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.
저자:
(1) 정지완, 연세대학교 MIR Lab ( https://jiwanchung.github.io/ );
(2) 연세대학교 MIR Lab 유영재 ( https://jiwanchung.github.io/ ).
모든 실험에서는 GPT-3[1](text-davinci-003)을 백본 언어 모델로 사용합니다. 달리 명시하지 않는 한, 우리는 Ground Truth 클립 경계를 사용하여 비디오를 분할합니다. 모든 LSS 변형은 훈련 데이터를 사용하지 않으므로 제로샷 방법입니다.
MovieQA[27]는 408편의 영화에서 가져온 대규모 QA 데이터 세트입니다. 데이터 세트에는 다양한 정보 소스가 있습니다. 자막, 스크립트, DVS, 비디오 클립 및 플롯. 우리는 4가지 최첨단 지도 기준선을 보고합니다. A2A [20], PAMN [11], UniversalQA [10] 및 DHTCN [21].
표 1은 제로샷 LSS가 이전 지도 방식에 비해 향상되었음을 보여줍니다. 또한 Ours-search는 Ground Truth 세그먼트 인덱스 라벨이 없어도 강력한 성능을 보여줍니다. CLIPCheck는 비디오 분할의 정확도를 약간 향상시킵니다. 그러나 MovieQA에서는 일반적인 시각적 일치보다는 문자 기반 접지가 필요한 경우가 많기 때문에 차이는 미미합니다. 마지막으로 귀무 가설을 실험합니다. No Context는 GPT-3가 단순히 모든 사실을 기억하여 MovieQA를 해결하는지 여부를 테스트합니다. No Context는 LSS보다 더 나쁜 성능을 발휘하여 귀무 가설을 기각합니다.
PororoQA [13]는 만화 시리즈를 기반으로 구축된 비디오 스토리 QA 데이터 세트입니다. 지도 기준선은 인간이 생성한 플롯과 실제 비디오 세그먼트 인덱스를 사용하는 반면 LSS + 플롯 + 검색은 둘 다 사용하지 않습니다.
표 2는 PororoQA 데이터세트의 결과를 요약한 것입니다. 실제 에피소드와 플롯을 모두 사용하는 경우 GPT-3는 감독 기준과 거의 동등한 성능을 발휘합니다. 사람이 생성한 요약을 모델이 생성한 요약으로 대체하면 성능이 약간 저하됩니다. 아마도 흥미롭게도 모델 생성 플롯을 사용할 때 검색 프로세스가 더 잘 작동합니다. 우리는 이 결과를 인간 주석이 에피소드 식별성을 위해 설계되지 않았다는 사실에 기인한다고 생각합니다.
DramaQA [3]는 스토리 이해에 중점을 둔 비디오 QA 데이터 세트입니다. 데이터 세트는 인간의 인지 발달 단계를 따르는 4가지 계층적 난이도로 배열되어 있습니다. 플롯 이해를 테스트하기 위해 DramaQA의 두 가지 높은 수준에서 LSS를 평가합니다. 우리는 수준별 DramaQA의 두 가지 최신 기준을 보고합니다. CharacterAttention 및 Kim et al. [14].
우리는 BLIP[18]에서 추출된 이미지 프레임 설명을 GPT-3의 입력으로 통합하는 프롬프트 기반 방법인 CLIPCheck와 Caption의 효과를 비교합니다. 표 3은 CLIPCheck가 이미지 설명보다 더 큰 개선을 제공한다는 것을 보여줍니다. 또한 이미지 캡션을 추가하면 LSS가 향상되지만 CLIPCheck와 함께 사용하면 게인이 사라집니다. 이는 프레임 캡션이 훨씬 더 시끄럽지만 CLIPCheck와 유사한 정보를 제공하기 때문이라고 생각됩니다. 여기서 자동 캡션은 LSS의 필수 구성 요소가 아닙니다. DramaQA는 이미 시각적 기반 주석을 갖추고 있으므로 그 위에 자동 이미지 캡션을 추가한다고 해서 반드시 모델 성능이 향상되는 것은 아닙니다. 오히려 캡션을 사용하여 초기 및 후기 시각적 정렬 방법을 명시적으로 비교합니다.
마지막으로 CLIPCheck가 시각적 맥락을 이해하는 대신 데이터세트 편향을 활용하는지 확인합니다. 이를 위해 우리는 임의의 시각적 컨텍스트(CLIPCheck-Shuffle)를 갖춘 CLIPCheck의 변형을 고안했습니다. CLIPCheck-Shuffle은 CLIPCheck가 없는 LSS에 비해 개선되지 않아 편향 가설을 거부합니다.
서사적 이해를 위해서는 요약과 검색이 모두 중요한가요? 여기서는 서술형 검색 없이 전체 컨텍스트를 사용하거나(LSS-Full) 플롯 요약 및 무작위 세그먼트를 입력으로 사용하여(LSS-Random) LSS 변형을 평가합니다. 표 4는 LSS-Full과 LSS-Random이 모두 LSS-Search보다 뒤떨어져 검색의 중요성을 나타냄을 보여줍니다. 토큰 길이 제한으로 인해 LSS-Full에서는 전체 컨텍스트를 사용할 수 없습니다. 대신 GPT3가 허용하는 전체 컨텍스트의 가장 긴 접두사를 사용합니다(4000개 토큰에서 명령 길이를 뺀 값).
그림 3은 LSS 프레임워크의 언어 모델을 사용하여 긴 비디오 QA의 중간 컨텍스트로 생성된 자동 플롯 요약을 보여줍니다. 정성적 샘플에서 볼 수 있듯이 생성된 플롯은 Wikipedia의 사람이 작성한 플롯과 잘 일치합니다. 예를 들어 영화 '해리포터와 죽음의 성물'의 첫 장면에서 LSS 요약에는 해리포터가 현재 17세이고 죽음을 먹는 자들이 주인공을 공격하는 메인 이벤트라고 정확하게 적혀 있다.
그림 4는 검색된 플롯 조각과 답변 가능성 사이의 연결을 보여줍니다. 왼쪽 예에서 검색된 요약에는 Trench가 범죄를 저질러 도주 중이라고 나와 있으며, 이는 Trench에게 관심이 있는 다른 캐릭터가 그를 쫓을 것임을 암시합니다. 언어 모델은 이 컨텍스트를 이해하여 올바른 방식으로 답변 가능성을 수정합니다. 올바른 예에서 LSS 플롯 부분은 Edward가 자신의 결정을 확신하고 있음을 나타냅니다. 이 컨텍스트는 질문에 대한 직접적인 단서를 제공하지 않지만 언어 모델은 이를 답변을 변경할 만큼 강력한 정보로 간주합니다.