이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.
저자:
(1) 정지완, 연세대학교 MIR Lab ( https://jiwanchung.github.io/ );
(2) 연세대학교 MIR Lab 유영재 ( https://jiwanchung.github.io/ ).
계산 예산. Long Story Short는 OpenAI API를 통해 GPT-3(175B 매개변수)을 백본으로 사용합니다. 비디오 세그먼트를 요약하는 평균 프롬프트는 약 3000개의 토큰을 처리하는 반면, QA 프롬프트는 일반적으로 약 4000개의 토큰을 처리합니다. CLIPCheck의 경우 단일 NVIDIA A6000 GPU를 사용하여 CLIP 기능을 추출하고 코사인 유사성을 계산합니다. MovieQA 검증 분할을 위해 비디오 프레임을 처리하는 데 0.5시간이 걸립니다.
초매개변수 . 모든 하이퍼파라미터는 단일 훈련 샘플을 분석하여 사전 정의됩니다. 서술형 검색의 경우 GPT-3가 단일 인덱스를 출력하지 않을 때 문장 유사성 임계값 α ≥ 0.5를 사용하여 플롯 조각을 찾습니다. CLIPCheck에서는 이진 엔트로피 임계값 E' ≥ 0.4를 사용합니다. 우리의 방법은 결정론적이며 초기화 시 임의성에 영향을 받지 않으므로 각 실험은 한 번만 실행합니다.
비디오 분할 방식. 이 백서에서 활용하는 모든 데이터세트에는 미리 정의된 세그먼트 경계 주석이 있습니다. 또한 사전 정의된 경계로 분할된 각 클립에 대해 요약을 수행하므로 모든 플롯 조각은 클립 세그먼트를 차례로 정렬했습니다. 또한 LSS를 적용하기 전에 1. 너무 짧거나, 2. 정렬된 이미지 프레임이 없거나, 3. 텍스트 컨텍스트가 없는 클립 세그먼트를 필터링하여 플롯 요약을 사용하여 클립 세그먼트를 검색할 수 있는지 확인합니다.
외부 라이브러리. 우리는 OpenAI API를 사용하여 GPT-3 언어 모델에 액세스합니다. CLIP 기능은 Huggingface 구현(https://huggingface.co/docs/transformers/main/en/model_doc/clip)으로 계산됩니다.