Cet article est disponible sur arxiv sous licence CC 4.0.
Auteurs:
(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ) ;
(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).
Budget de calcul. Long Story Short utilise GPT-3 (paramètres 175B) via l'API OpenAI comme épine dorsale. Une invite moyenne pour résumer un segment vidéo traite ∼ 3 000 jetons, tandis qu'une invite de contrôle qualité prend généralement ∼ 4 000 jetons. Pour CLIPCheck, nous extrayons les fonctionnalités CLIP et calculons la similarité cosinus à l'aide d'un seul GPU NVIDIA A6000 : il faut 0,5 heure pour traiter les images vidéo pour la division de validation MovieQA.
Hyperparamètres . Tous les hyperparamètres sont prédéfinis en analysant un seul échantillon d'entraînement. Pour la recherche narrative, nous utilisons le seuil de similarité de phrase α ≥ 0,5 pour trouver des éléments de l'intrigue lorsque GPT-3 ne génère pas un seul index. Nous utilisons le seuil d'entropie binaire E ′ ≥ 0,4 dans CLIPCheck. Nous exécutons chaque expérience une seule fois, car notre méthode est déterministe et n'est pas sensible au caractère aléatoire lors de l'initialisation.
Schéma de segmentation vidéo. Il existe des annotations de limites de segment prédéfinies pour tous les ensembles de données que nous utilisons dans cet article. De plus, tous les éléments de l'intrigue ont des segments de clip alignés à tour de rôle puisque nous effectuons un résumé sur chaque clip segmenté avec les limites prédéfinies. De plus, avant d'appliquer LSS, nous filtrons les segments de clip qui 1. sont trop courts, 2. n'ont pas de cadre d'image aligné, ou 3. n'ont pas de contexte de texte pour nous assurer que nous pouvons récupérer les segments de clip à l'aide des résumés de tracé.
Bibliothèques externes. Nous utilisons l'API OpenAI pour accéder au modèle de langage GPT-3. Les fonctionnalités CLIP sont calculées avec les implémentations de Huggingface (https://huggingface.co/docs/transformers/main/en/model_doc/clip).