Cet article est disponible sur arxiv sous licence CC 4.0.
Auteurs:
(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ) ;
(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).
Les grands modèles de langage tels que GPT-3 ont démontré une capacité impressionnante à s'adapter à de nouvelles tâches sans nécessiter de données de formation spécifiques à la tâche. Cette capacité s'est révélée particulièrement efficace dans des contextes tels que la réponse à des questions narratives, où la diversité des tâches est immense, mais les données de supervision disponibles sont limitées. Dans ce travail, nous étudions si de tels modèles de langage peuvent étendre leurs capacités de raisonnement zéro à de longs récits multimodaux dans des contenus multimédias tels que les drames, les films et l'animation, où l'histoire joue un rôle essentiel. Nous proposons Long Story Short, un cadre pour l'assurance qualité des vidéos narratives qui résume d'abord le récit de la vidéo en une courte intrigue, puis recherche les parties de la vidéo pertinentes pour la question. Nous proposons également d'améliorer la correspondance visuelle avec CLIPCheck. Notre modèle surpasse largement les modèles supervisés de pointe, soulignant le potentiel de l’assurance qualité sans prise de vue pour les vidéos longues.
Les modèles récents d'assurance qualité vidéo sont confrontés à des défis dans la gestion de longues tâches d'assurance qualité narratives vidéo [2, 13, 27] (c'est-à-dire les films, les drames et les vidéos Web YouTube) en raison de la limitation des données et des annotations. Cela se traduit par une incapacité à comprendre les longs récits vidéo au-delà de répondre à des questions principalement visuelles sur un court clip vidéo [16, 17, 30]. La taille de ces longues assurances qualité vidéo est insuffisante pour entraîner les modèles à comprendre pleinement les structures narratives complexes d'une vidéo, ce qui donne des performances sous-optimales. [10] démontrent que les modèles supervisés s'appuient davantage sur les biais linguistiques dans la question que sur le contexte narratif : ils peuvent obtenir des performances similaires même sans voir de contexte vidéo. Cela met en évidence la nécessité d’une capacité de raisonnement multimodal au-delà d’une petite supervision spécifique à une tâche.
Pour relever le défi causé par une faible généralisation, une approche zéro utilisant des grands modèles linguistiques (LLM) pré-entraînés peut être une alternative efficace pour aborder des tâches complexes d'assurance qualité [32] et la synthèse du contexte textuel [8, 37]. Pourtant, la capacité narrative d’assurance qualité de ces LLM est-elle transférable au domaine vidéo ?
Nous proposons un Long Story Short (LSS), illustré dans la figure 1, qui traduit des clips vidéo en format de scénario texte inspiré du modèle socratique [35]. À l'aide de GPT-3 [1], nous résumons d'abord la longue vidéo en une liste d'intrigues, puis parcourons à la fois le résumé généré et le contexte vidéo brut pour résoudre la question donnée. Notre méthode Zero Shot montre de meilleurs résultats que les méthodes supervisées de pointe dans les ensembles de données MovieQA et DramaQA. De plus, nous proposons CLIPCheck, une méthode de correspondance visuel-texte pour améliorer l'alignement visuel des résultats de raisonnement fournis par GPT-3. Pour résumer, nos principales contributions sont triples :
Nous présentons LSS, un cadre qui résume un long récit vidéo à une liste d'intrigues et récupère l'intrigue secondaire pertinente à la question.
Nous démontrons l'importance de prendre en compte la force de l'alignement visuel via la correspondance basée sur CLIP dans les invites visuelles.
Notre approche zéro-shot atteint des performances de pointe dans MovieQA [27] et DramaQA [2], surpassant les références supervisées.