paint-brush
Une méthode de résumé puis de recherche pour répondre à des questions vidéo longues : résumé et introductionpar@kinetograph
110 lectures

Une méthode de résumé puis de recherche pour répondre à des questions vidéo longues : résumé et introduction

Trop long; Pour lire

Dans cet article, les chercheurs explorent le contrôle qualité des vidéos sans prise de vue à l'aide de GPT-3, surpassant les modèles supervisés, en tirant parti des résumés narratifs et de la correspondance visuelle.
featured image - Une méthode de résumé puis de recherche pour répondre à des questions vidéo longues : résumé et introduction
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Cet article est disponible sur arxiv sous licence CC 4.0.

Auteurs:

(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ) ;

(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).

Tableau des liens

Abstrait

Les grands modèles de langage tels que GPT-3 ont démontré une capacité impressionnante à s'adapter à de nouvelles tâches sans nécessiter de données de formation spécifiques à la tâche. Cette capacité s'est révélée particulièrement efficace dans des contextes tels que la réponse à des questions narratives, où la diversité des tâches est immense, mais les données de supervision disponibles sont limitées. Dans ce travail, nous étudions si de tels modèles de langage peuvent étendre leurs capacités de raisonnement zéro à de longs récits multimodaux dans des contenus multimédias tels que les drames, les films et l'animation, où l'histoire joue un rôle essentiel. Nous proposons Long Story Short, un cadre pour l'assurance qualité des vidéos narratives qui résume d'abord le récit de la vidéo en une courte intrigue, puis recherche les parties de la vidéo pertinentes pour la question. Nous proposons également d'améliorer la correspondance visuelle avec CLIPCheck. Notre modèle surpasse largement les modèles supervisés de pointe, soulignant le potentiel de l’assurance qualité sans prise de vue pour les vidéos longues.

1. Introduction

Les modèles récents d'assurance qualité vidéo sont confrontés à des défis dans la gestion de longues tâches d'assurance qualité narratives vidéo [2, 13, 27] (c'est-à-dire les films, les drames et les vidéos Web YouTube) en raison de la limitation des données et des annotations. Cela se traduit par une incapacité à comprendre les longs récits vidéo au-delà de répondre à des questions principalement visuelles sur un court clip vidéo [16, 17, 30]. La taille de ces longues assurances qualité vidéo est insuffisante pour entraîner les modèles à comprendre pleinement les structures narratives complexes d'une vidéo, ce qui donne des performances sous-optimales. [10] démontrent que les modèles supervisés s'appuient davantage sur les biais linguistiques dans la question que sur le contexte narratif : ils peuvent obtenir des performances similaires même sans voir de contexte vidéo. Cela met en évidence la nécessité d’une capacité de raisonnement multimodal au-delà d’une petite supervision spécifique à une tâche.


Pour relever le défi causé par une faible généralisation, une approche zéro utilisant des grands modèles linguistiques (LLM) pré-entraînés peut être une alternative efficace pour aborder des tâches complexes d'assurance qualité [32] et la synthèse du contexte textuel [8, 37]. Pourtant, la capacité narrative d’assurance qualité de ces LLM est-elle transférable au domaine vidéo ?



Figure 1 : Long Story Short (LSS) utilise des modèles de langage étendus (LLM) (c'est-à-dire GPT-3) pour générer (a) un scénario et (b) des intrigues résumées à partir de la vidéo. De plus amples détails sur le traitement des données peuvent être trouvés dans la section 2. Lorsque LSS répond aux questions sur la vidéo, le modèle (c) valide les séquences vidéo brutes données avec le modèle de langage visuel, CLIP, et (d) recherche d'autres scripts fondés de manière rétrospective, que nous appelons CLIPCheck dans la section 2.3.



Nous proposons un Long Story Short (LSS), illustré dans la figure 1, qui traduit des clips vidéo en format de scénario texte inspiré du modèle socratique [35]. À l'aide de GPT-3 [1], nous résumons d'abord la longue vidéo en une liste d'intrigues, puis parcourons à la fois le résumé généré et le contexte vidéo brut pour résoudre la question donnée. Notre méthode Zero Shot montre de meilleurs résultats que les méthodes supervisées de pointe dans les ensembles de données MovieQA et DramaQA. De plus, nous proposons CLIPCheck, une méthode de correspondance visuel-texte pour améliorer l'alignement visuel des résultats de raisonnement fournis par GPT-3. Pour résumer, nos principales contributions sont triples :


  1. Nous présentons LSS, un cadre qui résume un long récit vidéo à une liste d'intrigues et récupère l'intrigue secondaire pertinente à la question.


  2. Nous démontrons l'importance de prendre en compte la force de l'alignement visuel via la correspondance basée sur CLIP dans les invites visuelles.


  3. Notre approche zéro-shot atteint des performances de pointe dans MovieQA [27] et DramaQA [2], surpassant les références supervisées.