Cet article est disponible sur arxiv sous licence CC 4.0.   Auteurs:  (1) Jiwan Chung, MIR Lab Yonsei University (   ) ; https://jiwanchung.github.io/  (2) Youngjae Yu, MIR Lab Yonsei University (   ). https://jiwanchung.github.io/  Tableau des liens   Résumé et introduction   Méthode   Expériences   Travaux connexes   Conclusion   Limites et références   A. Détails de l'expérience   B. Échantillons rapides  Abstrait  Les grands modèles de langage tels que GPT-3 ont démontré une capacité impressionnante à s'adapter à de nouvelles tâches sans nécessiter de données de formation spécifiques à la tâche. Cette capacité s'est révélée particulièrement efficace dans des contextes tels que la réponse à des questions narratives, où la diversité des tâches est immense, mais les données de supervision disponibles sont limitées. Dans ce travail, nous étudions si de tels modèles de langage peuvent étendre leurs capacités de raisonnement zéro à de longs récits multimodaux dans des contenus multimédias tels que les drames, les films et l'animation, où l'histoire joue un rôle essentiel. Nous proposons Long Story Short, un cadre pour l'assurance qualité des vidéos narratives qui résume d'abord le récit de la vidéo en une courte intrigue, puis recherche les parties de la vidéo pertinentes pour la question. Nous proposons également d'améliorer la correspondance visuelle avec CLIPCheck. Notre modèle surpasse largement les modèles supervisés de pointe, soulignant le potentiel de l’assurance qualité sans prise de vue pour les vidéos longues.  1. Introduction  Les modèles récents d'assurance qualité vidéo sont confrontés à des défis dans la gestion de longues tâches d'assurance qualité narratives vidéo [2, 13, 27] (c'est-à-dire les films, les drames et les vidéos Web YouTube) en raison de la limitation des données et des annotations. Cela se traduit par une incapacité à comprendre les longs récits vidéo au-delà de répondre à des questions principalement visuelles sur un court clip vidéo [16, 17, 30]. La taille de ces longues assurances qualité vidéo est insuffisante pour entraîner les modèles à comprendre pleinement les structures narratives complexes d'une vidéo, ce qui donne des performances sous-optimales. [10] démontrent que les modèles supervisés s'appuient davantage sur les biais linguistiques dans la question que sur le contexte narratif : ils peuvent obtenir des performances similaires même sans voir de contexte vidéo. Cela met en évidence la nécessité d’une capacité de raisonnement multimodal au-delà d’une petite supervision spécifique à une tâche.  Pour relever le défi causé par une faible généralisation, une approche zéro utilisant des grands modèles linguistiques (LLM) pré-entraînés peut être une alternative efficace pour aborder des tâches complexes d'assurance qualité [32] et la synthèse du contexte textuel [8, 37]. Pourtant, la capacité narrative d’assurance qualité de ces LLM est-elle transférable au domaine vidéo ?   Nous proposons un Long Story Short (LSS), illustré dans la figure 1, qui traduit des clips vidéo en format de scénario texte inspiré du modèle socratique [35]. À l'aide de GPT-3 [1], nous résumons d'abord la longue vidéo en une liste d'intrigues, puis parcourons à la fois le résumé généré et le contexte vidéo brut pour résoudre la question donnée. Notre méthode Zero Shot montre de meilleurs résultats que les méthodes supervisées de pointe dans les ensembles de données MovieQA et DramaQA. De plus, nous proposons CLIPCheck, une méthode de correspondance visuel-texte pour améliorer l'alignement visuel des résultats de raisonnement fournis par GPT-3. Pour résumer, nos principales contributions sont triples :  Nous présentons LSS, un cadre qui résume un long récit vidéo à une liste d'intrigues et récupère l'intrigue secondaire pertinente à la question.  Nous démontrons l'importance de prendre en compte la force de l'alignement visuel via la correspondance basée sur CLIP dans les invites visuelles.  Notre approche zéro-shot atteint des performances de pointe dans MovieQA [27] et DramaQA [2], surpassant les références supervisées.

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

Cet audio est produit dans la langue originale de l'histoire !

Une méthode de résumé puis de recherche pour répondre à des questions vidéo longues : résumé et introduction

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

Naviguer sur les eaux : développer des applications RAG de qualité production avec des lacs de données

Des forums aux flux : comment les algorithmes des réseaux sociaux façonnent l'interaction numérique

Vous voulez gagner un concours d’écriture HackerNoon ? Voici ce que recommandent les gagnants du concours #crypto-api

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

Naviguer sur les eaux : développer des applications RAG de qualité production avec des lacs de données

Des forums aux flux : comment les algorithmes des réseaux sociaux façonnent l'interaction numérique

Vous voulez gagner un concours d’écriture HackerNoon ? Voici ce que recommandent les gagnants du concours #crypto-api

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps