paint-brush
Une méthode de synthèse puis de recherche pour répondre à des questions vidéo longues : expériencespar@kinetograph

Une méthode de synthèse puis de recherche pour répondre à des questions vidéo longues : expériences

Trop long; Pour lire

Dans cet article, les chercheurs explorent le contrôle qualité des vidéos sans prise de vue à l'aide de GPT-3, surpassant les modèles supervisés, en tirant parti des résumés narratifs et de la correspondance visuelle.
featured image - Une méthode de synthèse puis de recherche pour répondre à des questions vidéo longues : expériences
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Cet article est disponible sur arxiv sous licence CC 4.0.

Auteurs:

(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ) ;

(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).

Tableau des liens

3. Expériences

Pour toutes les expériences, nous utilisons GPT-3 [1] (text-davinci-003) comme modèle de langage principal. Sauf indication contraire, nous utilisons la limite du clip de vérité terrain pour segmenter les vidéos. Toutes les variantes LSS n'utilisent aucune donnée d'entraînement et constituent donc des méthodes sans tir.


Tableau 1 : Évaluation sur la répartition de validation MovieQA. L'ensemble de données fournit un alignement GT avec 3 minutes de clip vidéo en moyenne : nous rapportons également Ours-search qui recherche l'ensemble du contexte du film sans alignement GT. (V) indique la vidéo et (S) indique le sous-titre.


Tableau 2 : Évaluation sur la répartition de validation PororoQA. Le tracé généré par la machine (+Plot) fonctionne à proximité des annotations humaines (Base).


Tableau 3 : Évaluation sur les niveaux trois et quatre de la division de validation DramaQA. CLIPCheck atteint l'état de l'art en matière de lignes de base et une approche basée sur des invites [35] pour la saisie des descriptions d'images.


Tableau 4 : Étude d’ablation sur la répartition de validation MovieQA.

3.1. Évaluation d'une longue histoire courte

MovieQA [27] est un ensemble de données QA à grande échelle provenant de 408 films. Il existe plusieurs sources d'informations dans l'ensemble de données ; sous-titres, scripts, DVS, clips vidéo et intrigues. Nous rapportons quatre références supervisées de pointe ; A2A [20], PAMN [11], UniversalQA [10] et DHTCN [21].


Le tableau 1 montre les améliorations du LSS sans tir par rapport aux approches supervisées précédentes. En outre, Ours-search affiche de solides performances même sans l'étiquette d'index de segment de vérité terrain. CLIPCheck améliore légèrement la précision de la division vidéo. Cependant, la différence est marginale puisque MovieQA nécessite souvent une base basée sur les personnages plutôt qu'une correspondance visuelle générale. Enfin, nous expérimentons l'hypothèse nulle : No Context teste si GPT-3 résout MovieQA en mémorisant simplement chaque fait. Aucun contexte ne fonctionne moins bien que LSS, rejetant l'hypothèse nulle.


PororoQA [13] est un ensemble de données d’assurance qualité d’histoire vidéo construit à partir d’une série de dessins animés. La ligne de base supervisée prend l'intrigue générée par l'homme et l'index de segment vidéo de vérité terrain, tandis que LSS + Plot + Search ne prend ni l'un ni l'autre.


Le tableau 2 résume nos résultats sur l'ensemble de données PororoQA. Lorsqu’on utilise à la fois l’épisode de vérité terrain et les intrigues, GPT-3 fonctionne presque à égalité avec la référence supervisée. Le remplacement d'un résumé généré par un humain par un résumé généré par un modèle n'entraîne qu'une baisse marginale des performances. Curieusement peut-être, le processus de recherche fonctionne mieux lors de l’utilisation de tracés générés par un modèle. Nous attribuons ce résultat au fait que les annotations humaines ne sont pas conçues pour la discriminabilité des épisodes.

3.2. Évaluation de CLIPCheck

DramaQA [3] est un ensemble de données d'assurance qualité vidéo qui se concentre sur la compréhension de l'histoire. L'ensemble de données est organisé selon quatre niveaux de difficulté hiérarchique, qui suivent les étapes du développement cognitif humain. Nous évaluons LSS sur les deux niveaux élevés de DramaQA pour tester la compréhension de l'intrigue. Nous rapportons deux dernières références dans DramaQA par niveau ; CharacterAttention et Kim et al. [14].


Nous comparons l'effet de CLIPCheck et Caption, une méthode basée sur des invites pour incorporer des descriptions de trames d'images extraites de BLIP [18] comme entrées dans GPT-3. Le tableau 3 montre que CLIPCheck offre une plus grande amélioration que les descriptions d'images. De plus, même si l'ajout de légendes d'images améliore le LSS, le gain disparaît lorsqu'il est utilisé conjointement avec CLIPCheck. Nous pensons que cela est dû au fait que les légendes des images fournissent des informations similaires à CLIPCheck tout en étant beaucoup plus bruyantes. Notez que les sous-titres automatiques ici ne font pas partie intégrante de LSS. Comme DramaQA dispose déjà d'annotations visuellement ancrées, l'ajout de légendes d'images automatiques en plus n'améliorerait pas nécessairement les performances du modèle. Nous utilisons plutôt les légendes pour comparer explicitement les méthodes d’alignement visuel précoces et tardives.


Figure 3 : Comparaison entre le résumé de l'intrigue généré par LSS et le résumé de la vérité terrain de Wikipédia. Ici, nous montrons uniquement les deux premiers paragraphes de l’intrigue entière en raison de la limite d’espace.


Enfin, nous vérifions si CLIPCheck exploite le biais de l'ensemble de données plutôt que de comprendre le contexte visuel. Pour cela, nous concevons une variante de CLIPCheck avec un contexte visuel aléatoire (CLIPCheck-Shuffle). CLIPCheck-Shuffle ne s'améliore pas par rapport à LSS sans CLIPCheck, niant l'hypothèse de biais.

3.3. Étude sur l'ablation

Le résumé et la recherche sont-ils tous deux importants pour la compréhension narrative ? Ici, nous évaluons les variantes LSS avec un contexte complet sans recherche narrative (LSS-Full) ou avec le résumé de l'intrigue et le segment aléatoire comme entrées (LSS-Random). Le tableau 4 montre que LSS-Full et LSS-Random sont tous deux derrière LSS-Search, ce qui indique l'importance de la récupération. Notez que nous n'avons pas pu utiliser le contexte complet dans LSS-Full en raison de la limitation de longueur du jeton. Au lieu de cela, nous utilisons le préfixe le plus long du contexte complet accepté par GPT3 (4 000 jetons moins la longueur de l'instruction).


Figure 4 : Exemples de processus d’assurance qualité dans LSS. Le conditionnement sur l’intrigue recherchée a un impact substantiel sur la distribution de probabilité de réponse du modèle linguistique.

3.4. Résultats qualitatifs

La figure 3 montre le résumé automatique du tracé généré en tant que contexte intermédiaire du contrôle qualité de la vidéo longue à l'aide du modèle de langage dans le cadre LSS. Comme le montre l'échantillon qualitatif, les tracés générés s'alignent bien avec les tracés écrits par des humains sur Wikipédia. Par exemple, dans la première scène du film "Harry Potter et les reliques de la mort", le résumé de LSS écrit correctement qu'Harry Potter a actuellement 17 ans et est l'événement principal dans lequel les mangemorts attaquent le protagoniste.


La figure 4 illustre le lien entre l'élément d'intrigue recherché et la probabilité de réponse. Dans l'exemple de gauche, le résumé récupéré indique que Trench a commis un crime et est donc en fuite, suggérant qu'un autre personnage intéressé par lui le poursuivrait. Le modèle de langage comprend ce contexte pour modifier correctement la probabilité de réponse. Dans le bon exemple, l'intrigue LSS suggère qu'Edward est confiant dans sa décision. Bien que ce contexte n’offre pas d’indice direct à la question, le modèle linguistique le considère comme une information suffisamment forte pour modifier la réponse.