Cet article est disponible sur arxiv sous licence CC 4.0.
Auteurs:
(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ) ;
(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).
Pour toutes les expériences, nous utilisons GPT-3 [1] (text-davinci-003) comme modèle de langage principal. Sauf indication contraire, nous utilisons la limite du clip de vérité terrain pour segmenter les vidéos. Toutes les variantes LSS n'utilisent aucune donnée d'entraînement et constituent donc des méthodes sans tir.
MovieQA [27] est un ensemble de données QA à grande échelle provenant de 408 films. Il existe plusieurs sources d'informations dans l'ensemble de données ; sous-titres, scripts, DVS, clips vidéo et intrigues. Nous rapportons quatre références supervisées de pointe ; A2A [20], PAMN [11], UniversalQA [10] et DHTCN [21].
Le tableau 1 montre les améliorations du LSS sans tir par rapport aux approches supervisées précédentes. En outre, Ours-search affiche de solides performances même sans l'étiquette d'index de segment de vérité terrain. CLIPCheck améliore légèrement la précision de la division vidéo. Cependant, la différence est marginale puisque MovieQA nécessite souvent une base basée sur les personnages plutôt qu'une correspondance visuelle générale. Enfin, nous expérimentons l'hypothèse nulle : No Context teste si GPT-3 résout MovieQA en mémorisant simplement chaque fait. Aucun contexte ne fonctionne moins bien que LSS, rejetant l'hypothèse nulle.
PororoQA [13] est un ensemble de données d’assurance qualité d’histoire vidéo construit à partir d’une série de dessins animés. La ligne de base supervisée prend l'intrigue générée par l'homme et l'index de segment vidéo de vérité terrain, tandis que LSS + Plot + Search ne prend ni l'un ni l'autre.
Le tableau 2 résume nos résultats sur l'ensemble de données PororoQA. Lorsqu’on utilise à la fois l’épisode de vérité terrain et les intrigues, GPT-3 fonctionne presque à égalité avec la référence supervisée. Le remplacement d'un résumé généré par un humain par un résumé généré par un modèle n'entraîne qu'une baisse marginale des performances. Curieusement peut-être, le processus de recherche fonctionne mieux lors de l’utilisation de tracés générés par un modèle. Nous attribuons ce résultat au fait que les annotations humaines ne sont pas conçues pour la discriminabilité des épisodes.
DramaQA [3] est un ensemble de données d'assurance qualité vidéo qui se concentre sur la compréhension de l'histoire. L'ensemble de données est organisé selon quatre niveaux de difficulté hiérarchique, qui suivent les étapes du développement cognitif humain. Nous évaluons LSS sur les deux niveaux élevés de DramaQA pour tester la compréhension de l'intrigue. Nous rapportons deux dernières références dans DramaQA par niveau ; CharacterAttention et Kim et al. [14].
Nous comparons l'effet de CLIPCheck et Caption, une méthode basée sur des invites pour incorporer des descriptions de trames d'images extraites de BLIP [18] comme entrées dans GPT-3. Le tableau 3 montre que CLIPCheck offre une plus grande amélioration que les descriptions d'images. De plus, même si l'ajout de légendes d'images améliore le LSS, le gain disparaît lorsqu'il est utilisé conjointement avec CLIPCheck. Nous pensons que cela est dû au fait que les légendes des images fournissent des informations similaires à CLIPCheck tout en étant beaucoup plus bruyantes. Notez que les sous-titres automatiques ici ne font pas partie intégrante de LSS. Comme DramaQA dispose déjà d'annotations visuellement ancrées, l'ajout de légendes d'images automatiques en plus n'améliorerait pas nécessairement les performances du modèle. Nous utilisons plutôt les légendes pour comparer explicitement les méthodes d’alignement visuel précoces et tardives.
Enfin, nous vérifions si CLIPCheck exploite le biais de l'ensemble de données plutôt que de comprendre le contexte visuel. Pour cela, nous concevons une variante de CLIPCheck avec un contexte visuel aléatoire (CLIPCheck-Shuffle). CLIPCheck-Shuffle ne s'améliore pas par rapport à LSS sans CLIPCheck, niant l'hypothèse de biais.
Le résumé et la recherche sont-ils tous deux importants pour la compréhension narrative ? Ici, nous évaluons les variantes LSS avec un contexte complet sans recherche narrative (LSS-Full) ou avec le résumé de l'intrigue et le segment aléatoire comme entrées (LSS-Random). Le tableau 4 montre que LSS-Full et LSS-Random sont tous deux derrière LSS-Search, ce qui indique l'importance de la récupération. Notez que nous n'avons pas pu utiliser le contexte complet dans LSS-Full en raison de la limitation de longueur du jeton. Au lieu de cela, nous utilisons le préfixe le plus long du contexte complet accepté par GPT3 (4 000 jetons moins la longueur de l'instruction).
La figure 3 montre le résumé automatique du tracé généré en tant que contexte intermédiaire du contrôle qualité de la vidéo longue à l'aide du modèle de langage dans le cadre LSS. Comme le montre l'échantillon qualitatif, les tracés générés s'alignent bien avec les tracés écrits par des humains sur Wikipédia. Par exemple, dans la première scène du film "Harry Potter et les reliques de la mort", le résumé de LSS écrit correctement qu'Harry Potter a actuellement 17 ans et est l'événement principal dans lequel les mangemorts attaquent le protagoniste.
La figure 4 illustre le lien entre l'élément d'intrigue recherché et la probabilité de réponse. Dans l'exemple de gauche, le résumé récupéré indique que Trench a commis un crime et est donc en fuite, suggérant qu'un autre personnage intéressé par lui le poursuivrait. Le modèle de langage comprend ce contexte pour modifier correctement la probabilité de réponse. Dans le bon exemple, l'intrigue LSS suggère qu'Edward est confiant dans sa décision. Bien que ce contexte n’offre pas d’indice direct à la question, le modèle linguistique le considère comme une information suffisamment forte pour modifier la réponse.