paint-brush
Une méthode de synthèse puis de recherche pour répondre à des questions vidéo longues : conclusionpar@kinetograph
258 lectures

Une méthode de synthèse puis de recherche pour répondre à des questions vidéo longues : conclusion

Trop long; Pour lire

Dans cet article, les chercheurs explorent le contrôle qualité des vidéos sans prise de vue à l'aide de GPT-3, surpassant les modèles supervisés, en tirant parti des résumés narratifs et de la correspondance visuelle.
featured image - Une méthode de synthèse puis de recherche pour répondre à des questions vidéo longues : conclusion
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Cet article est disponible sur arxiv sous licence CC 4.0.

Auteurs:

(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ) ;

(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).

Tableau des liens

5. Conclusion

Nous avons introduit Long Story Short, une méthode de synthèse puis de recherche pour comprendre à la fois le récit global et les détails pertinents pour le contrôle qualité du récit vidéo. Notre approche est efficace lorsque le contexte d’assurance qualité est vaste et qu’une interaction de haut niveau avec un tel contexte est nécessaire pour résoudre ladite assurance qualité, ce qui est le cas dans les assurances qualité vidéo longues. Nous proposons également d'améliorer davantage le fondement visuel de la réponse générée par le modèle en vérifiant ultérieurement l'alignement visuel avec CLIPCheck. Notre méthode Zero Shot améliore les approches supervisées de pointe dans les benchmarks MovieQA et DramaQA. Nous prévoyons de rendre public le code et les données de tracé générées.


Il existe deux directions de recherche possibles au-delà de ce travail : premièrement, fournir des descriptions visuelles mieux alignées sur l'histoire avec une réidentification des personnages et une résolution de co-référence améliorant la qualité d'entrée dans GPT-3. Deuxièmement, on peut concevoir une recherche multi-sauts plus dynamique qui combine les informations globales et locales de manière hiérarchique.