paint-brush
Profilage multiniveau de la situation et des réseaux profonds basés sur le dialogue : conclusion et référencespar@kinetograph

Profilage multiniveau de la situation et des réseaux profonds basés sur le dialogue : conclusion et références

Trop long; Pour lire

Dans cet article, les chercheurs proposent un cadre multimodal pour la classification des genres de films, utilisant des fonctionnalités de situation, de dialogue et de métadonnées.
featured image - Profilage multiniveau de la situation et des réseaux profonds basés sur le dialogue : conclusion et références
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Auteurs:

(1) Dinesh Kumar Vishwakarma, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde ;

(2) Mayank Jindal, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde

(3) Ayush Mittal, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde

(4) Aditya Sharma, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde.

Tableau des liens

6. Conclusion

Ce travail étend l'idée d'une nouvelle approche holistique du problème de classification des genres cinématographiques qui inclut les niveaux affectifs et cognitifs en considérant de multiples modalités, notamment la situation à partir du cadre, les dialogues à partir de la parole et les métadonnées (intrigue et description du film). Nous avons également construit un ensemble de données EMTD sur les bandes-annonces de films hollywoodiens anglais qui comprend environ 2000 bandes-annonces de 5 genres, à savoir l'action, la comédie, l'horreur, la romance et la science-fiction, pour poursuivre cette étude. Nous avons expérimenté diverses architectures de modèles comme indiqué dans la section 5.2 et avons également validé notre cadre final sur EMTD et sur la norme LMTD-9 [2] qui atteint des valeurs AU (PRC) de 0,92 et 0,82 respectivement. L'objectif principal de notre étude est de construire un cadre robuste pour classer un genre de film à partir de son court clip, c'est-à-dire la bande-annonce. Bien que notre étude inclut la parole en anglais comme fonctionnalité, elle peut également être appliquée à certaines bandes-annonces non anglaises. Pour les modèles non anglais, notre modèle peut intégrer uniquement les fonctionnalités vidéo, donc sur cette base, des prédictions peuvent être faites par notre architecture.


Pour étendre le modèle proposé, des études audio de fond basées sur le chant peuvent également être incorporées. Par conséquent, à l’avenir, nous prévoyons de créer un cadre prenant en compte les voix de fond dans l’audio avec notre cadre actuel pour mieux extraire et utiliser la plupart des fonctionnalités des bandes-annonces de films. Nous prévoyons également d'ajouter d'autres genres à notre étude pour une classification multi-labels.

7. Références

[1] A. Hanjalic et LQ Xu, « Représentation et modélisation de contenu vidéo affectif », IEEE Trans. Multiméd., vol. 7, non. 1, 2005.


[2] J. Wehrmann et RC Barros, « Convolutions through time for multi-label movie genre classification », dans Actes du Symposium ACM sur l'informatique appliquée, 2017, vol. Partie F1280, pages 114 à 119.


[3] Z. Rasheed, Y. Sheikh et M. Shah, « Sur l'utilisation de fonctionnalités calculables pour la classification des films », IEEE Trans. Système de circuits. Technologie vidéo., vol. 15, non. 1, pp. 52-64, janvier 2005.


[4] LH Chen, YC Lai et HY Mark Liao, « Segmentation de scènes de film à l'aide d'informations d'arrière-plan », Pattern Recognit., vol. 41, non. 3, 2008.


[5] SK Jain et RS Jadon, « Classificateur de genres de films utilisant un réseau neuronal », 2009.


[6] L. Canini, S. Benini et R. Leonardi, « Recommandation affective de films basée sur des caractéristiques connotatives sélectionnées », IEEE Trans. Système de circuits. Technologie vidéo., vol. 23, non. 4, 2013.


[7] M. Xu, C. Xu, X. He, JS Jin, S. Luo et Y. Rui, « Analyse hiérarchique du contenu affectif dans les dimensions d'éveil et de valence », Traitement du signal, vol. 93, non. 8, 2013.


[8] A. Yadav et DK Vishwakarma, « Un cadre unifié de réseaux profonds pour la classification des genres à l'aide de bandes-annonces de films », Appl. Informatique douce. J., vol. 96, 2020.


[9] K. Choroś, « Classification des genres vidéo basée sur l'analyse de la longueur de plans vidéo agrégés temporellement », dans Lecture Notes in Computer Science (y compris la sous-série Lecture Notes in Artificial Intelligence et Lecture Notes in Bioinformatics), 2018, vol. 11056 LNAI, p. 509-518.


[10] AM Ertugrul et P. Karagoz, « Classification des genres de films à partir de résumés de parcelles utilisant le LSTM bidirectionnel », dans Actes - 12e Conférence internationale de l'IEEE sur l'informatique sémantique, ICSC 2018, 2018, vol. 2018-janvier.


[11] G. Païs, P. Lambert, D. Beauchêne, F. Deloule et B. Ionescu, « Détection de genre de film d'animation par fusion symbolique de descripteurs de texte et d'image », 2012.


[12] A. Shahin et A. Krzyżak, « Genre-ous : The Movie Genre Detector », dans Communications in Computer and Information Science, 2020, vol. 1178 CCIS.


[13] N. Kumar, A. Harikrishnan et R. Sridhar, « Identification du genre de film basé sur un vecteur de hachage », dans Notes de cours en génie électrique, 2020, vol. 605.


[14] PG Shambharkar, P. Thakur, S. Imadoddin, S. Chauhan et MN Doja, « Classification par genre des bandes-annonces de films utilisant des réseaux de neurones convolutifs 3D », 2020.


[15] WT Chu et HJ Guo, « Classification des genres de films basée sur des images d'affiches avec des réseaux de neurones profonds », 2017.


[16] GS Simões, J. Wehrmann, RC Barros et DD Ruiz, « Classification des genres de films avec les réseaux de neurones convolutifs », dans Actes de la Conférence internationale conjointe sur les réseaux de neurones, 2016, vol. 2016-octobre.


[17] J. Li, L. Deng, R. Haeb-Umbach et Y. Gong, « Chapitre 2 - Fondamentaux de la reconnaissance vocale », dans Robust Automatic Speech Recognition, J. Li, L. Deng, R. HaebUmbach, et Y. Gong, éd. Oxford : Academic Press, 2016, p.


[18] S. Pratt, M. Yatskar, L. Weihs, A. Farhadi et A. Kembhavi, « Grounded Situation Recognition », dans Computer Vision -- ECCV 2020, 2020, pp.


[19] B. Beel, Joeran et Langer, Stefan et Gipp, « TF-IDuF : un nouveau système de pondération des termes pour la modélisation des utilisateurs basée sur les collections de documents personnels des utilisateurs », Proc. iConférence 2017, 2017.


[20] J. Wehrmann, RC Barros, GS Simoes, TS Paula et DD Ruiz, « (Deep) Learning from Frames », 2017.


[21] DP Kingma et JL Ba, « Adam : Une méthode d'optimisation stochastique », 2015.


[22] E. Fish, A. Gilbert et J. Weinbren, « Repenser la classification des genres de films avec un regroupement sémantique à grain fin », arXiv Prepr. arXiv2012.02639, 2020.


[23] F. Álvarez, F. Sánchez, G. Hernández-Peñaloza, D. Jiménez, JM Menéndez et G. Cisneros, « Sur l'influence des caractéristiques visuelles de bas niveau dans la classification des films », PLoS One, vol. 14, non. 2, 2019.


[24] J. Wehrmann, MA Lopes et RC Barros, « Auto-attention pour la classification des genres de films multilabel basée sur un synopsis », 2018.


[25] J. Wehrmann et RC Barros, « Classification des genres cinématographiques : une approche multi-étiquettes basée sur des convolutions dans le temps », Appl. Informatique douce. J., vol. 61, 2017.


Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.