Auteurs:
(1) Dinesh Kumar Vishwakarma, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde ;
(2) Mayank Jindal, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde
(3) Ayush Mittal, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde
(4) Aditya Sharma, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde.
Cette section discute des méthodologies passées de classification des genres cinématographiques et des motivations derrière notre étude. Le contenu vidéo est principalement divisé en (1) images vidéo (images) et (2) audio (parole {dialogues} + non-parole {voix}). Pour analyser le contenu vidéo, diverses études ont été réalisées dans le passé, se concentrant principalement sur les niveaux cognitifs [3]–[7] ou affectifs [8] individuellement. Pour une étude plus efficace, les deux niveaux doivent être pris en compte pour obtenir de meilleurs résultats dans une tâche de classification des genres.
Dans les études précédentes, de nombreuses approches basées sur la cognition ont été proposées sur la base de caractéristiques de bas niveau, notamment les perturbations visuelles, la durée moyenne des plans, le changement progressif de l'intensité lumineuse dans les images vidéo et les pics de la forme d'onde audio [3], pour capturer les composants de la scène. [4]. D'autres fonctionnalités utilisées pour la classification cognitive incluent les couleurs RVB dans les images [6], les plans de film [7], la durée du plan [9], le type d'arrière-plan dans les scènes (sombre/non sombre) [6], etc. De même, certaines approches sont proposé uniquement pour l’analyse affective [8].
Un film peut avoir plusieurs genres décrivant de nombreuses informations aux téléspectateurs et servir ainsi également de tâche pour recommander un film à un spectateur. Jain et coll. [5] ont utilisé 4 fonctionnalités vidéo (longueur du plan, mouvement, dominance des couleurs, clé d'éclairage) et 5 fonctionnalités audio pour classer les clips vidéo en utilisant seulement 200 échantillons d'entraînement. Ils ont utilisé des extraits de films complets pour prédire les genres. Cependant, l'étude n'utilise que 200 échantillons d'entraînement pour entraîner leur modèle. En conséquence, la précision rapportée par eux pourrait être due à un surajustement. En outre, l’étude s’est concentrée uniquement sur la classification en une seule étiquette. Huang et coll. [4] ont proposé l'algorithme de recherche d'harmonie auto-adaptative avec 7 SVM empilés qui utilisaient à la fois des fonctionnalités audio et visuelles (environ 277 fonctionnalités au total) sur un ensemble de données de 223 tailles. Ertugrul et coll. [10] ont utilisé des fonctionnalités de bas niveau, y compris l'intrigue du film, en divisant l'intrigue en phrases et en classant les phrases en genres et en prenant le genre final comme étant celui avec une occurrence maximale. Pais et coll. [11] ont proposé de fusionner les caractéristiques image-texte en s'appuyant sur certains mots importants du synopsis global et en effectuant une classification des genres de films basée sur ces caractéristiques. Le modèle a été testé sur un ensemble de 107 bandes-annonces de films. Shahin et coll. [12] ont utilisé des intrigues et des citations de films et ont proposé des réseaux d'attention hiérarchiques pour classer les genres. De même, Kumar et al. [13] ont proposé d'utiliser des intrigues de films pour classer les genres en utilisant la vectorisation de hachage en se concentrant sur la réduction de la complexité temporelle globale. Les études mentionnées ci-dessus s'appuient sur des fonctionnalités de bas niveau et ne capturent aucune fonctionnalité de haut niveau des bandes-annonces de films, elles ne peuvent donc pas être fiables pour un système de reconnaissance de bon niveau.
D’après des études plus récentes, de nombreux chercheurs ont utilisé des réseaux profonds pour des tâches de classification des genres cinématographiques. Shambharkar et coll. [14] ont proposé une architecture basée sur CNN 3D à étiquette unique pour saisir les caractéristiques spatiales et temporelles. Bien que les caractéristiques spatiales et temporelles soient capturées, le modèle n'est pas robuste en raison de la classification en une seule étiquette. Certains chercheurs ont travaillé sur des affiches de films pour classer les genres de films. Chu et coll. [15] ont formulé un réseau neuronal profond pour faciliter la détection d'objets et les apparences visuelles. Bien que le travail ait capturé beaucoup d’informations à partir des affiches, l’affiche elle-même ne suffit pas à décrire complètement un film. Simoës et coll. [16] ont proposé un CNN-Motion qui incluait des histogrammes de scène fournis par l'algorithme de clustering non supervisé, des prédictions de genre pondérées pour chaque bande-annonce, ainsi que certaines fonctionnalités vidéo de bas niveau. Cela fournissait un groupe majeur de fonctionnalités d'une vidéo, mais il manquait certaines fonctionnalités affectives et cognitives pour classer le genre.
Ainsi, d'après la littérature antérieure, il est évident que des informations majeures devraient être extraites des bandes-annonces vidéo pour une étude cognitive et affective. Ainsi, notre motivation derrière ce travail est de concevoir une approche s'appuyant sur les deux niveaux d'analyse du contenu vidéo comme dans [1]. Nous pensons que l'architecture et le modèle proposés sont nouveaux et robustes et peuvent être utilisés à l'avenir pour diverses perspectives de recherche.
Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.