paint-brush
Profilage multiniveau des réseaux profonds basés sur la situation et le dialogue : résumé et introductionpar@kinetograph

Profilage multiniveau des réseaux profonds basés sur la situation et le dialogue : résumé et introduction

Trop long; Pour lire

Dans cet article, les chercheurs proposent un cadre multimodal pour la classification des genres de films, utilisant des fonctionnalités de situation, de dialogue et de métadonnées.
featured image - Profilage multiniveau des réseaux profonds basés sur la situation et le dialogue : résumé et introduction
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Auteurs:

(1) Dinesh Kumar Vishwakarma, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde ;

(2) Mayank Jindal, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde

(3) Ayush Mittal, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde

(4) Aditya Sharma, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde.

Tableau des liens

Abstrait

La classification automatisée des genres de films est devenue un domaine actif et essentiel de recherche et d’exploration. Les bandes-annonces de films de courte durée fournissent des informations utiles sur le film, car le contenu vidéo comprend des fonctionnalités de niveau cognitif et affectif. Les approches précédentes étaient axées sur l'analyse du contenu cognitif ou affectif. Dans cet article, nous proposons un nouveau cadre de classification des genres cinématographiques basé sur la situation, le dialogue et les métadonnées, qui prend en compte à la fois les caractéristiques cognitives et affectives. Un cadre pré-intégré basé sur la fusion qui prend en compte : des fonctionnalités basées sur la situation à partir d'un instantané régulier d'une bande-annonce qui comprend des noms et des verbes fournissant la cartographie utile basée sur l'affect avec les genres correspondants, une fonctionnalité basée sur le dialogue (parole) à partir de l'audio, des métadonnées qui, ensemble, fournissent les informations pertinentes pour l'analyse vidéo cognitive et basée sur les émotions. Nous développons également l'ensemble de données de bandes-annonces de films anglais (EMTD), qui contient 2 000 bandes-annonces de films hollywoodiens appartenant à cinq genres populaires : action, romance, comédie, horreur et science-fiction, et effectuons une validation croisée sur l'ensemble de données standard LMTD-9 pour valider. le cadre proposé. Les résultats démontrent que la méthodologie proposée pour la classification des genres de films a donné d'excellents résultats, comme le montrent les scores F1, la précision, le rappel et l'aire sous les courbes précision-rappel.


Mots clés : classification des genres de films, réseau de neurones convolutifs, ensemble de données de bandes-annonces de films en anglais, analyse de données multimodales.

1. Introduction

Les films sont une grande source de divertissement pour le public et ont un impact sur la société de nombreuses manières. L'identification manuelle du genre d'un film peut varier en fonction des goûts de chaque individu. Par conséquent, la prédiction automatisée des genres de films est un domaine actif de recherche et d’exploration. Les bandes-annonces de films deviennent une source utile pour prédire les genres du film. Ils fournissent des informations utiles sur le film dans un laps de temps très court. Les bandes-annonces de films se composent de deux types de contenu : le contenu cognitif et le contenu affectif.


Le contenu cognitif décrit la composition des événements, des objets et des personnes dans une image vidéo particulière de la bande-annonce du film, tandis que le contenu affectif décrit les types de caractéristiques psychologiques telles que les sentiments ou les émotions dans une bande-annonce du film [1]. Des exemples de contenu cognitif comprennent un terrain de jeu, un bâtiment, un homme, un chien, etc. Des exemples de contenu affectif sont des sentiments/émotions tels que le bonheur, la tristesse, la colère, etc. Le contenu cognitif et basé sur l'affect fournit des caractéristiques importantes pour prédire les genres du film.


Dans cet article, nous proposons un nouveau cadre de classification des genres de films basé sur des situations multimodales, des dialogues et des métadonnées, qui vise à prédire les genres de films à l'aide du contenu vidéo, audio et des métadonnées (intrigue/description) des bandes-annonces de films. Notre nouveau cadre se concentre sur l’extraction des caractéristiques cognitives et affectives de la bande-annonce du film. Pour y parvenir, une phrase (générée à partir de situations) composée de noms et de verbes pertinents est extraite de l'image vidéo. Les noms fournissent des informations pertinentes sur le contenu cognitif des bandes-annonces, et les verbes fournissent une cartographie utile basée sur l'affect avec les genres correspondants. Par exemple, les verbes tels que rire, rire, chatouiller, etc. fournissent une cartographie basée sur l'affect avec le genre « comédie ». Les verbes tels qu'attaquer, battre, frapper, etc. fournissent une cartographie basée sur l'affect avec le genre « action ». Outre les situations, les fonctionnalités basées sur le dialogue et les métadonnées contribuent également au contenu cognitif et affectif car elles incluent des descriptions d'événements (contenu cognitif) et des caractéristiques psychologiques (contenu affectif).


Tout comme le processus standard d’apprentissage automatique, le travail s’effectue en plusieurs phases. La 1ère phase est la phase de génération de l'ensemble de données, où nous générons l'EMTD, qui contient 2000 bandes-annonces de films hollywoodiens appartenant à 5 genres populaires : action, romance, comédie, horreur et science-fiction. La deuxième phase implique le prétraitement des bandes-annonces vidéo où toutes les images répétées sont supprimées et redimensionnées. Les phrases contenant des noms et des verbes importants sont extraites des cadres utiles. Nous préparons également les transcriptions audio des bandes-annonces de films pour obtenir les dialogues des bandes-annonces. Dans la 3ème phase, nous concevons et formons l'architecture proposée, qui extrait et apprend les fonctionnalités importantes des bandes-annonces. Enfin, dans la 4ème phase, les performances de notre architecture proposée sont évaluées à l'aide de la métrique Area under the PrecisionRecall Curve (AU (PRC)). Voici les contributions significatives de notre travail :


  • Nous proposons un roman EMTD (English Movie Trailer Dataset) contenant des bandes-annonces de films hollywoodiens de langue anglaise appartenant à cinq genres populaires et distincts : action, romance, comédie, horreur et science-fiction.


  • Ce travail propose une nouvelle approche pour prédire les genres cinématographiques en utilisant des caractéristiques cognitives et affectives. Autant que nous sachions, aucune littérature précédente ne s'est concentrée sur une combinaison de caractéristiques basées sur le dialogue, la situation et les métadonnées extraites des bandes-annonces des films. Par conséquent, nous effectuons : une analyse basée sur la situation utilisant des noms et des verbes, une analyse basée sur le dialogue utilisant la reconnaissance vocale et une analyse basée sur des métadonnées avec des métadonnées disponibles avec les bandes-annonces.


  • L'architecture proposée est également évaluée en effectuant des tests multi-ensembles de données sur l'ensemble de données standard LMTD-9 [2]. Les résultats montrent que l'architecture proposée a d'excellentes performances et démontre les performances supérieures du framework.


La partie restante de l'article est organisée comme suit : Dans la section 2, la littérature passée sur la classification des genres cinématographiques est passée en revue et la motivation derrière le travail proposé est mise en évidence. Dans la section 3, nous discutons de l’EMTD proposé. Dans la section 4, nous fournissons une description détaillée de l’architecture proposée. Dans la section 5, nous évaluons les performances du cadre proposé et le validons par rapport à deux ensembles de données différents. Le document est conclu dans la section 6.


Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.