paint-brush
Profilage multiniveau des réseaux profonds basés sur la situation et le dialogue : méthodologie proposéepar@kinetograph
102 lectures

Profilage multiniveau des réseaux profonds basés sur la situation et le dialogue : méthodologie proposée

Trop long; Pour lire

Dans cet article, les chercheurs proposent un cadre multimodal pour la classification des genres de films, utilisant des fonctionnalités de situation, de dialogue et de métadonnées.
featured image - Profilage multiniveau des réseaux profonds basés sur la situation et le dialogue : méthodologie proposée
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Auteurs:

(1) Dinesh Kumar Vishwakarma, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde ;

(2) Mayank Jindal, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde

(3) Ayush Mittal, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde

(4) Aditya Sharma, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde.

Tableau des liens

4. Méthodologie proposée

4.1. Descriptions

L'intrigue/les descriptions du film sont une caractéristique importante pour décrire un film. Dans la plupart des cas, l'intrigue mentionnée pour un film en cours de sortie est soit trop courte, soit non mentionnée dans certains cas. Compte tenu de cela, nous choisissons d'utiliser les descriptions concaténées avec les dialogues extraits des bandes-annonces de films pour finalement prédire le genre du film, comme discuté en détail dans la section 4.2. Les descriptions sont extraites du site Web IMDB sous forme de métadonnées, comme déjà mentionné dans la section 3.


Fig. 1 : Pipeline du framework

4.2. Dialogue

Dans cette section, nous proposons une architecture pour traiter une liste de dialogues à partir de l'audio de la bande-annonce (description/intrigue concaténée aux dialogues) afin de prédire les genres de films. Les étapes importantes de ce flux comprennent : (1) Extraire la parole (dialogue) de la bande-annonce du film et (2) Concevoir un modèle pour prédire les genres sur la base de la parole et des métadonnées.

4.2.1. Prétraitement des données

Les fichiers audio au format (.wav) sont extraits des bandes-annonces vidéo (.mp4). Ensuite, le fichier audio est divisé en petits clips audio et converti en dialogues comme proposé dans [17]. L’ensemble du texte est collecté pour former un corpus d’entrée. La description/l'intrigue (si disponible dans les métadonnées) est également fusionnée avec ce corpus. Notre étude cible uniquement les bandes-annonces en langue anglaise. Tout comme les intrigues de films, le discours extrait des bandes-annonces peut fonctionner comme un complément à notre corpus textuel, ce qui peut aider à mieux comprendre la relation entre le contexte textuel et le genre du film. Après avoir généré le corpus composé d'un seul enregistrement pour chaque bande-annonce lors de notre phase de formation/test, les étapes de prétraitement suivantes ont été effectuées : conversion de tout le texte en minuscules, élimination des chiffres, des ponctuations, des mots vides et des liens Web. Le texte obtenu ci-dessus est utilisé comme entrée dans le modèle/modèle pré-entraîné pour la formation/les tests.


Tableau 2 : Abréviations avec leur signification

4.2.2. Extraction de fonctionnalités (boîte de dialogue)


4.2.3. ECnet (Embedding – Réseau de convolution)

Pour construire une architecture de détection de genre basée sur la cognition, les caractéristiques cruciales de la bande-annonce sous la forme d'un corpus de texte doivent être apprises par un modèle. Ceci peut être réalisé en utilisant une combinaison de couches Embedding et CNN (Convolution Neural Network). Les couches du réseau de classification multi-étiquettes sont décrites dans le tableau 3. L'intégration est l'une des techniques populaires utilisées dans les problèmes de PNL pour convertir des mots en représentation mathématique sous la forme de vecteurs numériques.


Figure 2 : Architecture ECnet


Avant d'envoyer réellement des données à l'architecture, le vocabulaire doit être conçu et la taille d'un corpus pour chaque point de données doit être fixée. Un vocabulaire de 10 395 mots est conçu et la longueur maximale du nombre de mots dans chaque corpus est fixée à la longueur de la phrase la plus longue de notre corpus de formation, qui est de 330 dans notre cas. Si le nombre de mots dans un corpus est inférieur à la longueur maximale, le corpus est complété par des 0. Pour une bande-annonce de film de 2 à 3 minutes, 330 mots s'avèrent suffisants car dans certaines parties de la bande-annonce, il peut n'y avoir aucun discours (seules les voix peuvent être présentes).


Maintenant, pour chaque corpus dans les données d'entrée, nous avons une entrée de forme (330,) (330 est le nombre de mots dans chaque point de données), qui est transmise à la première couche de notre architecture comme sur la figure 2, c'est-à-dire , intégration de la couche. La couche d'intégration donne une sortie de dimension (330, 64,) car la longueur d'intégration pour chaque mot est considérée comme étant de 64 dans notre architecture proposée.


Tableau 3 : Paramètres de l'architecture ECnet


Après la couche d'intégration, une couche de convolution 1D est alimentée avec la sortie de la couche d'intégration. Encore une fois, la couche de convolution donne une forme de sortie de (330, 64,). Pour obtenir le même résultat, nous appliquons le remplissage uniformément à l’entrée de la couche de convolution. Ensuite, une couche de pooling maximum est utilisée pour réduire la dimension des données de (330, 64,) à (165, 64,). L'architecture est suivie d'une couche aplatie pour transformer les données bidimensionnelles en données unidimensionnelles, afin d'envoyer ensuite la sortie vers une couche dense.


Comme le montre le tableau 3, la couche aplatie donne une sortie de forme (10560,) qui est transmise à une couche dense en entrée et donne une forme de sortie de (32,). Enfin, la couche dense finale est appliquée à l'architecture renvoyant la forme de sortie de (5,) désignant nos cinq genres. Dans la couche dense finale de notre architecture, nous utilisons « sigmoïde » comme fonction d'activation la mieux adaptée à notre problème de classification multi-étiquettes.

4.3. Situation

Cette section comprend le travail que nous avons proposé sur les éléments visuels des bandes-annonces de films. Les principales étapes de ce flux comprennent : (1) récupérer les images vidéo de la bande-annonce, (2) extraire les situations des images et (3) créer une architecture pour enfin classer les bandes-annonces par genres.


Un nouveau modèle d'analyse vidéo basé sur la situation est proposé en extrayant les situations et les événements en fonction de chaque image extraite de la vidéo pour des caractéristiques visuelles. Ainsi, un corpus est créé pour entraîner/tester le modèle en les rassemblant.


Au meilleur de nos connaissances, nous proposons un nouveau cadre en fusionnant l'analyse de la situation, de l'événement et du dialogue pour la classification des genres. Plus de détails sur le cadre sont décrits dans les sections ci-dessous.

4.3.1. Extraction d'images à partir d'une vidéo


Après diverses expérimentations utilisant un sous-ensemble de bandes-annonces de films, il s'avère que prendre toutes les 10𝑡ℎ l'image est bénéfique pour éviter la redondance des images (les images consécutives d'une vidéo semblent être similaires). Par conséquent, après avoir éliminé les images redondantes, les images vidéo finales considérées peuvent être exprimées sous la forme Eq. (9) :



Dans les sections suivantes, nous considérons ces cadres pour chaque remorque.

4.3.2. Extraction de fonctionnalités (situation)


Fig. 3 : Situations pour les images ci-dessus : (a) les soldats marchent en extérieur. (b) une dame hantée avec du sang sur le visage debout le long d'un arbre (c) des gens fêtent leur anniversaire dans une pièce. (d) un homme sprinte sur un hippodrome



Et la probabilité que la situation S appartienne à une image I peut être notée comme dans l'équation. (11).




𝛼 désigne le paramètre de notre neurone ; réseau. Désormais, nous pouvons définir les rôles sémantiques dans une image dans un ordre particulier. Ainsi, en outre, l'équation. (12) être réduit à l’équation. (13).



Éq. (13) peut être encore simplifié comme l’équation. (14).



Pour une image/trame particulière donnée, la situation ayant une probabilité de valeur maximale définie dans l'équation. (14) sera pris en compte pour cette image.



La tâche est maintenant convertie en une tâche de classification de texte pour laquelle nous proposons l'architecture du modèle comme indiqué dans les sections suivantes. Avant de passer à l'étape suivante, un prétraitement du texte est effectué : conversion de tout le texte en minuscules, élimination des chiffres, des ponctuations et des mots vides, comme mentionné dans la section 4.2.1. Ces mêmes étapes sont effectuées dans la procédure de test pour prédire le genre de bande-annonce de film.

4.3.3. TFAnet (réseau de neurones artificiels à fréquence terme)

Après avoir extrait les caractéristiques visuelles, une architecture robuste est nécessaire pour classer les genres finaux pour les bandes-annonces. Ce modèle est différent du modèle que nous avons proposé dans le flux de dialogue. Ici, TFAnet (Term Frequency Artificial Neural Network) est proposé, constitué d'un réseau profond de couches denses et de décrochage, comme illustré sur la figure 4.


Avant d'en venir à l'architecture proposée, nous discuterons de la représentation de texte utilisant TF-IDF dans [19]. Pour cette architecture, il est proposé d'utiliser le nombre de mots dans le corpus de chaque point de données. Par conséquent, nous utilisons le nombre de mots du corpus comme caractéristiques pour classer les genres de bandes-annonces de films. Afin d'inclure un grand nombre de mots en tant que fonctionnalités dans notre ensemble de vocabulaire, des bandes-annonces d'une large gamme de dates de sortie sont utilisées dans notre EMTD pour obtenir un énorme corpus disponible avec nous lors de la formation du modèle. Une combinaison d'unigrammes, de bigrammes et de trigrammes est utilisée à partir de notre corpus comme caractéristiques et l'algorithme TF-IDF (terme fréquence-inverse de la fréquence du document) représente notre texte sous une forme numérique. Le nombre total de fonctionnalités n-grammes prises est d’environ 34 684. Désormais, nos fonctionnalités textuelles sont transformées sous forme mathématique, donc le prochain (réseau de neurones artificiels) est formé pour classer les genres de la bande-annonce.


Tableau 4 : Paramètres de TFAnet


L'architecture de TFAnet (Term Frequency Artificial Neural Network) est décrite dans le tableau 4. La forme d'entrée, comme indiqué ci-dessus, est (34684,). Cette entrée est donnée à une couche dense, qui donne une sortie de forme (64,). Ensuite, une couche de suppression est appliquée pour réduire le surapprentissage avec un taux de 0,4. Là encore, une couche dense est appliquée, et on obtient une sortie de forme (32,), suivie d'une couche de décrochage avec un taux de 0,2. Enfin, une couche dense est appliquée, ce qui donne une sortie de forme (5,) pour finalement prédire cinq genres, avec le sigmoïde comme fonction d'activation.


Figure 4 : Architecture TFAnet


L'algorithme de la phase de formation du modèle MSD s'écrit sous le nom d'algorithme 1.


Le processus de la phase de test peut être compris avec l'algorithme 2.






Cet article est disponible sur arxiv sous licence CC BY-NC-SA 4.0 DEED.