115 lectures

Profilage multiniveau de réseaux profonds basés sur la situation et le dialogue : expériences

par Kinetograph: The Video Editing Technology Publication5m2024/05/28

Trop long; Pour lire

Dans cet article, les chercheurs proposent un cadre multimodal pour la classification des genres de films, utilisant des fonctionnalités de situation, de dialogue et de métadonnées.

featured image - Profilage multiniveau de réseaux profonds basés sur la situation et le dialogue : expériences

Auteurs:

(1) Dinesh Kumar Vishwakarma, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde ;

(2) Mayank Jindal, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde

(3) Ayush Mittal, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde

(4) Aditya Sharma, Laboratoire de recherche biométrique, Département des technologies de l'information, Université technologique de Delhi, Delhi, Inde.

Tableau des liens

5. Expériences

Dans cette partie, nous examinerons diverses architectures de modèles sur différentes modalités et modèles fusionnés avec pré-fonctionnalités. Plus tard, nous vérifions notre travail en le validant sur l'ensemble de données standard LMTD-9 ainsi que sur notre ensemble de données proposé. Enfin, une étude comparative est discutée pour explorer la robustesse de notre modèle. Toutes les expériences sont réalisées sur des postes de travail GPU avec 128 Go de RAM DDR4 et une configuration GPU Nvidia Titan RTX (24 Go).

5.1. Ensembles de données

Pour vérifier notre cadre, nous utilisons notre ensemble de données proposé et l'ensemble de données standard LMTD-9 [2]. Des détails complets sont mentionnés comme suit :

5.1.1. Ensemble de données de bandes-annonces de films en anglais (EMTD)

EMTD : L'ensemble de données que nous proposons contient un ensemble de formation distinct de 1 700 bandes-annonces uniques et un ensemble de validation de 300 bandes-annonces uniques, toutes tirées de l'IMDB, comme mentionné dans la section 3.

5.1.2. Ensemble de données de bande-annonce de film étiquetée (LMTD-9)

LMTD [16], [20] est un ensemble de données de bandes-annonces de films multi-étiquettes à grande échelle comprenant un lien de bande-annonce, des métadonnées de bande-annonce, une intrigue/un résumé, un identifiant de bande-annonce unique composé d'environ 9 000 bandes-annonces de films appartenant à 22 étiquettes/genres distincts. À des fins de vérification, un ensemble de validation (sous-partie) de LMTD-9 [2] est utilisé et inclut uniquement les bandes-annonces hollywoodiennes sorties après 1980 et les bandes-annonces spécifiques à notre liste de genres. L'ensemble de données contient des bandes-annonces de différentes longueurs avec différentes qualités vidéo et formats d'image.

5.2. Résultats de classification sur différents modèles

Dans cette section, nous discuterons de nos expériences avec différentes variantes de framework. Nous avons expérimenté 3 frameworks différents basés sur des modalités distinctes et des fonctionnalités pré-fusionnées.

MS (Analyse des images vidéo) : modèle prenant en compte les seules fonctionnalités basées sur la situation des images vidéo.
MD (Dialogues-metadata Analysis) : Modèle considérant les dialogues à partir de l'audio et les descriptions à partir de métadonnées comme des fonctionnalités.
MSD (analyse multi-modalité) : modèle considérant les caractéristiques basées sur la situation à partir d'images vidéo, les dialogues à partir d'audio et les descriptions à partir de métadonnées comme caractéristiques.

L'architecture proposée à la section 4.2.3 avec des fonctionnalités pré-fusionnées est utilisée pour MSD. Cependant, le corpus d’entrée est légèrement modifié. Le corpus défini à la section 4.4 est utilisé pour MSD. La précision, le rappel et le score F1 pour MSD sur LMTD-9 et EMTD sont décrits dans le tableau 5. Cependant, la comparaison AU (PRC) de MSD avec MS et MD est discutée dans la section suivante.

Certaines variations peuvent être observées entre les performances des différents genres. La plupart des bandes-annonces appartenant aux genres majeurs sont classées avec précision (avec un score F1 de 0,84 et plus), ce qui montre que le modèle proposé fonctionne bien. Le genre d'action était le genre le plus performant parmi cinq avec un score F1 de 0,88 et 0,89 sur EMTD et LMTD-9 respectivement. Le genre romantique était considéré comme le genre le moins performant parmi tous les genres en termes de score F1. On observe que de nombreuses bandes-annonces de genres romantiques sont classées à tort dans la comédie, car ces deux genres sont dominés par des mots similaires comme heureux, sourire, rire, etc.

5.3. Comparaison de l'UA (RPC)

L'AU (PRC), c'est-à-dire l'aire sous la courbe précision-rappel, est calculée pour comparer nos résultats de classification, car nous traitons du problème de classification multi-étiquettes. La mesure AU (PRC) permet de comparer les performances réelles de notre modèle, en compensant l'effet de bruit dû au déséquilibre de classe dans l'ensemble de données multi-étiquettes. Les courbes AU (PRC) sont créées pour les 3 modèles sur les deux ensembles de données, comme illustré sur les figures 5, 6 et 7. Sur l'ensemble de validation de l'EMTD, nous avons trouvé des valeurs AU (PRC) presque similaires à 92 %, 91 % et 88 % sous MSD, MD et MS, respectivement. Cependant, nous avons constaté que notre MSD donne les valeurs de 82 % AU (PRC) sur l'ensemble de données LMTD9, ce qui est supérieur aux deux autres modèles, c'est-à-dire 72 % et 80 % AU (PRC) de MD et MS respectivement, comme dans le tableau 6.

Cependant, pour une comparaison globale avec d'autres modèles que nous avons expérimentés dans notre étude, nous mentionnons leurs résultats dans le tableau 6. Pour choisir la meilleure architecture, les modèles sont comparés en termes d'AU (PRC) sur les deux ensembles de données de validation. La mise en œuvre de Features Model Dataset EMTD LMTD-9 Dialogue (MD) E-Bi LSTM 0,87 0,66 ECnet 0,91 0,72 Situation (MS) ECnet 0,86 0,75 TFAnet 0,88 0,80 Fused Features (MSD) ECnet 0,92 0,82 tous les modèles mentionnés nous aident à décider du meilleur modèle pour les fonctionnalités fusionnées. Bien que MD ait des valeurs AU (PRC) comparables à celles de MSD sur EMTD mais sur LMTD-9, MSD a surperformé MD. Il en va de même avec MS sur LMTD-9. Alors que MSD a bien fonctionné simultanément sur les deux ensembles de données, ce qui n'est pas vrai dans le cas de MS et MD individuellement. Ainsi, grâce à la validation croisée des ensembles de données, MSD s'avère être plus robuste. Nous concluons que le MSD proposé est le modèle le plus performant.

5.4. Comparaison de base

Dans cette section, nous validons les performances de notre modèle proposé en effectuant une comparaison de l'état de l'art avec les approches précédentes de classification des genres de films en utilisant la métrique AU (PRC) pour chaque genre séparément, comme illustré dans le tableau 7. Tous les résultats mentionnés dans le tableau 7 sont affichés jusqu'à deux décimales et sont basés sur l'ensemble de données standard LMTD-9, à l'exception de Fish et. Al. [22], dont les résultats sont basés sur l'ensemble de données MMX trailer-20. Le genre romanesque n’est pas pris en compte dans son étude. Cependant, pour les autres genres, la différence entre les valeurs AU (PRC) de Fish et. al [22] et MSD méritent d'être notés. MSD le surpasse de 20 % en moyenne. La classification basée sur les caractéristiques visuelles de bas niveau [23] est basée sur 24 caractéristiques visuelles de bas niveau, SAS-MC-v2 [24] utilise uniquement le synopsis pour la classification des remorques, Fish et. Al. [22] et CTT-MMC-TN [25] sont basés sur des fonctionnalités de haut niveau. En comparaison avec les approches utilisant des fonctionnalités de bas niveau [23], [24], MSD surclasse en moyenne de 10 %, et en comparant les approches utilisant des fonctionnalités de haut niveau [22], [25], il surclasse de 8 % en moyenne. pour chaque genre. On observe également que le genre de comédie fonctionne bien dans la plupart des œuvres par rapport aux quatre autres genres, tandis que la science-fiction a des valeurs AU (PRC) relativement inférieures. Cela pourrait être dû à l’absence de distinction appropriée dans le genre de science-fiction, car ses caractéristiques se chevauchent avec d’autres genres similaires (comme l’action).

L'étude comparative démontre que le modèle proposé est robuste car il surpasse les approches existantes et donne d'excellents résultats. Les meilleures performances sont dues à la raison pour laquelle l'architecture proposée inclut à la fois des caractéristiques cognitives et affectives, aidant le modèle à apprendre les caractéristiques substantielles de chaque genre, prédisant ainsi les genres plus précisément.