Auteurs:
(1) Zhihang Ren, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;
(2) Jefferson Ortega, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;
(3) Yifan Wang, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;
(4) Zhimin Chen, Université de Californie, Berkeley (E-mail : [email protected]) ;
(5) Yunhui Guo, Université du Texas à Dallas (E-mail : [email protected]) ;
(6) Stella X. Yu, Université de Californie, Berkeley et Université du Michigan, Ann Arbor (E-mail : [email protected]) ;
(7) David Whitney, Université de Californie, Berkeley (E-mail : [email protected]).
Récemment, plusieurs ensembles de données ont fourni des images contenant à la fois des informations faciales et contextuelles, comme CAER [33] et EMOTIC [32]. CAER [33] est un ensemble de données vidéo qui contient des étiquettes catégorielles de chaque image vidéo, et EMOTIC [32] est un ensemble de données basé sur des images contenant à la fois des étiquettes d'expression catégorielles et des évaluations continues de valence-excitation-dominance. Contrairement à ces ensembles de données, notre ensemble de données est basé sur la vidéo et contient des évaluations continues de la valence et de l'éveil. Une comparaison détaillée entre notre ensemble de données avec les ensembles de données précédents peut être trouvée dans le tableau 1.
Sur la base de divers ensembles de données sur les émotions, des études ont commencé à se concentrer sur la manière de déduire automatiquement les émotions. L'affect humain peut être déduit de nombreuses modalités, telles que l'audio [70, 68, 65], le visuel [40, 54, 55, 37] et le texte [68, 22]. Pour les entrées visuelles, en particulier, il existe trois tâches principales.
La tâche d'estimation de valence-éveil vise à prédire la valence et l'éveil de chaque image/image [71, 69, 29, 30] ; la tâche de reconnaissance d'expression se concentre sur la classification des catégories émotionnelles de chaque image/image [66, 57, 67] ; et la tâche de détection d'unité d'action (AU) vise à détecter les actions des muscles faciaux à partir des visages de chaque image/image [25, 56, 35, 64]. Actuellement, la plupart des méthodes proposées s’appuient fortement sur la zone du visage pour déduire l’état émotionnel. En effet, la zone du visage contient de riches informations sur l’état émotionnel humain. Cependant, les facteurs contextuels fournissent également des informations essentielles nécessaires aux humains pour déduire et percevoir correctement les états émotionnels des autres [8, 9, 10]. Plusieurs études [33, 32, 40] ont commencé à intégrer les informations contextuelles comme source d'inférence affective. Dans cette étude, nous avons également adopté des informations faciales et contextuelles pour accomplir la nouvelle tâche, c'est-à-dire déduire la valence et l'excitation pour chaque image vidéo.
Pour déduire l'affect d'une personne, nous devons généralement traiter des informations temporelles provenant de segments audio, d'images vidéo ou de mots. De nombreuses études [68, 69, 29, 30] ont commencé à utiliser la mémoire à long terme (LSTM) [23], l'unité récurrente fermée (GRU) [11] ou le réseau neuronal récurrent (RNN) [24, 50] pour traiter le informations temporelles. Avec l’émergence du transformateur visuel (ViT) [14], l’attention a été déplacée. De nombreuses tâches de compréhension vidéo [19, 1, 36] ont utilisé ViT pour comprendre les informations temporelles et atteindre des performances de pointe. Notre méthode de base a également adopté ViT comme outil pour traiter les informations temporelles dans les clips vidéo.
Cet article est disponible sur arxiv sous licence CC 4.0.