Auteurs:  (1) Zhihang Ren, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : peter.zhren@berkeley.edu) ;  (2) Jefferson Ortega, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : jefferson_ortega@berkeley.edu) ;  (3) Yifan Wang, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : wyf020803@berkeley.edu) ;  (4) Zhimin Chen, Université de Californie, Berkeley (E-mail : zhimin@berkeley.edu) ;  (5) Yunhui Guo, Université du Texas à Dallas (E-mail : yunhui.guo@utdallas.edu) ;  (6) Stella X. Yu, Université de Californie, Berkeley et Université du Michigan, Ann Arbor (E-mail : stellayu@umich.edu) ;  (7) David Whitney, Université de Californie, Berkeley (E-mail : dwhitney@berkeley.edu).  Tableau des liens   Résumé et introduction   Wok connexe   Ensemble de données VEATIC   Expériences   Discussion   Conclusion   En savoir plus sur les stimuli   Détails des annotations   Traitement des valeurs aberrantes   Accord de sujet sur les vidéos   Évaluations et références de familiarité et de plaisir  2. Travaux connexes  Récemment, plusieurs ensembles de données ont fourni des images contenant à la fois des informations faciales et contextuelles, comme CAER [33] et EMOTIC [32]. CAER [33] est un ensemble de données vidéo qui contient des étiquettes catégorielles de chaque image vidéo, et EMOTIC [32] est un ensemble de données basé sur des images contenant à la fois des étiquettes d'expression catégorielles et des évaluations continues de valence-excitation-dominance. Contrairement à ces ensembles de données, notre ensemble de données est basé sur la vidéo et contient des évaluations continues de la valence et de l'éveil. Une comparaison détaillée entre notre ensemble de données avec les ensembles de données précédents peut être trouvée dans le tableau 1.  Sur la base de divers ensembles de données sur les émotions, des études ont commencé à se concentrer sur la manière de déduire automatiquement les émotions. L'affect humain peut être déduit de nombreuses modalités, telles que l'audio [70, 68, 65], le visuel [40, 54, 55, 37] et le texte [68, 22]. Pour les entrées visuelles, en particulier, il existe trois tâches principales.   La tâche d'estimation de valence-éveil vise à prédire la valence et l'éveil de chaque image/image [71, 69, 29, 30] ; la tâche de reconnaissance d'expression se concentre sur la classification des catégories émotionnelles de chaque image/image [66, 57, 67] ; et la tâche de détection d'unité d'action (AU) vise à détecter les actions des muscles faciaux à partir des visages de chaque image/image [25, 56, 35, 64]. Actuellement, la plupart des méthodes proposées s’appuient fortement sur la zone du visage pour déduire l’état émotionnel. En effet, la zone du visage contient de riches informations sur l’état émotionnel humain. Cependant, les facteurs contextuels fournissent également des informations essentielles nécessaires aux humains pour déduire et percevoir correctement les états émotionnels des autres [8, 9, 10]. Plusieurs études [33, 32, 40] ont commencé à intégrer les informations contextuelles comme source d'inférence affective. Dans cette étude, nous avons également adopté des informations faciales et contextuelles pour accomplir la nouvelle tâche, c'est-à-dire déduire la valence et l'excitation pour chaque image vidéo.  Pour déduire l'affect d'une personne, nous devons généralement traiter des informations temporelles provenant de segments audio, d'images vidéo ou de mots. De nombreuses études [68, 69, 29, 30] ont commencé à utiliser la mémoire à long terme (LSTM) [23], l'unité récurrente fermée (GRU) [11] ou le réseau neuronal récurrent (RNN) [24, 50] pour traiter le informations temporelles. Avec l’émergence du transformateur visuel (ViT) [14], l’attention a été déplacée. De nombreuses tâches de compréhension vidéo [19, 1, 36] ont utilisé ViT pour comprendre les informations temporelles et atteindre des performances de pointe. Notre méthode de base a également adopté ViT comme outil pour traiter les informations temporelles dans les clips vidéo.  Cet article est   sous licence CC 4.0. disponible sur arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

Cet audio est produit dans la langue originale de l'histoire !

VEATIC : Suivi vidéo des émotions et des effets dans un ensemble de données contextuelles : travaux connexes

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

Croissance des crypto-monnaies : créer des profils d'utilisateurs efficaces

Boostez votre productivité avec ces 18 outils de développement 🚀🔥

Télégramme : le pont de Crypto Island vers le continent

Les couches invisibles : pourquoi les entretiens avec les utilisateurs sont un atout irremplaçable

Croissance des crypto-monnaies : créer des profils d'utilisateurs efficaces

Boostez votre productivité avec ces 18 outils de développement 🚀🔥

Télégramme : le pont de Crypto Island vers le continent

Les couches invisibles : pourquoi les entretiens avec les utilisateurs sont un atout irremplaçable

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps