Cet article est disponible sur arxiv sous licence CC 4.0.
Auteurs:
(1) Zhihang Ren, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;
(2) Jefferson Ortega, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;
(3) Yifan Wang, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;
(4) Zhimin Chen, Université de Californie, Berkeley (E-mail : [email protected]) ;
(5) Yunhui Guo, Université du Texas à Dallas (E-mail : [email protected]) ;
(6) Stella X. Yu, Université de Californie, Berkeley et Université du Michigan, Ann Arbor (E-mail : [email protected]) ;
(7) David Whitney, Université de Californie, Berkeley (E-mail : [email protected]).
Les notes de familiarité et de plaisir ont été collectées pour chaque vidéo auprès des participants, comme le montre la figure 13. Les notes de familiarité et de plaisir pour les ID vidéo 0 à 83 ont été collectées sur une échelle de 1 à 5 et de 1 à 9, respectivement. Les évaluations de familiarité et de plaisir pour les ID vidéo 83 à 123 ont été collectées avant la planification de l'ensemble de données VEATIC et ont été collectées à une échelle différente. Les notes de familiarité et de plaisir pour les ID vidéo 83 à 97 ont été collectées sur une échelle de 0 à 5 et les notes de familiarité/plaisir n'ont pas été collectées pour les ID vidéo 98 à 123. À des fins d'analyse et de visualisation, nous avons redimensionné les notes de familiarité et de plaisir pour les ID vidéo 83 à 97 à 1 à 5 et 1 à 9, respectivement, pour correspondre aux ID vidéo 0 à 83. Pour redimensionner les valeurs de familiarité de 0-5 à 1-5, nous avons effectué une transformation linéaire, nous avons d'abord normalisé les données entre 0 et 1, puis nous avons multiplié les valeurs par 4 et ajouté 1. Nous avons redimensionné les valeurs de plaisir de 0-5 à 1 à 9 de la même manière en normalisant d'abord les données entre 0 et 1, puis nous avons multiplié les valeurs par 8 et ajouté 1. En conséquence, l'indice de familiarité moyen était de 1,61 tandis que l'indice de plaisir moyen était de 4,98 pour les identifiants vidéo 0 à 97.
[1] Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lucic et Cordelia Schmid. Vivit : Un transformateur de vidéo et de vision. Dans Actes de la conférence internationale IEEE/CVF sur la vision par ordinateur, pages 6836-6846, 2021.
[2] Hillel Aviezer, Shlomo Bentin, Veronica Dudarev et Ran R Hassin. L’automaticité de l’intégration émotionnelle visage-contexte. Émotion, 11(6):1406, 2011.
[3] Simon Baron-Cohen, Sally Wheelwright, Jacqueline Hill, Yogini Raste et Ian Plumb. Version révisée du test « lire dans les yeux » : une étude menée auprès d'adultes normaux et d'adultes atteints du syndrome d'Asperger ou d'autisme de haut niveau. Le Journal de psychologie et de psychiatrie de l'enfant et disciplines connexes, 42(2):241-251, 2001.
[4] Lisa Feldman Barrett et Elizabeth A. Kensinger. Le contexte est régulièrement codé lors de la perception des émotions. Science psychologique, 21(4):595-599, 2010.
[5] Pablo Barros, Nikhil Churamani, Egor Lakomkin, Henrique Siqueira, Alexander Sutherland et Stefan Wermter. L'ensemble de données sur le comportement omg-emotion. En 2018 Conférence internationale conjointe sur les réseaux de neurones (IJCNN), pages 1 à 7. IEEE, 2018.
[6] Margaret M Bradley et Peter J Lang. Normes affectives pour les mots anglais (à nouveau) : Manuel d'instructions et évaluations affectives. Rapport technique, Rapport technique C-1, centre de recherche en psychophysiologie . . . , 1999.
[7] Marta Calbi, Francesca Siri, Katrin Heimann, Daniel Barratt, Vittorio Gallese, Anna Kolesnikov et Maria Alessandra Umilta. Comment le contexte influence l'interprétation des expressions faciales : une étude eeg de localisation de source à haute densité sur « l'effet kuleshov ». Rapports scientifiques, 9(1):1-16, 2019.
[8] Zhimin Chen et David Whitney. Suivi de l'état affectif de personnes invisibles. Actes de l'Académie nationale des sciences, 116(15):7559-7564, 2019.
[9] Zhimin Chen et David Whitney. Le suivi affectif inférentiel révèle la vitesse remarquable de la perception des émotions basée sur le contexte. Cognition, 208 : 104549, 2021.
[10] Zhimin Chen et David Whitney. Le suivi inférentiel des émotions (iet) révèle le rôle critique du contexte dans la reconnaissance des émotions. Émotion, 22(6):1185, 2022.
[11] Kyunghyun Cho, Bart Merrienboer, Caglar Gulcehre, Fethi Bougares, Holger Schwenk et Yoshua Bengio. Apprentissage des représentations de phrases à l'aide du codeur-décodeur rnn pour la traduction automatique statistique. Dans EMNLP, 2014.
[12] Jules Davidoff. Différences de perception visuelle : L’œil individuel. Elsevier, 2012. [13] Abhinav Dhall, Roland Goecke, Simon Lucey, Tom Gedeon et al. Collecte de grandes bases de données d'expressions faciales richement annotées à partir de films. IEEE multimédia, 19(3):34, 2012.
[14] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly et al. Une image vaut 16x16 mots : des transformateurs pour la reconnaissance d'images à grande échelle. Préimpression arXiv arXiv :2010.11929, 2020.
[15] Ellen Douglas-Cowie, Roddy Cowie, Cate Cox, Noam Amir et Dirk Heylen. L'auditeur artificiel sensible : une technique d'induction pour générer une conversation émotionnellement colorée. Dans l'atelier LREC sur les corpus pour la recherche sur l'émotion et l'affect, pages 1 à 4. ELRA Paris, 2008.
[16]Paul Ekman. Un argument pour les émotions fondamentales. Cognition et émotion, 6(3-4) :169-200, 1992.
[17] Paul Ekman et Wallace V. Friesen. Système de codage des actions faciales. Psychologie environnementale et comportement non verbal, 1978.
[18] Zhiyun Gao, Wentao Zhao, Sha Liu, Zhifen Liu, Chengxiang Yang et Yong Xu. Reconnaissance des émotions faciales dans la schizophrénie. Frontières en psychiatrie, 12:633717, 2021.
[19] Rohit Girdhar, Joao Carreira, Carl Doersch et Andrew Zisserman. Réseau de transformateurs d'action vidéo. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, pages 244-253, 2019.
[20] Kaiming He, Xiangyu Zhang, Shaoqing Ren et Jian Sun. Plonger en profondeur dans les redresseurs : surpasser les performances au niveau humain sur la classification imagenet. Dans Actes de la conférence internationale IEEE sur la vision par ordinateur, pages 1026-1034, 2015.
[21] Kaiming He, Xiangyu Zhang, Shaoqing Ren et Jian Sun. Apprentissage résiduel profond pour la reconnaissance d'images. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, pages 770 à 778, 2016.
[22] Will E Hipson et Saif M Mohammad. Dynamique des émotions dans les dialogues de films. PloS one, 16(9):e0256153, 2021. [23] Sepp Hochreiter et Jurgen Schmidhuber. Mémoire à long terme et à court terme. Calcul neuronal, 9(8):1735-1780, 1997.
[24] John J. Hopfield. Réseaux de neurones et systèmes physiques dotés de capacités de calcul collectives émergentes. Actes de l'académie nationale des sciences, 79(8):2554-2558, 1982.
[25] Zhao Kaili, Wen-Sheng Chu et Honggang Zhang. Région profonde et apprentissage multi-étiquettes pour la détection des unités d'action faciale. Dans Actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes, pages 3391 à 3399, 2016.
[26] Mary Kayyal, Sherri Widen et James A Russell. Le contexte est plus puissant qu’on ne le pense : les indices contextuels remplacent les indices faciaux, même pour la valence. Émotion, 15(3):287, 2015.
[27] Diederik P Kingma et Jimmy Ba. Adam : Une méthode d'optimisation stochastique. Préimpression arXiv arXiv : 1412.6980, 2014.
[28] Sander Koelstra, Christian Muhl, Mohammad Soleymani, Jong-Seok Lee, Ashkan Yazdani, Touradj Ebrahimi, Thierry Pun, Anton Nijholt et Ioannis Patras. Deap : Une base de données pour l'analyse des émotions ; en utilisant des signaux physiologiques. Transactions IEEE sur l'informatique affective, 3(1):18-31, 2011.
[29] Dimitrios Kollias et Stefanos Zafeiriou. Aff-wild2 : extension de la base de données aff-wild pour la reconnaissance des effets. Préimpression arXiv arXiv : 1811.07770, 2018.
[30] Dimitrios Kollias et Stefanos Zafeiriou. Expression, affect, reconnaissance d'unité d'action : Aff-wild2, apprentissage multi-tâches et arcface. Préimpression arXiv arXiv : 1910.04855, 2019.
[31] Jean Kossaifi, Georgios Tzimiropoulos, Sinisa Todorovic et Maja Pantic. Base de données Afew-va pour l'estimation de la valence et de l'éveil dans la nature. Informatique d’image et de vision, 65 :23-36, 2017.
[32] Ronak Kosti, José M. Alvarez, Adria Recasens et Agata Lapedriza. Reconnaissance des émotions basée sur le contexte à l'aide d'un ensemble de données émotives. Transactions IEEE sur l'analyse de modèles et l'intelligence artificielle, 42(11):2755-2766, 2019.
[33] Jiyoung Lee, Seungryong Kim, Sunok Kim, Jungin Park et Kwanghoon Sohn. Réseaux de reconnaissance des émotions contextuels. Dans Actes de la conférence internationale IEEE/CVF sur la vision par ordinateur, pages 10143-10152, 2019.
[34] Tae-Ho Lee, June-Seek Choi et Yang Seok Cho. La modulation contextuelle de la perception des émotions faciales différait selon les différences individuelles. PLOS un, 7(3):e32987, 2012.
[35] Yong Li, Jiabei Zeng, Shiguang Shan et Xilin Chen. Apprentissage de représentations autosupervisées à partir de vidéos pour la détection d'unités d'action faciale. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, pages 10924-10933, 2019.
[36] Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin et Han Hu. Transformateur vidéo. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, pages 3202-3211, 2022.
[37] Cheng Luo, Siyang Song, Weicheng Xie, Linlin Shen et Hatice Gunes. Apprentissage d'un graphique de relation au basé sur les caractéristiques de bord multidimensionnelles pour la reconnaissance des unités d'action faciale. Dans Actes de la trente et unième Conférence conjointe internationale sur l'intelligence artificielle, IJCAI-22, pages 1239-1246, 2022.
[38] Daniel McDuff, Rana Kaliouby, Thibaud Sénéchal, May Amr, Jeffrey Cohn et Rosalind Picard. Ensemble de données sur les expressions faciales affectiva-mit (am-fed) : expressions faciales naturalistes et spontanées collectées. Dans Actes de la conférence IEEE sur les ateliers de vision par ordinateur et de reconnaissance de formes, pages 881 à 888, 2013.
[39] Gary McKeown, Michel Valstar, Roddy Cowie, Maja Pantic et Marc Schroder. La base de données semaine : enregistrements multimodaux annotés de conversations émotionnellement colorées entre une personne et un agent limité. Transactions IEEE sur l'informatique affective, 3(1):5-17, 2011.
[40] Trisha Mittal, Pooja Guhan, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera et Dinesh Manocha. Émoticône : reconnaissance d'émotions multimodales contextuelles utilisant le principe de Frege. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, pages 14234-14243, 2020.
[41] MA Nasri, Mohamed Amine Hmani, Aymen Mtibaa, Dijana Petrovska-Delacretaz, M Ben Slima et A Ben Hamida. Reconnaissance des émotions du visage à partir d'images statiques basées sur des réseaux neuronaux à convolution. En 2020, 5e Conférence internationale sur les technologies avancées pour le traitement du signal et de l'image (ATSIP), pages 1 à 6. IEEE, 2020.
[42] Erik C Nook, Kristen A Lindquist et Jamil Zaki. Un nouveau regard sur la perception des émotions : les concepts accélèrent et façonnent la reconnaissance des émotions faciales. Émotion, 15(5):569, 2015.
[43] Desmond C Ong, Zhengxuan Wu, Zhi-Xuan Tan, Marianne Reddan, Isabella Kahhale, Alison Mattek et Jamil Zaki. Modélisation de l'émotion dans des histoires complexes : l'ensemble de données sur les récits émotionnels de Stanford. Transactions IEEE sur l'informatique affective, 12(3):579-594, 2019.
[44] Desmond C Ong, Jamil Zaki et Noah D Goodman. Modèles informatiques d'inférence d'émotion dans la théorie de l'esprit : un examen et une feuille de route. Sujets en sciences cognitives, 11(2):338-357, 2019.
[45] Timea R Partos, Simon J Cropper et David Rawlings. Vous ne voyez pas ce que je vois : les différences individuelles dans la perception du sens à partir des stimuli visuels. PloS un, 11(3):e0150615, 2016.
[46] Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam Naik, Erik Cambria et Rada Mihalcea. Meld : un ensemble de données multimodales multipartites pour la reconnaissance des émotions dans les conversations. Préimpression arXiv arXiv : 1810.02508, 2018.
[47] Jonathan Posner, James A Russell et Bradley S Peterson. Le modèle circumplexe de l'affect : une approche intégrative de la neuroscience affective, du développement cognitif et de la psychopathologie. Développement et psychopathologie, 17(3):715-734, 2005.
[48] Zhihang Ren, Xinyu Li, Dana Pietralla, Mauro Manassi et David Whitney. Dépendance en série dans les jugements dermatologiques. Diagnostics, 13(10):1775, 2023.
[49] Fabien Ringeval, Andreas Sonderegger, Juergen Sauer et Denis Lalanne. Présentation du corpus multimodal recola d'interactions collaboratives et affectives à distance. En 2013, 10e conférence internationale et ateliers de l'IEEE sur la reconnaissance automatique des visages et des gestes (FG), pages 1 à 8. IEEE, 2013.
[50] David E Rumelhart, Geoffrey E Hinton, Ronald J Williams et coll. Apprentissage des représentations internes par propagation d'erreurs, 1985.
[51] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein et al. Défi de reconnaissance visuelle à grande échelle Imagenet. Revue internationale de vision par ordinateur, 115 : 211-252, 2015.
[52] James A. Russell. Un modèle circumplexe d’affect. Journal de personnalité et de psychologie sociale, 39(6):1161, 1980.
[53] James A. Russell. perspective contextuelle dimensionnelle. La psychologie de l'expression faciale, page 295, 1997.
[54] Andreï V Savtchenko. Reconnaissance de l'expression faciale et des attributs basée sur l'apprentissage multitâche de réseaux neuronaux légers. En 2021, 19e Symposium international de l'IEEE sur les systèmes intelligents et l'informatique (SISY), pages 119-124. IEEE, 2021.
[55] Andrey V Savchenko, Lyudmila V Savchenko et Ilya Makarov. Classification des émotions et de l'engagement dans l'apprentissage en ligne sur la base d'un réseau neuronal unique de reconnaissance des expressions faciales. Transactions IEEE sur l'informatique affective, 13(4):2132-2143, 2022.
[56] Zhiwen Shao, Zhilei Liu, Jianfei Cai et Lizhuang Ma. Attention adaptative profonde pour la détection des unités d’action faciale articulaire et l’alignement du visage. Dans Actes de la conférence européenne sur la vision par ordinateur (ECCV), pages 705-720, 2018.
[57] Jiahui She, Yibo Hu, Hailin Shi, Jun Wang, Qiu Shen et Tao Mei. Plongez dans l'ambiguïté : exploration de la distribution latente et estimation de l'incertitude par paire pour la reconnaissance des expressions faciales. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, pages 6248-6257, 2021.
[58] Ian Sneddon, Margaret McRorie, Gary McKeown et Jennifer Hanratty. La base de données des émotions naturelles induites par Belfast. Transactions IEEE sur l'informatique affective, 3(1):32-41, 2011.
[59] Mohammad Soleymani, Jeroen Lichtenauer, Thierry Pun et Maja Pantic. Une base de données multimodale pour la reconnaissance des effets et le marquage implicite. Transactions IEEE sur l'informatique affective, 3(1):42-55, 2011.
[60] Paweł Tarnowski, Marcin Kołodziej, Andrzej Majkowski et Remigiusz J Rak. Reconnaissance des émotions à l'aide d'expressions faciales. Procedia Informatique, 108 : 1175-1184, 2017.
[61] YI Tian, Takeo Kanade et Jeffrey F Cohn. Reconnaître les unités d'action pour l'analyse des expressions faciales. Transactions IEEE sur l'analyse de modèles et l'intelligence artificielle, 23(2) :97-115, 2001.
[62] Vedat Tumen, ¨Omer Faruk S¨oylemez et Burhan Ergen. ¨ Reconnaissance des émotions faciales sur un ensemble de données utilisant un réseau neuronal convolutif. En 2017, Symposium international sur l'intelligence artificielle et le traitement des données (IDAP), pages 1 à 5. IEEE, 2017.
[63] Gaetano Valenza, Antonio Lanata et Enzo Pasquale Scilingo. Le rôle de la dynamique non linéaire dans la valence affective et la reconnaissance de l'éveil. Transactions IEEE sur l'informatique affective, 3(2):237-249, 2011.
[64] Raviteja Vemulapalli et Aseem Agarwala. Une intégration compacte pour la similarité des expressions faciales. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, pages 5683-5692, 2019.
[65] Kannan Venkataramanan et Haresh Rengaraj Rajamohan. Reconnaissance des émotions à partir de la parole. Préimpression arXiv arXiv : 1912.10458, 2019.
[66] Kai Wang, Xiaojiang Peng, Jianfei Yang, Shijian Lu et Yu Qiao. Suppression des incertitudes pour la reconnaissance des expressions faciales à grande échelle. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, pages 6897-6906, 2020.
[67] Fanglei Xue, Zichang Tan, Yu Zhu, Zhongsong Ma et Guodong Guo. Réseaux en cascade grossiers à fins avec prédiction fluide pour la reconnaissance vidéo des expressions faciales. Dans Actes de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de formes, pages 2412-2418, 2022.
[68] Seunghyun Yoon, Seokhyun Byun et Kyomin Jung. Reconnaissance multimodale des émotions vocales à l'aide de l'audio et du texte. Dans l'atelier IEEE sur la technologie du langage parlé (SLT) 2018, pages 112 à 118. IEEE, 2018.
[69] Stefanos Zafeiriou, Dimitrios Kollias, Mihalis A Nicolaou, Athanasios Papaioannou, Guoying Zhao et Irene Kotsia. Aff-wild : valence et défi de l'éveil dans la nature. Dans Actes de la conférence IEEE sur les ateliers de vision par ordinateur et de reconnaissance de formes, pages 34 à 41, 2017.
[70] Yuanyuan Zhang, Jun Du, Zirui Wang, Jianshu Zhang et Yanhui Tu. Réseau entièrement convolutif basé sur l'attention pour la reconnaissance des émotions vocales. En 2018, Sommet et conférence annuels de l'Association Asie-Pacifique de traitement du signal et de l'information (APSIPA ASC), pages 1771-1775. IEEE, 2018.
[71] Yuan-Hang Zhang, Rulin Huang, Jiabei Zeng et Shiguang Shan. M 3 f : Estimation multimodale continue de valence-éveil dans la nature. En 2020, 15e Conférence internationale de l'IEEE sur la reconnaissance automatique des visages et des gestes (FG 2020), pages 632 à 636. IEEE, 2020.
Cet article est disponible sur arxiv sous licence CC 4.0.