Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.
Autoren:
(1) Zhihang Ren, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(2) Jefferson Ortega, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(3) Yifan Wang, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(4) Zhimin Chen, University of California, Berkeley (E-Mail: [email protected]);
(5) Yunhui Guo, University of Texas at Dallas (E-Mail: [email protected]);
(6) Stella X. Yu, University of California, Berkeley und University of Michigan, Ann Arbor (E-Mail: [email protected]);
(7) David Whitney, University of California, Berkeley (E-Mail: [email protected]).
Wie in Abbildung 13 dargestellt, wurden für jedes Video von allen Teilnehmern Vertrautheits- und Unterhaltungsbewertungen erfasst. Vertrautheits- und Unterhaltungsbewertungen für die Video-IDs 0–83 wurden auf einer Skala von 1–5 bzw. 1–9 erfasst. Vertrautheits- und Unterhaltungsbewertungen für die Video-IDs 83–123 wurden vor der Planung des VEATIC-Datensatzes und auf einer anderen Skala erfasst. Vertrautheits- und Unterhaltungsbewertungen für die Video-IDs 83–97 wurden auf einer Skala von 0–5 erfasst, und für die Video-IDs 98–123 wurden keine Vertrautheits-/Unterhaltungsbewertungen erfasst. Zu Analyse- und Visualisierungszwecken haben wir die Vertrautheits- und Unterhaltungsbewertungen für die Video-IDs 83–97 auf 1–5 bzw. 1–9 neu skaliert, um sie an die Video-IDs 0–83 anzupassen. Um die Vertrautheitswerte von 0-5 auf 1-5 neu zu skalieren, führten wir eine lineare Transformation durch. Zuerst normalisierten wir die Daten zwischen 0 und 1, dann multiplizierten wir die Werte mit 4 und addierten 1. Auf ähnliche Weise skalierten wir die Genusswerte von 0-5 auf 1-9, indem wir zuerst die Daten zwischen 0 und 1 normalisierten, dann die Werte mit 8 multiplizierten und 1 addierten. Als Ergebnis betrug die durchschnittliche Vertrautheitsbewertung 1,61, während die durchschnittliche Genussbewertung für die Video-IDs 0-97 4,98 betrug.
[1] Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Luciˇ c und Cordelia Schmid. Vivit: Ein Video-Vision-Transformator. In Proceedings der IEEE/CVF-Konferenz zum Thema Computer Vision, Seiten 6836–6846, 2021.
[2] Hillel Aviezer, Shlomo Bentin, Veronica Dudarev und Ran R Hassin. Die Automatizität der emotionalen Gesichts-Kontext-Integration. Emotion, 11(6):1406, 2011.
[3] Simon Baron-Cohen, Sally Wheelwright, Jacqueline Hill, Yogini Raste und Ian Plumb. Der „Gedankenlesen in den Augen“-Test, überarbeitete Version: eine Studie mit normalen Erwachsenen und Erwachsenen mit Asperger-Syndrom oder hochfunktionalem Autismus. The Journal of Child Psychology and Psychiatry and Allied Disciplines, 42(2):241–251, 2001.
[4] Lisa Feldman Barrett und Elizabeth A Kensinger. Kontext wird bei der Wahrnehmung von Emotionen routinemäßig kodiert. Psychological science, 21(4):595–599, 2010.
[5] Pablo Barros, Nikhil Churamani, Egor Lakomkin, Henrique Siqueira, Alexander Sutherland und Stefan Wermter. Der omg-emotion-Verhaltensdatensatz. In 2018 International Joint Conference on Neural Networks (IJCNN), Seiten 1–7. IEEE, 2018.
[6] Margaret M Bradley und Peter J Lang. Affektive Normen für englische Wörter (neu): Bedienungsanleitung und affektive Bewertungen. Technischer Bericht, Technischer Bericht C-1, Zentrum für Forschung in Psychophysiologie . . . , 1999.
[7] Marta Calbi, Francesca Siri, Katrin Heimann, Daniel Barratt, Vittorio Gallese, Anna Kolesnikov und Maria Alessandra Umilta. Wie der Kontext die Interpretation von Gesichtsausdrücken beeinflusst: eine Quellenlokalisierungsstudie mit hochdichten EEGs zum „Kuleshov-Effekt“. Scientific reports, 9(1):1–16, 2019.
[8] Zhimin Chen und David Whitney. Verfolgung des affektiven Zustands unsichtbarer Personen. Proceedings of the National Academy of Sciences, 116(15):7559–7564, 2019.
[9] Zhimin Chen und David Whitney. Inferential Affective Tracking zeigt die bemerkenswerte Geschwindigkeit der kontextbasierten Emotionswahrnehmung. Cognition, 208:104549, 2021.
[10] Zhimin Chen und David Whitney. Inferential Emotion Tracking (IET) zeigt die entscheidende Rolle des Kontexts bei der Emotionserkennung. Emotion, 22(6):1185, 2022.
[11] Kyunghyun Cho, Bart Merrienboer, Caglar Gulcehre, Fethi Bougares, Holger Schwenk und Yoshua Bengio. Lernen von Phrasendarstellungen mit RNN-Encoder-Decoder für statistische maschinelle Übersetzung. In EMNLP, 2014.
[12] Jules Davidoff. Unterschiede in der visuellen Wahrnehmung: Das individuelle Auge. Elsevier, 2012. [13] Abhinav Dhall, Roland Goecke, Simon Lucey, Tom Gedeon, et al. Sammeln großer, reich annotierter Datenbanken zu Gesichtsausdrücken aus Filmen. IEEE multimedia, 19(3):34, 2012.
[14] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. Ein Bild sagt mehr als 16x16 Worte: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020.
[15] Ellen Douglas-Cowie, Roddy Cowie, Cate Cox, Noam Amir und Dirk Heylen. Der sensible künstliche Zuhörer: eine Induktionstechnik zur Erzeugung emotional gefärbter Gespräche. Im LREC-Workshop zu Korpora für die Erforschung von Emotionen und Affekten, Seiten 1–4. ELRA Paris, 2008.
[16] Paul Ekman. Ein Argument für grundlegende Emotionen. Cognition & Emotion, 6 (3-4):169–200, 1992.
[17] Paul Ekman und Wallace V Friesen. Facial action coding system. Umweltpsychologie und nonverbales Verhalten, 1978.
[18] Zhiyun Gao, Wentao Zhao, Sha Liu, Zhifen Liu, Chengxiang Yang und Yong Xu. Gesichtsemotionserkennung bei Schizophrenie. Frontiers in Psychiatry, 12:633717, 2021.
[19] Rohit Girdhar, Joao Carreira, Carl Doersch und Andrew Zisserman. Video Action Transformer Network. In Proceedings der IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung, Seiten 244–253, 2019.
[20] Kaiming He, Xiangyu Zhang, Shaoqing Ren und Jian Sun. Tief in Gleichrichter eintauchen: Übertreffen der menschlichen Leistung bei der Imagenet-Klassifizierung. In Proceedings der IEEE-International-Konferenz für Computer Vision, Seiten 1026–1034, 2015.
[21] Kaiming He, Xiangyu Zhang, Shaoqing Ren und Jian Sun. Deep Residual Learning zur Bilderkennung. In Proceedings der IEEE-Konferenz zu Computer Vision und Mustererkennung, Seiten 770–778, 2016.
[22] Will E Hipson und Saif M Mohammad. Emotionsdynamik in Filmdialogen. PloS one, 16(9):e0256153, 2021. [23] Sepp Hochreiter und Jurgen Schmidhuber. Langzeit-Kurzzeitgedächtnis. Neural calculation, 9(8):1735–1780, 1997.
[24] John J Hopfield. Neuronale Netzwerke und physikalische Systeme mit emergenten kollektiven Rechenfähigkeiten. Proceedings of the national academy of sciences, 79(8):2554–2558, 1982.
[25] Zhao Kaili, Wen-Sheng Chu und Honggang Zhang. Deep Region und Multi-Label-Learning zur Erkennung von Gesichtsaktionseinheiten. In Proceedings der IEEE-Konferenz über Computer Vision und Mustererkennung, Seiten 3391–3399, 2016.
[26] Mary Kayyal, Sherri Widen und James A Russell. Der Kontext ist mächtiger als wir denken: Kontextuelle Hinweise überschreiben Gesichtsausdrücke sogar bei der Valenz. Emotion, 15(3):287, 2015.
[27] Diederik P Kingma und Jimmy Ba. Adam: Eine Methode zur stochastischen Optimierung. arXiv Preprint arXiv:1412.6980, 2014.
[28] Sander Koelstra, Christian Muhl, Mohammad Soleymani, Jong-Seok Lee, Ashkan Yazdani, Touradj Ebrahimi, Thierry Pun, Anton Nijholt und Ioannis Patras. Deap: Eine Datenbank zur Emotionsanalyse unter Verwendung physiologischer Signale. IEEE Transactions on Affective Computing, 3(1):18–31, 2011.
[29] Dimitrios Kollias und Stefanos Zafeiriou. Aff-wild2: Erweiterung der Aff-Wild-Datenbank zur Affekterkennung. arXiv-Vorabdruck arXiv:1811.07770, 2018.
[30] Dimitrios Kollias und Stefanos Zafeiriou. Ausdruck, Affekt, Aktionseinheitserkennung: Aff-wild2, Multi-Task-Lernen und Arcface. arXiv-Preprint arXiv:1910.04855, 2019.
[31] Jean Kossaifi, Georgios Tzimiropoulos, Sinisa Todorovic und Maja Pantic. Afew-va-Datenbank zur Valenz- und Erregungsschätzung in freier Wildbahn. Image and Vision Computing, 65:23– 36, 2017.
[32] Ronak Kosti, Jose M Alvarez, Adria Recasens und Agata Lapedriza. Kontextbasierte Emotionserkennung mithilfe eines emotic-Datensatzes. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(11):2755–2766, 2019.
[33] Jiyoung Lee, Seungryong Kim, Sunok Kim, Jungin Park und Kwanghoon Sohn. Kontextbewusste Netzwerke zur Emotionserkennung. In Proceedings der internationalen IEEE/CVF-Konferenz zum Thema Computer Vision, Seiten 10143–10152, 2019.
[34] Tae-Ho Lee, June-Seek Choi und Yang Seok Cho. Die Kontextmodulation der Wahrnehmung von Gesichtsemotionen war individuell unterschiedlich. PLOS one, 7(3):e32987, 2012.
[35] Yong Li, Jiabei Zeng, Shiguang Shan und Xilin Chen. Selbstüberwachtes Repräsentationslernen aus Videos zur Erkennung von Gesichtsaktionseinheiten. In Proceedings der IEEE/CVF-Konferenz über Computer Vision und Mustererkennung, Seiten 10924–10933, 2019.
[36] Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin und Han Hu. Video-Swin-Transformator. In Proceedings der IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung, Seiten 3202–3211, 2022.
[37] Cheng Luo, Siyang Song, Weicheng Xie, Linlin Shen und Hatice Gunes. Lernen eines mehrdimensionalen, auf Kantenmerkmalen basierenden Au-Relationsgraphen zur Erkennung von Gesichtsaktionseinheiten. In Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence, IJCAI-22, Seiten 1239–1246, 2022.
[38] Daniel McDuff, Rana Kaliouby, Thibaud Senechal, May Amr, Jeffrey Cohn und Rosalind Picard. Affectiva-mit Gesichtsausdrucksdatensatz (am-fed): Naturalistische und spontane Gesichtsausdrücke gesammelt. In Proceedings der IEEE-Konferenz zu Computer Vision und Mustererkennungs-Workshops, Seiten 881–888, 2013.
[39] Gary McKeown, Michel Valstar, Roddy Cowie, Maja Pantic und Marc Schroder. Die Semaine-Datenbank: Kommentierte multimodale Aufzeichnungen emotional gefärbter Gespräche zwischen einer Person und einem begrenzten Agenten. IEEE Transactions on Affective Computing, 3(1):5–17, 2011.
[40] Trisha Mittal, Pooja Guhan, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera und Dinesh Manocha. Emoticon: Kontextbewusste multimodale Emotionserkennung unter Verwendung des Frege-Prinzips. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seiten 14234– 14243, 2020.
[41] MA Nasri, Mohamed Amine Hmani, Aymen Mtibaa, Dijana Petrovska-Delacretaz, M Ben Slima und A Ben Hamida. Gesichtsemotionserkennung aus statischen Bildern basierend auf Faltungsneuronalen Netzwerken. In 2020 5. Internationale Konferenz über fortschrittliche Technologien für die Signal- und Bildverarbeitung (ATSIP), Seiten 1–6. IEEE, 2020.
[42] Erik C Nook, Kristen A Lindquist und Jamil Zaki. Ein neuer Blick auf die Emotionswahrnehmung: Konzepte beschleunigen und prägen die Erkennung von Gesichtsemotionen. Emotion, 15(5):569, 2015.
[43] Desmond C Ong, Zhengxuan Wu, Zhi-Xuan Tan, Marianne Reddan, Isabella Kahhale, Alison Mattek und Jamil Zaki. Modellierung von Emotionen in komplexen Geschichten: der Stanford Emotional Narratives Dataset. IEEE Transactions on Affective Computing, 12(3):579–594, 2019.
[44] Desmond C Ong, Jamil Zaki und Noah D Goodman. Computergestützte Modelle der Emotionsinferenz in der Theory of Mind: Ein Überblick und ein Fahrplan. Topics in Cognitive Science, 11(2):338– 357, 2019.
[45] Timea R Partos, Simon J Cropper und David Rawlings. Du siehst nicht, was ich sehe: Individuelle Unterschiede in der Bedeutungswahrnehmung visueller Reize. PloS one, 11(3):e0150615, 2016.
[46] Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam Naik, Erik Cambria und Rada Mihalcea. Meld: Ein multimodaler Mehrparteien-Datensatz zur Emotionserkennung in Gesprächen. arXiv-Preprint arXiv:1810.02508, 2018.
[47] Jonathan Posner, James A Russell und Bradley S Peterson. Das Circumplex-Modell des Affekts: Ein integrativer Ansatz zur affektiven Neurowissenschaft, kognitiven Entwicklung und Psychopathologie. Entwicklung und Psychopathologie, 17(3):715–734, 2005.
[48] Zhihang Ren, Xinyu Li, Dana Pietralla, Mauro Manassi und David Whitney. Serielle Abhängigkeit bei dermatologischen Urteilen. Diagnostics, 13(10):1775, 2023.
[49] Fabien Ringeval, Andreas Sonderegger, Juergen Sauer und Denis Lalanne. Einführung in das multimodale Recola-Korpus für kollaborative und affektive Interaktionen aus der Ferne. 2013 10. internationale IEEE-Konferenz und Workshops zur automatischen Gesichts- und Gestenerkennung (FG), Seiten 1–8. IEEE, 2013.
[50] David E Rumelhart, Geoffrey E Hinton, Ronald J Williams, et al. Lernen interner Repräsentationen durch Fehlerfortpflanzung, 1985.
[51] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, et al. Imagenet groß angelegte Herausforderung zur visuellen Erkennung. International Journal of Computer Vision, 115:211–252, 2015.
[52] James A Russell. Ein Circumplex-Modell des Affekts. Journal of Personality and Social Psychology, 39(6):1161, 1980.
[53] James A Russell. dimensionale kontextuelle Perspektive. Die Psychologie des Gesichtsausdrucks, Seite 295, 1997.
[54] Andrey V Savchenko. Gesichtsausdruck- und Attributerkennung basierend auf Multi-Task-Lernen von leichtgewichtigen neuronalen Netzwerken. In 2021 IEEE 19th International Symposium on Intelligent Systems and Informatics (SISY), Seiten 119–124. IEEE, 2021.
[55] Andrey V Savchenko, Lyudmila V Savchenko und Ilya Makarov. Klassifizierung von Emotionen und Engagement beim Online-Lernen basierend auf einem einzigen neuronalen Netzwerk zur Gesichtsausdruckserkennung. IEEE Transactions on Affective Computing, 13(4):2132–2143, 2022.
[56] Zhiwen Shao, Zhilei Liu, Jianfei Cai und Lizhuang Ma. Tiefe adaptive Aufmerksamkeit für die Erkennung gemeinsamer Gesichtsaktionseinheiten und die Gesichtsausrichtung. In Proceedings der European Conference on Computer Vision (ECCV), Seiten 705–720, 2018.
[57] Jiahui She, Yibo Hu, Hailin Shi, Jun Wang, Qiu Shen und Tao Mei. Tauchen Sie ein in die Mehrdeutigkeit: Latent Distribution Mining und paarweise Unsicherheitsschätzung zur Gesichtsausdruckserkennung. In Proceedings der IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung, Seiten 6248–6257, 2021.
[58] Ian Sneddon, Margaret McRorie, Gary McKeown und Jennifer Hanratty. Die Belfast-Datenbank für induzierte natürliche Emotionen. IEEE Transactions on Affective Computing, 3(1):32–41, 2011.
[59] Mohammad Soleymani, Jeroen Lichtenauer, Thierry Pun und Maja Pantic. Eine multimodale Datenbank zur Affekterkennung und impliziten Markierung. IEEE Transactions on Affective Computing, 3(1):42–55, 2011.
[60] Paweł Tarnowski, Marcin Kołodziej, Andrzej Majkowski und Remigiusz J Rak. Emotionserkennung anhand von Gesichtsausdrücken. Procedia Computer Science, 108:1175–1184, 2017.
[61] YI Tian, Takeo Kanade und Jeffrey F Cohn. Erkennen von Aktionseinheiten zur Analyse von Gesichtsausdrücken. IEEE Transactions on pattern analysis and machine intelligence, 23(2):97–115, 2001.
[62] Vedat Tumen, ¨ Omer Faruk S ¨ oylemez und Burhan Ergen. ¨ Gesichtsemotionserkennung auf einem Datensatz mithilfe eines Convolutional Neural Network. Im 2017 International Artificial Intelligence and Data Processing Symposium (IDAP), Seiten 1–5. IEEE, 2017.
[63] Gaetano Valenza, Antonio Lanata und Enzo Pasquale Scilingo. Die Rolle nichtlinearer Dynamiken bei der Erkennung affektiver Valenz und Erregung. IEEE Transactions on Affective Computing, 3(2):237–249, 2011.
[64] Raviteja Vemulapalli und Aseem Agarwala. Eine kompakte Einbettung für die Ähnlichkeit von Gesichtsausdrücken. In Proceedings der IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung, Seiten 5683–5692, 2019.
[65] Kannan Venkataramanan und Haresh Rengaraj Rajamohan. Emotionserkennung aus Sprache. arXiv-Vorabdruck arXiv:1912.10458, 2019.
[66] Kai Wang, Xiaojiang Peng, Jianfei Yang, Shijian Lu und Yu Qiao. Unterdrückung von Unsicherheiten bei der groß angelegten Gesichtsausdruckserkennung. In Proceedings der IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung, Seiten 6897–6906, 2020.
[67] Fanglei Xue, Zichang Tan, Yu Zhu, Zhongsong Ma und Guodong Guo. Von grob bis fein kaskadierte Netzwerke mit glatter Vorhersage für die Erkennung von Gesichtsausdrücken per Video. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Seiten 2412–2418, 2022.
[68] Seunghyun Yoon, Seokhyun Byun und Kyomin Jung. Multimodale Sprachemotionserkennung mit Audio und Text. In 2018 IEEE Spoken Language Technology Workshop (SLT), Seiten 112–118. IEEE, 2018.
[69] Stefanos Zafeiriou, Dimitrios Kollias, Mihalis A Nicolaou, Athanasios Papaioannou, Guoying Zhao und Irene Kotsia. Aff-wild: Valenz und Erregung in der Wildnis. In Proceedings der IEEE-Konferenz zu Computer Vision und Mustererkennungs-Workshops, Seiten 34–41, 2017.
[70] Yuanyuan Zhang, Jun Du, Zirui Wang, Jianshu Zhang und Yanhui Tu. Aufmerksamkeitsbasiertes, vollständig konvolutionelles Netzwerk zur Sprachemotionserkennung. In 2018 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), Seiten 1771–1775. IEEE, 2018.
[71] Yuan-Hang Zhang, Rulin Huang, Jiabei Zeng und Shiguang Shan. M 3 f: Multimodale kontinuierliche Valenz-Erregungs-Schätzung in der freien Wildbahn. In 2020 15. IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020), Seiten 632–636. IEEE, 2020.
Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar .