Autoren:
(1) Zhihang Ren, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(2) Jefferson Ortega, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(3) Yifan Wang, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(4) Zhimin Chen, University of California, Berkeley (E-Mail: [email protected]);
(5) Yunhui Guo, University of Texas at Dallas (E-Mail: [email protected]);
(6) Stella X. Yu, University of California, Berkeley und University of Michigan, Ann Arbor (E-Mail: [email protected]);
(7) David Whitney, University of California, Berkeley (E-Mail: [email protected]).
In letzter Zeit sind mehrere Datensätze erschienen, die Einzelbilder mit Gesichts- und Kontextinformationen bereitstellen, wie CAER [33] und EMOTIC [32]. CAER [33] ist ein videobasierter Datensatz, der kategorische Beschriftungen für jedes Videobild enthält, und EMOTIC [32] ist ein bildbasierter Datensatz, der sowohl kategorische Ausdrucksbeschriftungen als auch kontinuierliche Valenz-Erregungs-Dominanz-Bewertungen enthält. Im Gegensatz zu diesen Datensätzen ist unser Datensatz videobasiert und enthält kontinuierliche Valenz- und Erregungsbewertungen. Ein detaillierter Vergleich unseres Datensatzes mit früheren Datensätzen ist in Tabelle 1 zu finden.
Basierend auf verschiedenen Emotionsdatensätzen haben Studien begonnen, sich auf die Frage zu konzentrieren, wie Emotionen automatisch abgeleitet werden können. Menschliche Emotionen können aus vielen Modalitäten abgeleitet werden, wie etwa Audio [70, 68, 65], visuell [40, 54, 55, 37] und Text [68, 22]. Insbesondere bei visuellen Eingaben gibt es drei Hauptaufgaben.
Die Aufgabe der Valenz-Erregungs-Abschätzung zielt darauf ab, die Valenz und Erregung jedes Bildes/Frames vorherzusagen [71, 69, 29, 30]. Die Aufgabe der Ausdruckserkennung konzentriert sich auf die Klassifizierung emotionaler Kategorien jedes Bildes/Frames [66, 57, 67]. Die Aufgabe der Aktionseinheitserkennung (AU) zielt darauf ab, Gesichtsmuskelaktionen aus den Gesichtern jedes Bildes/Frames zu erkennen [25, 56, 35, 64]. Derzeit verlassen sich die meisten vorgeschlagenen Methoden stark auf den Gesichtsbereich, um den emotionalen Zustand abzuleiten. Tatsächlich enthält der Gesichtsbereich umfangreiche Informationen über den emotionalen Zustand des Menschen. Kontextfaktoren liefern jedoch auch wichtige Informationen, die Menschen benötigen, um die emotionalen Zustände anderer richtig abzuleiten und wahrzunehmen [8, 9, 10]. Mehrere Studien [33, 32, 40] haben begonnen, Kontextinformationen als Quelle der Affektableitung einzubeziehen. In dieser Studie haben wir auch sowohl Gesichts- als auch Kontextinformationen übernommen, um die neue Aufgabe zu erfüllen, d. h. die Valenz und Erregung für jedes Video-Frame abzuleiten.
Um die Stimmung einer Person zu erschließen, müssen wir normalerweise mit zeitlichen Informationen von Audiosegmenten, Videobildern oder Wörtern umgehen. Viele Studien [68, 69, 29, 30] begannen, Long Short Term Memory (LSTM) [23], Gated Recurrent Unit (GRU) [11] oder Recurrent Neural Network (RNN) [24, 50] zu verwenden, um die zeitlichen Informationen zu verarbeiten. Mit dem Aufkommen des Visual Transformer (ViT) [14] hat sich die Aufmerksamkeit verlagert. Viele Videoverständnisaufgaben [19, 1, 36] haben ViT zum Verständnis zeitlicher Informationen verwendet und eine hochmoderne Leistung erzielt. Unsere Basismethode hat ViT auch als Werkzeug zur Verarbeitung der zeitlichen Informationen in Videoclips übernommen.
Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar .