Autoren:
(1) Zhihang Ren, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(2) Jefferson Ortega, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(3) Yifan Wang, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(4) Zhimin Chen, University of California, Berkeley (E-Mail: [email protected]);
(5) Yunhui Guo, University of Texas at Dallas (E-Mail: [email protected]);
(6) Stella X. Yu, University of California, Berkeley und University of Michigan, Ann Arbor (E-Mail: [email protected]);
(7) David Whitney, University of California, Berkeley (E-Mail: [email protected]).
Die Erkennung menschlicher Affekte ist ein wichtiges Thema in der Psychophysik und der Computervision. Die derzeit veröffentlichten Datensätze weisen jedoch viele Einschränkungen auf. Beispielsweise enthalten die meisten Datensätze Frames, die nur Informationen über Gesichtsausdrücke enthalten. Aufgrund der Einschränkungen früherer Datensätze ist es sehr schwierig, die Mechanismen der Affekterkennung von Menschen zu verstehen oder allgemeinere Fälle für Computervisionsmodelle zu verallgemeinern, die mit diesen Datensätzen trainiert wurden. In dieser Arbeit stellen wir einen brandneuen großen Datensatz vor, den Video-based Emotion and Affect Tracking in Context Dataset (VEATIC), der die Einschränkungen der früheren Datensätze überwinden kann. VEATIC enthält 124 Videoclips aus Hollywoodfilmen, Dokumentationen und Heimvideos mit kontinuierlichen Valenz- und Erregungsbewertungen jedes Frames durch Echtzeitannotation. Zusammen mit dem Datensatz schlagen wir eine neue Computervisionsaufgabe vor, um den Affekt des ausgewählten Charakters anhand von Kontext- und Charakterinformationen in jedem Videoframe abzuleiten. Darüber hinaus schlagen wir ein einfaches Modell vor, um diese neue Computervisionsaufgabe zu bewerten. Wir vergleichen auch die Leistung des vorab trainierten Modells unter Verwendung unseres Datensatzes mit anderen ähnlichen Datensätzen. Experimente zeigen die konkurrierenden Ergebnisse unseres vorab trainierten Modells über VEATIC und weisen auf die Generalisierbarkeit von VEATIC hin. Unser Datensatz ist unter https://veatic.github.io verfügbar.
Das Erkennen menschlicher Gefühle ist in unserem täglichen Leben von entscheidender Bedeutung. Wir können die Gefühle von Menschen anhand ihrer Mimik, ihrer Interaktionen mit anderen Menschen und des Kontexts der Szene erschließen und ihre nachfolgenden Reaktionen vorhersagen. Es ist ein unschätzbar wertvoller Teil unserer Kommunikation. Daher widmen sich viele Studien dem Verständnis des Mechanismus der Gefühlserkennung. Mit dem Aufkommen der künstlichen Intelligenz (KI) haben viele Studien auch Algorithmen zur automatischen Wahrnehmung und Interpretation menschlicher Gefühle vorgeschlagen, mit der möglichen Implikation, dass Systeme wie Roboter und virtuelle Menschen auf natürliche Weise mit Menschen interagieren können.
Wenn Menschen in der realen Welt mit der Emotionserkennung beauftragt werden, haben sie Zugang zu viel mehr Informationen als nur Gesichtsausdrücken. Trotzdem verwenden viele Studien zur Emotionserkennung oft statische Stimuli von Gesichtsausdrücken, die vom Kontext isoliert sind, insbesondere bei der Beurteilung psychischer Störungen [3, 18] und in Computer-Vision-Modellen [60, 62]. Während frühere Studien weiterhin den Prozess untersuchen, durch den Menschen Emotionen wahrnehmen, versäumen viele dieser Studien außerdem zu untersuchen, wie die Emotionserkennung von Kontextfaktoren wie der visuellen Szene, Hintergrundinformationen, Körperbewegungen, anderen Gesichtern und sogar unseren Überzeugungen, Wünschen und konzeptuellen Verarbeitungen beeinflusst wird [4, 34, 8, 42, 44]. Interessanterweise wurde festgestellt, dass visuelle Kontextinformationen automatisch und mühelos in Gesichtsausdrücke integriert werden [2]. Sie können auch Gesichtsausdrücke bei emotionalen Beurteilungen außer Kraft setzen [26] (Abbildung 1) und sogar die Emotionswahrnehmung in den frühen Stadien der visuellen Verarbeitung beeinflussen [7]. Tatsächlich sind Kontextinformationen oft genauso wertvoll, um die Emotionen einer Person zu verstehen, wie das Gesicht selbst [8, 9, 10]. Die zunehmenden Belege für die Bedeutung kontextueller Informationen bei der Emotionserkennung [4] erfordern, dass Forscher die experimentellen Paradigmen, in denen sie die menschliche Emotionserkennung untersuchen, neu bewerten. Um beispielsweise die Mechanismen und Prozesse, die bei alltäglichen sozialen Interaktionen zur menschlichen Emotionserkennung führen, besser zu verstehen, sollte die Generalisierbarkeit von Forschungsstudien ernsthaft in Betracht gezogen werden. Am wichtigsten ist, dass Datensätze für die Emotions- und Affektverfolgung nicht nur Gesichter oder isolierte bestimmte Charaktere enthalten sollten, sondern auch kontextuelle Faktoren wie visuelle Szeneninformationen im Hintergrund und Interaktionen zwischen Charakteren.
Um den emotionalen Zustand von Menschen darzustellen, haben zahlreiche Studien in Psychologie und Neurowissenschaften Methoden zur Quantifizierung des emotionalen Zustands von Menschen vorgeschlagen, die sowohl kategorische als auch kontinuierliche Emotionsmodelle umfassen. Die bekannteste und vorherrschende kategorische Emotionstheorie ist die Theorie der Grundemotionen, die besagt, dass bestimmte Emotionen kulturübergreifend universell anerkannt sind (Wut, Angst, Glück usw.) und dass sich alle Emotionen in ihrer Verhaltens- und physiologischen Reaktion, ihrer Bewertung und ihrem Ausdruck unterscheiden [16]. Alternativ dazu geht das Circumplex-Modell der Affekte, ein kontinuierliches Emotionsmodell, davon aus, dass alle affektiven Zustände aus zwei neurophysiologischen Systemen entstehen, die mit Valenz und Erregung zusammenhängen, und dass alle Emotionen durch eine lineare Kombination dieser beiden Dimensionen beschrieben werden können [52, 47, 53]. Ein anderes Modell der Emotionserkennung, das Facial Action Coding System-Modell, besagt, dass alle Gesichtsausdrücke in die Kernkomponenten von Muskelbewegungen, sogenannte Aktionseinheiten, zerlegt werden können [17]. Frühere Emotionserkennungsmodelle wurden unter Berücksichtigung dieser verschiedenen Modelle entwickelt [61, 63, 41]. Allerdings konzentrieren sich nur wenige Modelle auf die Messung von Affekten mithilfe kontinuierlicher Dimensionen, was bedauerlicherweise auf den Mangel an kommentierten Datenbanken für die affektive Datenverarbeitung zurückzuführen ist.
Basierend auf den oben genannten Emotionsmetriken wurden viele Datensätze zur Emotionserkennung entwickelt. Frühe Datensätze wie SAL [15], SEMAINE [39], Belfast induced [58], DEAP [28] und MAHNOB-HCI [59] werden unter streng kontrollierten Laborbedingungen gesammelt und weisen normalerweise eine geringe Datengröße auf. Diesen früheren Datensätzen mangelt es an Vielfalt in Bezug auf Charaktere, Bewegungen, Szenenbeleuchtung und Hintergründe. Darüber hinaus sind die Darstellungen in frühen Datensätzen normalerweise diskret. Neuere Datensätze wie RECOLA [49], MELD [46], OMG-Emotion-Datensatz [5], Aff-Wild [69] und Aff-Wild2 [29, 30] beginnen, emotionale Zustände über kontinuierliche Bewertungen zu erfassen und verwenden Videos im Internet oder sogenannte „in-the-wild“. Diesen Datensätzen fehlen jedoch Kontextinformationen und sie konzentrieren sich ausschließlich auf Gesichtsausdrücke. Die Frames werden von Charakteren oder bestimmten Gesichtern dominiert. Darüber hinaus haben die oben genannten Datensätze nur begrenzte Annotatoren (normalerweise weniger als 10). Da es bei menschlichen Beobachtern starke individuelle Unterschiede gibt und sie in vielen Fällen verzerrt sind [12, 45, 48], kann die Verwendung begrenzter Annotatoren zu erheblichen Annotationsverzerrungen führen.
In dieser Studie stellen wir den Video-based Emotion and Affect Tracking in Context Dataset (VEATIC, /ve"ætIc/) vor, einen großen Datensatz, der sowohl für Psychologie- als auch Computer-Vision-Gruppen von Nutzen sein kann. Der Datensatz umfasst 124 Videoclips aus Hollywood-Filmen, Dokumentationen und Heimvideos mit kontinuierlichen Valenz- und Erregungsbewertungen jedes Frames durch Echtzeit-Annotation. Wir haben auch eine große Anzahl von Teilnehmern rekrutiert, um die Daten zu annotieren. Basierend auf diesem Datensatz schlagen wir eine neue Computer-Vision-Aufgabe vor, nämlich die automatische Ableitung der Affekte des ausgewählten Charakters über Kontext- und Charakterinformationen in jedem Video-Frame. In dieser Studie bieten wir auch eine einfache Lösung für diese Aufgabe. Experimente zeigen die Wirksamkeit der Methode sowie die Vorteile des vorgeschlagenen VEATIC-Datensatzes. Kurz gesagt sind die wichtigsten Beiträge dieser Arbeit:
• Wir erstellen den ersten großen Videodatensatz, VEATIC, für die Verfolgung von Emotionen und Affekten, der sowohl Gesichtszüge als auch Kontextfaktoren enthält. Der Datensatz verfügt über kontinuierliche Valenz- und Erregungsbewertungen für jedes Bild.
• Um die Verzerrungen durch die Annotatoren zu verringern, haben wir eine große Gruppe von Annotatoren (insgesamt 192) rekrutiert, um den Datensatz im Vergleich zu vorherigen Datensätzen (normalerweise weniger als 10) zu annotieren.
• Wir bieten ein Basismodell zur Vorhersage der Erregung und Valenz des ausgewählten Charakters aus jedem Frame unter Verwendung von Charakterinformationen und Kontextfaktoren.
Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar .