paint-brush
VEATIC: Videobasiertes Emotions- und Affekt-Tracking im Kontextdatensatz: Subjektübereinstimmung über Videos hinwegvon@kinetograph
280 Lesungen

VEATIC: Videobasiertes Emotions- und Affekt-Tracking im Kontextdatensatz: Subjektübereinstimmung über Videos hinweg

Zu lang; Lesen

In diesem Artikel stellen Forscher den VEATIC-Datensatz zur Erkennung menschlicher Affekte vor, der sich mit den Einschränkungen vorhandener Datensätze befasst und kontextbasierte Schlussfolgerungen ermöglicht.
featured image - VEATIC: Videobasiertes Emotions- und Affekt-Tracking im Kontextdatensatz: Subjektübereinstimmung über Videos hinweg
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.

Autoren:

(1) Zhihang Ren, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);

(2) Jefferson Ortega, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);

(3) Yifan Wang, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);

(4) Zhimin Chen, University of California, Berkeley (E-Mail: [email protected]);

(5) Yunhui Guo, University of Texas at Dallas (E-Mail: [email protected]);

(6) Stella X. Yu, University of California, Berkeley und University of Michigan, Ann Arbor (E-Mail: [email protected]);

(7) David Whitney, University of California, Berkeley (E-Mail: [email protected]).

Linktabelle

10. Themenvereinbarung für Videos

Ein Vorteil des VEATIC-Datensatzes ist, dass er mehrere Annotatoren für jedes Video hat, wobei die Mindestanzahl von Annotatoren für ein bestimmtes Video 25 und die Höchstanzahl 73 beträgt. Die Wahrnehmung von Emotionen ist subjektiv und die Beurteilungen der Beobachter können von Person zu Person unterschiedlich ausfallen. Viele der zuvor veröffentlichten Emotionsdatensätze haben eine sehr geringe Anzahl von Annotatoren, oft nur eine einstellige Anzahl (n < 10). So wenige Annotatoren zu haben ist problematisch, da die Varianz zwischen den Beobachtern zunimmt. Um dies zu zeigen, haben wir berechnet, wie die durchschnittliche Bewertung für jedes Video in unserem Datensatz variiert, wenn wir zufällig fünf oder alle Annotatoren mit Zurücklegen auswählen. Wir haben diesen Vorgang 1000 Mal für jedes Video wiederholt und die Standardabweichung der neu berechneten durchschnittlichen Bewertung berechnet. Abbildung 12a zeigt, wie die Standardabweichung der Konsensbewertung über Videos hinweg variiert, wenn wir entweder fünf oder alle Annotatoren für jedes Video verwenden. Diese Analyse zeigt, dass mehr Annotatoren zu viel kleineren Standardabweichungen in der Konsensbewertung führen, was zu genaueren Darstellungen der Grundwahrheit der Emotionen in den Videos führen kann.


Abbildung 9. Weitere Beispielvideobilder in VEATIC. Die Videoclips in VEATIC enthalten verschiedene Hintergründe, Lichtverhältnisse, Charakterinteraktionen usw., was es zu einem umfassenden Datensatz nicht nur für Aufgaben zur Emotionserkennung, sondern auch für andere Aufgaben zum Videoverständnis macht.


Abbildung 10. Beispielvideobilder von nicht ausgewählten Charakteren und reinem Hintergrund in VEATIC. Das erste Beispielbild in jeder Reihe zeigt den ausgewählten Charakter. Die restlichen Beispielbilder sind entweder nicht ausgewählte Charaktere oder reine Hintergründe.


Zusätzlich untersuchten wir, wie die Reaktionen der Beobachter zwischen den Videos variierten, indem wir die Standardabweichung aller Beobachter für jedes Video berechneten. Abbildung 12b zeigt die Standardabweichungen zwischen den Videos. Wir stellten fest, dass die Standardabweichungen sowohl für die Valenz- als auch für die Erregungsdimension gering waren, wobei die Valenz eine durchschnittliche Standardabweichung von µ = 0,248 und einen Median von 0,222 und die Erregung eine durchschnittliche Standardabweichung von µ = 0,248 und einen Median von 0,244 aufwies, was mit der Valenz- und Erregungsbewertungsvarianz von EMOTIC [32] vergleichbar ist.