Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.
Autoren:
(1) Zhihang Ren, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(2) Jefferson Ortega, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(3) Yifan Wang, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(4) Zhimin Chen, University of California, Berkeley (E-Mail: [email protected]);
(5) Yunhui Guo, University of Texas at Dallas (E-Mail: [email protected]);
(6) Stella X. Yu, University of California, Berkeley und University of Michigan, Ann Arbor (E-Mail: [email protected]);
(7) David Whitney, University of California, Berkeley (E-Mail: [email protected]).
Ein Vorteil des VEATIC-Datensatzes ist, dass er mehrere Annotatoren für jedes Video hat, wobei die Mindestanzahl von Annotatoren für ein bestimmtes Video 25 und die Höchstanzahl 73 beträgt. Die Wahrnehmung von Emotionen ist subjektiv und die Beurteilungen der Beobachter können von Person zu Person unterschiedlich ausfallen. Viele der zuvor veröffentlichten Emotionsdatensätze haben eine sehr geringe Anzahl von Annotatoren, oft nur eine einstellige Anzahl (n < 10). So wenige Annotatoren zu haben ist problematisch, da die Varianz zwischen den Beobachtern zunimmt. Um dies zu zeigen, haben wir berechnet, wie die durchschnittliche Bewertung für jedes Video in unserem Datensatz variiert, wenn wir zufällig fünf oder alle Annotatoren mit Zurücklegen auswählen. Wir haben diesen Vorgang 1000 Mal für jedes Video wiederholt und die Standardabweichung der neu berechneten durchschnittlichen Bewertung berechnet. Abbildung 12a zeigt, wie die Standardabweichung der Konsensbewertung über Videos hinweg variiert, wenn wir entweder fünf oder alle Annotatoren für jedes Video verwenden. Diese Analyse zeigt, dass mehr Annotatoren zu viel kleineren Standardabweichungen in der Konsensbewertung führen, was zu genaueren Darstellungen der Grundwahrheit der Emotionen in den Videos führen kann.
Zusätzlich untersuchten wir, wie die Reaktionen der Beobachter zwischen den Videos variierten, indem wir die Standardabweichung aller Beobachter für jedes Video berechneten. Abbildung 12b zeigt die Standardabweichungen zwischen den Videos. Wir stellten fest, dass die Standardabweichungen sowohl für die Valenz- als auch für die Erregungsdimension gering waren, wobei die Valenz eine durchschnittliche Standardabweichung von µ = 0,248 und einen Median von 0,222 und die Erregung eine durchschnittliche Standardabweichung von µ = 0,248 und einen Median von 0,244 aufwies, was mit der Valenz- und Erregungsbewertungsvarianz von EMOTIC [32] vergleichbar ist.
Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar .