Cet article est disponible sur arxiv sous licence CC 4.0.
Auteurs:
(1) Zhihang Ren, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;
(2) Jefferson Ortega, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;
(3) Yifan Wang, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;
(4) Zhimin Chen, Université de Californie, Berkeley (E-mail : [email protected]) ;
(5) Yunhui Guo, Université du Texas à Dallas (E-mail : [email protected]) ;
(6) Stella X. Yu, Université de Californie, Berkeley et Université du Michigan, Ann Arbor (E-mail : [email protected]) ;
(7) David Whitney, Université de Californie, Berkeley (E-mail : [email protected]).
L'un des avantages de l'ensemble de données VEATIC est qu'il comporte plusieurs annotateurs pour chaque vidéo, le nombre minimum d'annotateurs pour une vidéo donnée étant de 25 et le maximum étant de 73. La perception des émotions est subjective et les jugements des observateurs peuvent varier selon plusieurs personnes. De nombreux ensembles de données sur les émotions publiés précédemment comportent un nombre très faible d'annotateurs, n'ayant souvent qu'un nombre d'annotateurs à un chiffre (n < 10). Avoir si peu d’annotateurs est problématique en raison de la variance accrue entre les observateurs. Pour le montrer, nous avons calculé la façon dont la note moyenne de chaque vidéo de notre ensemble de données variait si nous échantillonnions au hasard, avec remplacement, cinq annotateurs par rapport à tous les annotateurs. Nous avons répété ce processus 1 000 fois pour chaque vidéo et calculé l'écart type de la note moyenne recalculée. La figure 12a montre comment l'écart type de l'évaluation consensuelle entre les vidéos varie si nous utilisons cinq ou tous les annotateurs pour chaque vidéo. Cette analyse montre qu'avoir plus d'annotateurs conduit à des écarts types beaucoup plus faibles dans l'évaluation consensuelle, ce qui peut conduire à des représentations plus précises de l'émotion de la vérité terrain dans les vidéos.
De plus, nous avons étudié la manière dont les réponses des observateurs variaient d'une vidéo à l'autre en calculant l'écart type entre les observateurs pour chaque vidéo. La figure 12b montre les écarts types entre les vidéos. Nous constatons que les écarts types pour les dimensions de valence et d'éveil étaient faibles, la valence ayant un écart type moyen de µ = 0,248 et une médiane de 0,222 et l'éveil ayant un écart type moyen de µ = 0,248 et une médiane de 0,244, qui sont comparables. avec la variance de la valence et de l'évaluation de l'éveil par rapport à EMOTIC [32].
Cet article est disponible sur arxiv sous licence CC 4.0.