328 lectures

VEATIC : Suivi vidéo des émotions et des effets dans un ensemble de données contextuelles : accord de sujet dans les vidéos

par Kinetograph: The Video Editing Technology Publication3m2024/05/27

Trop long; Pour lire

Dans cet article, les chercheurs présentent l’ensemble de données VEATIC pour la reconnaissance des effets humains, en abordant les limites des ensembles de données existants et en permettant une inférence basée sur le contexte.

featured image - VEATIC : Suivi vidéo des émotions et des effets dans un ensemble de données contextuelles : accord de sujet dans les vidéos

Cet article est disponible sur arxiv sous licence CC 4.0.

Auteurs:

(1) Zhihang Ren, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;

(2) Jefferson Ortega, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;

(3) Yifan Wang, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;

(4) Zhimin Chen, Université de Californie, Berkeley (E-mail : [email protected]) ;

(5) Yunhui Guo, Université du Texas à Dallas (E-mail : [email protected]) ;

(6) Stella X. Yu, Université de Californie, Berkeley et Université du Michigan, Ann Arbor (E-mail : [email protected]) ;

(7) David Whitney, Université de Californie, Berkeley (E-mail : [email protected]).

Tableau des liens

10. Accord d'objet sur les vidéos

L'un des avantages de l'ensemble de données VEATIC est qu'il comporte plusieurs annotateurs pour chaque vidéo, le nombre minimum d'annotateurs pour une vidéo donnée étant de 25 et le maximum étant de 73. La perception des émotions est subjective et les jugements des observateurs peuvent varier selon plusieurs personnes. De nombreux ensembles de données sur les émotions publiés précédemment comportent un nombre très faible d'annotateurs, n'ayant souvent qu'un nombre d'annotateurs à un chiffre (n < 10). Avoir si peu d’annotateurs est problématique en raison de la variance accrue entre les observateurs. Pour le montrer, nous avons calculé la façon dont la note moyenne de chaque vidéo de notre ensemble de données variait si nous échantillonnions au hasard, avec remplacement, cinq annotateurs par rapport à tous les annotateurs. Nous avons répété ce processus 1 000 fois pour chaque vidéo et calculé l'écart type de la note moyenne recalculée. La figure 12a montre comment l'écart type de l'évaluation consensuelle entre les vidéos varie si nous utilisons cinq ou tous les annotateurs pour chaque vidéo. Cette analyse montre qu'avoir plus d'annotateurs conduit à des écarts types beaucoup plus faibles dans l'évaluation consensuelle, ce qui peut conduire à des représentations plus précises de l'émotion de la vérité terrain dans les vidéos.

De plus, nous avons étudié la manière dont les réponses des observateurs variaient d'une vidéo à l'autre en calculant l'écart type entre les observateurs pour chaque vidéo. La figure 12b montre les écarts types entre les vidéos. Nous constatons que les écarts types pour les dimensions de valence et d'éveil étaient faibles, la valence ayant un écart type moyen de µ = 0,248 et une médiane de 0,222 et l'éveil ayant un écart type moyen de µ = 0,248 et une médiane de 0,244, qui sont comparables. avec la variance de la valence et de l'évaluation de l'éveil par rapport à EMOTIC [32].