Cet article est disponible sur arxiv sous licence CC 4.0.
Auteurs:
(1) Zhihang Ren, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;
(2) Jefferson Ortega, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;
(3) Yifan Wang, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;
(4) Zhimin Chen, Université de Californie, Berkeley (E-mail : [email protected]) ;
(5) Yunhui Guo, Université du Texas à Dallas (E-mail : [email protected]) ;
(6) Stella X. Yu, Université de Californie, Berkeley et Université du Michigan, Ann Arbor (E-mail : [email protected]) ;
(7) David Whitney, Université de Californie, Berkeley (E-mail : [email protected]).
Dans cette section, nous présentons l'ensemble de données de suivi vidéo des émotions et des effets en contexte ( VEATIC ). Tout d’abord, nous décrivons comment nous avons obtenu tous les clips vidéo. Ensuite, nous illustrons les procédures d'annotation des données et le processus de prétraitement. Enfin, nous rapportons des statistiques importantes sur les ensembles de données et visualisons les résultats de l'analyse des données.
Tous les clips vidéo utilisés dans l'ensemble de données ont été acquis à partir d'un site Web de partage de vidéos en ligne (YouTube) et les clips vidéo ont été sélectionnés sur la base du fait que les émotions/affects des personnages dans les clips doivent varier dans le temps. Au total, l'ensemble de données VEATIC contient 124 clips vidéo, 104 clips de films hollywoodiens, 15 clips de vidéos personnelles et 5 clips de documentaires ou d'émissions de télé-réalité. Des exemples de cadres de l’ensemble de données VEATIC sont présentés dans la (Figure 2). Ces vidéos contiennent de zéro à plusieurs personnages en interaction. Tous les sons ont été supprimés des vidéos afin que les observateurs n'aient accès qu'aux informations visuelles lorsqu'ils suivaient l'émotion du personnage cible.
Au total, nous avons eu 192 observateurs qui ont participé à l'annotation des vidéos de l'ensemble de données. Tous les participants ont donné leur consentement signé conformément aux directives et réglementations du comité d'examen institutionnel de l'UC Berkeley et toutes les procédures expérimentales ont été approuvées.
Les participants ont regardé et évalué un total de 124 vidéos dans l'ensemble de données. Pour éviter que les observateurs ne se fatiguent, nous avons divisé la procédure d'annotation en deux sessions d'annotation d'une heure et 30 minutes. Avant que les participants puissent annoter des vidéos, on leur a montré une version imprimée de la grille d'évaluation des effets de valence-excitation avec des exemples d'émotions étiquetées à différents endroits de la grille selon les évaluations fournies par Bradley et Lang (1999) [6]. Les annotateurs ont été invités à se familiariser avec les dimensions et les exemples d'emplacements de mots qu'ils utiliseraient plus tard dans le processus d'annotation. Une fois que les participants se sont familiarisés avec la grille d'évaluation des effets, ils ont ensuite complété une annotation pratique de deux minutes au cours de laquelle ils ont suivi en continu la valence et l'excitation d'un personnage cible dans une vidéo (Figure 3b). Les annotateurs ont reçu pour instruction de suivre la valence et l'éveil du personnage cible dans la vidéo en déplaçant continuellement le pointeur de leur souris en temps réel dans la grille 2D d'éveil-valence. La grille correspondrait à leurs notes de valence et d'éveil dans la plage de [−1, 1]. Pour contrôler les biais moteurs potentiels, nous avons contrebalancé les dimensions de valence-excitation entre les participants où la moitié des annotateurs avaient la valence sur l'axe des x et l'excitation sur l'axe des y et l'autre moitié avait les dimensions inversées de sorte que l'excitation soit sur l'axe des x. -l'axe et la valence étaient sur l'axe des y. Une fois que les observateurs ont terminé la séance d’exercices d’annotation, ils ont ensuite commencé à annoter les vidéos dans l’ensemble de données.
Avant que les participants ne commencent les annotations, on leur a montré une image avec le personnage cible encerclé (Figure 3a) qui informe les participants du personnage qu'ils suivront au début de la vidéo. Ensuite, ils ont annoté les clips vidéo en temps réel. À la fin de chaque annotation vidéo, les participants ont indiqué leur familiarité avec le clip vidéo en utilisant une échelle de Likert discrète de 1 à 5 allant de « Pas familier », « Légèrement familier », « Assez familier », « Modérément familier » et « Extrêmement familier ». familier". Les participants ont également été interrogés sur leur niveau de plaisir en regardant le clip, évalué à l'aide d'une échelle de Likert discrète de 1 à 9 allant de 1 (pas agréable) à 9 (extrêmement agréable). De plus, afin de ne pas ennuyer les participants, les 124 clips vidéo ont été divisés en deux sessions. Les participants ont évalué les clips vidéo au cours de deux sessions distinctes.
Au cours de chaque essai, nous avons évalué si les participants n'étaient pas attentifs en suivant la durée pendant laquelle ils maintenaient le pointeur de la souris à un endroit donné. Si la durée était supérieure à 10 secondes, la grille d'évaluation des effets commençait à fluctuer, ce qui rappelait aux participants de continuer à suivre l'émotion du personnage cible. Afin d'évaluer s'il y avait des annotateurs bruyants dans notre ensemble de données, nous avons calculé l'accord de chaque annotateur individuel avec le consensus en calculant la corrélation de Pearson entre chaque annotateur et le consensus de non-participation (agrégat des réponses à l'exception de l'annotateur actuel) pour chaque vidéo. Nous avons constaté qu'un seul annotateur présentait une corrélation inférieure à 0,2 sur toutes les vidéos avec le consensus « Leave-One-Out ». Étant donné qu'un seul annotateur est tombé en dessous de notre seuil, nous avons décidé de conserver l'annotateur dans l'ensemble de données afin de ne supprimer aucune annotation alternative importante aux vidéos.
La figure 4 montre des exemples de notes moyennes et d'images clés dans 2 clips vidéo différents. De toute évidence, la valence et l’excitation ont ici un large éventail d’évaluations. De plus, cela montre que les informations contextuelles, spatiales et/ou temporelles, jouent un rôle important dans les tâches de reconnaissance des émotions. Dans l’exemple de valence (figure du haut), sans les informations contextuelles temporelles et/ou spatiales des combats, il serait difficile de reconnaître si le personnage (la femme) dans la dernière image (jaune) est étonnamment heureux ou étonné. Dans l'exemple d'excitation (figure du bas), même sans le visage du personnage sélectionné, les observateurs peuvent facilement et systématiquement déduire l'excitation du personnage via le contexte intense.
La figure 5 illustre un exemple d'évaluation de la valence et de l'excitation de tous les participants pour une seule vidéo de notre ensemble de données. Les évaluations des sujets individuels (lignes grises) suivaient les évaluations consensuelles des participants (ligne verte) pour les évaluations de valence et d'éveil. La ligne grise dense qui chevauche la ligne verte de consensus indique des accords entre un large éventail d’observateurs. De plus, nous avons étudié la manière dont les réponses des observateurs variaient d'une vidéo à l'autre en calculant l'écart type entre les observateurs pour chaque vidéo. Nous avons constaté que la variance entre les observateurs pour les dimensions de valence et d'éveil était faible, la valence ayant un écart type moyen de µ = 0,248 et une médiane de 0,222 et l'éveil ayant un écart type moyen de µ = 0,248 et une médiane de 0,244, qui sont comparable à la variance de la valence et de l'évaluation de l'éveil d'EMOTIC (32).
La distribution des évaluations de valence et d'éveil dans toutes nos vidéos est présentée dans la figure 6. Nous avons constaté que les évaluations individuelles des participants étaient entièrement réparties entre les dimensions de valence et d'éveil, ce qui met en évidence la diversité de l'ensemble de données VEATIC. Nous avons également collecté des notes de familiarité et de plaisir pour chaque vidéo auprès des participants (illustré dans la figure 7). Nous avons constaté que les observateurs n'étaient pas familiers avec les vidéos utilisées dans l'ensemble de données, car l'indice de familiarité moyen était de 1,61 pour les identifiants vidéo 0 à 97. De plus, les observateurs ont évalué leur plaisir à regarder les vidéos à une moyenne de 4,98 pour les identifiants vidéo 0 à 97, ce qui indique que les observateurs ont modérément apprécié regarder et annoter les clips vidéo. Les notes de familiarité et de plaisir n'ont pas été collectées pour les ID vidéo 98 à 123, car les annotations de ces vidéos ont été collectées à un moment antérieur au cours de la collecte de données qui n'incluaient pas ces notes.
Le tableau 2 ci-dessous résume les statistiques de base de l'ensemble de données VEATIC. En un mot, VEATIC propose une longue durée totale de clips vidéo et une variété de sources vidéo qui couvrent un large éventail de contextes et de conditions émotionnelles. De plus, par rapport aux ensembles de données précédents, nous avons recruté beaucoup plus de participants pour annoter les notes.
Cet article est disponible sur arxiv sous licence CC 4.0.