paint-brush
VEATIC : Suivi vidéo des émotions et des effets dans un ensemble de données contextuelles : Ensemble de données VEATICpar@kinetograph

VEATIC : Suivi vidéo des émotions et des effets dans un ensemble de données contextuelles : Ensemble de données VEATIC

Trop long; Pour lire

Dans cet article, les chercheurs présentent l’ensemble de données VEATIC pour la reconnaissance des effets humains, en abordant les limites des ensembles de données existants et en permettant une inférence basée sur le contexte.
featured image - VEATIC : Suivi vidéo des émotions et des effets dans un ensemble de données contextuelles : Ensemble de données VEATIC
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Cet article est disponible sur arxiv sous licence CC 4.0.

Auteurs:

(1) Zhihang Ren, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;

(2) Jefferson Ortega, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;

(3) Yifan Wang, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;

(4) Zhimin Chen, Université de Californie, Berkeley (E-mail : [email protected]) ;

(5) Yunhui Guo, Université du Texas à Dallas (E-mail : [email protected]) ;

(6) Stella X. Yu, Université de Californie, Berkeley et Université du Michigan, Ann Arbor (E-mail : [email protected]) ;

(7) David Whitney, Université de Californie, Berkeley (E-mail : [email protected]).

Tableau des liens

3. Ensemble de données VEATIC

Dans cette section, nous présentons l'ensemble de données de suivi vidéo des émotions et des effets en contexte ( VEATIC ). Tout d’abord, nous décrivons comment nous avons obtenu tous les clips vidéo. Ensuite, nous illustrons les procédures d'annotation des données et le processus de prétraitement. Enfin, nous rapportons des statistiques importantes sur les ensembles de données et visualisons les résultats de l'analyse des données.

3.1. Acquisition de clips vidéo

Tous les clips vidéo utilisés dans l'ensemble de données ont été acquis à partir d'un site Web de partage de vidéos en ligne (YouTube) et les clips vidéo ont été sélectionnés sur la base du fait que les émotions/affects des personnages dans les clips doivent varier dans le temps. Au total, l'ensemble de données VEATIC contient 124 clips vidéo, 104 clips de films hollywoodiens, 15 clips de vidéos personnelles et 5 clips de documentaires ou d'émissions de télé-réalité. Des exemples de cadres de l’ensemble de données VEATIC sont présentés dans la (Figure 2). Ces vidéos contiennent de zéro à plusieurs personnages en interaction. Tous les sons ont été supprimés des vidéos afin que les observateurs n'aient accès qu'aux informations visuelles lorsqu'ils suivaient l'émotion du personnage cible.


Figure 2. Aperçu des images vidéo dans VEATIC. Nous avons échantillonné 4 images clés de 5 vidéos de notre ensemble de données. Contrairement à d’autres ensembles de données où la source des clips vidéo est unique, les clips vidéo de VEATIC proviennent de sources différentes. Ils comprennent des films hollywoodiens, des documentaires et des vidéos faites maison. Ainsi, cela donnerait au modèle formé sur notre ensemble de données une plus grande capacité de généralisation. Pour l'entrée visuelle, VEATIC contient diverses informations contextuelles, notamment différents arrière-plans, conditions d'éclairage, interactions entre personnages, etc. Cela rend l'ensemble de données plus représentatif de notre vie quotidienne. Enfin, l’émotion/l’affect du personnage sélectionné varie beaucoup dans chaque clip vidéo, ce qui rend la modélisation de l’affect du personnage dans VEATIC plus difficile.

3.2. Annotation et prétraitement des données

Au total, nous avons eu 192 observateurs qui ont participé à l'annotation des vidéos de l'ensemble de données. Tous les participants ont donné leur consentement signé conformément aux directives et réglementations du comité d'examen institutionnel de l'UC Berkeley et toutes les procédures expérimentales ont été approuvées.


Les participants ont regardé et évalué un total de 124 vidéos dans l'ensemble de données. Pour éviter que les observateurs ne se fatiguent, nous avons divisé la procédure d'annotation en deux sessions d'annotation d'une heure et 30 minutes. Avant que les participants puissent annoter des vidéos, on leur a montré une version imprimée de la grille d'évaluation des effets de valence-excitation avec des exemples d'émotions étiquetées à différents endroits de la grille selon les évaluations fournies par Bradley et Lang (1999) [6]. Les annotateurs ont été invités à se familiariser avec les dimensions et les exemples d'emplacements de mots qu'ils utiliseraient plus tard dans le processus d'annotation. Une fois que les participants se sont familiarisés avec la grille d'évaluation des effets, ils ont ensuite complété une annotation pratique de deux minutes au cours de laquelle ils ont suivi en continu la valence et l'excitation d'un personnage cible dans une vidéo (Figure 3b). Les annotateurs ont reçu pour instruction de suivre la valence et l'éveil du personnage cible dans la vidéo en déplaçant continuellement le pointeur de leur souris en temps réel dans la grille 2D d'éveil-valence. La grille correspondrait à leurs notes de valence et d'éveil dans la plage de [−1, 1]. Pour contrôler les biais moteurs potentiels, nous avons contrebalancé les dimensions de valence-excitation entre les participants où la moitié des annotateurs avaient la valence sur l'axe des x et l'excitation sur l'axe des y et l'autre moitié avait les dimensions inversées de sorte que l'excitation soit sur l'axe des x. -l'axe et la valence étaient sur l'axe des y. Une fois que les observateurs ont terminé la séance d’exercices d’annotation, ils ont ensuite commencé à annoter les vidéos dans l’ensemble de données.


Figure 3. Interface utilisateur utilisée pour l'annotation vidéo. a) Les participants ont d'abord vu le personnage cible et se sont vu rappeler les instructions de la tâche avant le début de chaque vidéo. b) La grille de valence et d'éveil superposée qui était présente pendant que les observateurs annotaient les vidéos. Les observateurs ont reçu pour instruction d'évaluer en continu et en temps réel l'émotion du personnage cible dans la vidéo. Si les observateurs ne bougeaient pas leur souris pendant plus de 10 secondes, la grille d'évaluation des réponses clignoterait pour rappeler à l'observateur d'évaluer en permanence l'émotion.


Avant que les participants ne commencent les annotations, on leur a montré une image avec le personnage cible encerclé (Figure 3a) qui informe les participants du personnage qu'ils suivront au début de la vidéo. Ensuite, ils ont annoté les clips vidéo en temps réel. À la fin de chaque annotation vidéo, les participants ont indiqué leur familiarité avec le clip vidéo en utilisant une échelle de Likert discrète de 1 à 5 allant de « Pas familier », « Légèrement familier », « Assez familier », « Modérément familier » et « Extrêmement familier ». familier". Les participants ont également été interrogés sur leur niveau de plaisir en regardant le clip, évalué à l'aide d'une échelle de Likert discrète de 1 à 9 allant de 1 (pas agréable) à 9 (extrêmement agréable). De plus, afin de ne pas ennuyer les participants, les 124 clips vidéo ont été divisés en deux sessions. Les participants ont évalué les clips vidéo au cours de deux sessions distinctes.


Au cours de chaque essai, nous avons évalué si les participants n'étaient pas attentifs en suivant la durée pendant laquelle ils maintenaient le pointeur de la souris à un endroit donné. Si la durée était supérieure à 10 secondes, la grille d'évaluation des effets commençait à fluctuer, ce qui rappelait aux participants de continuer à suivre l'émotion du personnage cible. Afin d'évaluer s'il y avait des annotateurs bruyants dans notre ensemble de données, nous avons calculé l'accord de chaque annotateur individuel avec le consensus en calculant la corrélation de Pearson entre chaque annotateur et le consensus de non-participation (agrégat des réponses à l'exception de l'annotateur actuel) pour chaque vidéo. Nous avons constaté qu'un seul annotateur présentait une corrélation inférieure à 0,2 sur toutes les vidéos avec le consensus « Leave-One-Out ». Étant donné qu'un seul annotateur est tombé en dessous de notre seuil, nous avons décidé de conserver l'annotateur dans l'ensemble de données afin de ne supprimer aucune annotation alternative importante aux vidéos.


Figure 4. Visualisation des évaluations moyennes de l'échantillon de valence et d'excitation pour des clips vidéo spécifiques avec la vue zoomée du personnage sélectionné. Nous montrons les images clés liées aux évaluations moyennes spécifiques de la valence et de l'éveil. Les cadres et notes correspondants sont marqués de la même couleur.

3.3. Visualisation et analyse des données

La figure 4 montre des exemples de notes moyennes et d'images clés dans 2 clips vidéo différents. De toute évidence, la valence et l’excitation ont ici un large éventail d’évaluations. De plus, cela montre que les informations contextuelles, spatiales et/ou temporelles, jouent un rôle important dans les tâches de reconnaissance des émotions. Dans l’exemple de valence (figure du haut), sans les informations contextuelles temporelles et/ou spatiales des combats, il serait difficile de reconnaître si le personnage (la femme) dans la dernière image (jaune) est étonnamment heureux ou étonné. Dans l'exemple d'excitation (figure du bas), même sans le visage du personnage sélectionné, les observateurs peuvent facilement et systématiquement déduire l'excitation du personnage via le contexte intense.


Figure 5. Exemples d'évaluations de valence et d'éveil pour une seule vidéo (vidéo 47). Les lignes grises transparentes indiquent les notes individuelles des sujets et la ligne verte représente la note moyenne des participants.


La figure 5 illustre un exemple d'évaluation de la valence et de l'excitation de tous les participants pour une seule vidéo de notre ensemble de données. Les évaluations des sujets individuels (lignes grises) suivaient les évaluations consensuelles des participants (ligne verte) pour les évaluations de valence et d'éveil. La ligne grise dense qui chevauche la ligne verte de consensus indique des accords entre un large éventail d’observateurs. De plus, nous avons étudié la manière dont les réponses des observateurs variaient d'une vidéo à l'autre en calculant l'écart type entre les observateurs pour chaque vidéo. Nous avons constaté que la variance entre les observateurs pour les dimensions de valence et d'éveil était faible, la valence ayant un écart type moyen de µ = 0,248 et une médiane de 0,222 et l'éveil ayant un écart type moyen de µ = 0,248 et une médiane de 0,244, qui sont comparable à la variance de la valence et de l'évaluation de l'éveil d'EMOTIC (32).


La distribution des évaluations de valence et d'éveil dans toutes nos vidéos est présentée dans la figure 6. Nous avons constaté que les évaluations individuelles des participants étaient entièrement réparties entre les dimensions de valence et d'éveil, ce qui met en évidence la diversité de l'ensemble de données VEATIC. Nous avons également collecté des notes de familiarité et de plaisir pour chaque vidéo auprès des participants (illustré dans la figure 7). Nous avons constaté que les observateurs n'étaient pas familiers avec les vidéos utilisées dans l'ensemble de données, car l'indice de familiarité moyen était de 1,61 pour les identifiants vidéo 0 à 97. De plus, les observateurs ont évalué leur plaisir à regarder les vidéos à une moyenne de 4,98 pour les identifiants vidéo 0 à 97, ce qui indique que les observateurs ont modérément apprécié regarder et annoter les clips vidéo. Les notes de familiarité et de plaisir n'ont pas été collectées pour les ID vidéo 98 à 123, car les annotations de ces vidéos ont été collectées à un moment antérieur au cours de la collecte de données qui n'incluaient pas ces notes.


Figure 6. Répartition des notes de valence et d’éveil parmi les participants. Les points blancs individuels représentent la valence moyenne et l'éveil des notes continues pour chaque clip vidéo des films hollywoodiens. Les carrés bleus et les triangles verts représentent respectivement la valence et l'excitation moyennes pour les documentaires et les vidéos personnelles. Les notes ont été regroupées en intervalles de 0,02 et le nombre total de points de données a été compté dans chaque catégorie.


Figure 7. Notes de familiarité et de plaisir pour les vidéos pour les ID vidéo 0 à 97. Les lignes noires verticales indiquent 1 SD.


Le tableau 2 ci-dessous résume les statistiques de base de l'ensemble de données VEATIC. En un mot, VEATIC propose une longue durée totale de clips vidéo et une variété de sources vidéo qui couvrent un large éventail de contextes et de conditions émotionnelles. De plus, par rapport aux ensembles de données précédents, nous avons recruté beaucoup plus de participants pour annoter les notes.


Tableau 2. Statistiques de l'ensemble de données VEATIC.



Cet article est disponible sur arxiv sous licence CC 4.0.