Cet article est disponible sur arxiv sous licence CC 4.0.
Auteurs:
(1) Zhihang Ren, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;
(2) Jefferson Ortega, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;
(3) Yifan Wang, Université de Californie, Berkeley et ces auteurs ont contribué à parts égales à ce travail (E-mail : [email protected]) ;
(4) Zhimin Chen, Université de Californie, Berkeley (E-mail : [email protected]) ;
(5) Yunhui Guo, Université du Texas à Dallas (E-mail : [email protected]) ;
(6) Stella X. Yu, Université de Californie, Berkeley et Université du Michigan, Ann Arbor (E-mail : [email protected]) ;
(7) David Whitney, Université de Californie, Berkeley (E-mail : [email protected]).
Toutes les vidéos utilisées dans l'ensemble de données VEATIC ont été sélectionnées sur un site Web de partage de vidéos en ligne (YouTube). L'ensemble de données VEATIC contient 124 clips vidéo, 104 clips de films hollywoodiens, 15 clips de vidéos personnelles et 5 clips de documentaires ou d'émissions de télé-réalité. Plus précisément, nous classons les vidéos documentaires comme toutes les vidéos qui montrent des interactions sociales franches mais comportent une certaine forme de montage vidéo, tandis que les vidéos personnelles font référence aux vidéos qui montrent des interactions sociales franches sans aucun montage vidéo. Toutes les vidéos de l'ensemble de données avaient une fréquence d'images de 25 images par seconde et une résolution variée, la plus basse étant de 202 x 360 et la plus élevée étant de 1 920 x 1 080.
À l'exception de l'aperçu des images vidéo dans la figure 2, nous montrons plus d'échantillons dans la figure 9. De plus, contrairement aux ensembles de données précédemment publiés où la plupart des images contiennent le personnage principal [31, 29, 32], VEATIC a non seulement des images contenant le personnage sélectionné, mais il existe également de nombreuses images contenant des personnages non sélectionnés et des arrière-plans purs (Figure 10). Par conséquent, VEATIC ressemble davantage à nos scénarios de la vie quotidienne et les algorithmes formés sur celui-ci seront plus prometteurs pour les applications quotidiennes.
Cet article est disponible sur arxiv sous licence CC 4.0.