Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.
Autoren:
(1) Zhihang Ren, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(2) Jefferson Ortega, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(3) Yifan Wang, University of California, Berkeley und diese Autoren haben zu gleichen Teilen zu dieser Arbeit beigetragen (E-Mail: [email protected]);
(4) Zhimin Chen, University of California, Berkeley (E-Mail: [email protected]);
(5) Yunhui Guo, University of Texas at Dallas (E-Mail: [email protected]);
(6) Stella X. Yu, University of California, Berkeley und University of Michigan, Ann Arbor (E-Mail: [email protected]);
(7) David Whitney, University of California, Berkeley (E-Mail: [email protected]).
Alle im VEATIC-Datensatz verwendeten Videos wurden von einer Online-Video-Sharing-Website (YouTube) ausgewählt. Der VEATIC-Datensatz enthält 124 Videoclips, 104 Clips aus Hollywood-Filmen, 15 Clips aus Heimvideos und 5 Clips aus Dokumentarfilmen oder Reality-TV-Shows. Genauer gesagt klassifizieren wir Dokumentarvideos als alle Videos, die offene soziale Interaktionen zeigen, aber in irgendeiner Form Videobearbeitung aufweisen, während sich Heimvideos auf Videos beziehen, die offene soziale Interaktionen ohne Videobearbeitung zeigen. Alle Videos im Datensatz hatten eine Bildrate von 25 Bildern pro Sekunde und lagen in der Auflösung, wobei die niedrigste 202 x 360 und die höchste 1920 x 1080 betrug.
Außer der Übersicht der Videobilder in Abbildung 2 zeigen wir in Abbildung 9 weitere Beispiele. Im Gegensatz zu zuvor veröffentlichten Datensätzen, in denen die meisten Bilder die Hauptfigur enthalten [31, 29, 32], enthält VEATIC außerdem nicht nur Bilder mit der ausgewählten Figur, sondern auch viele Bilder mit nicht ausgewählten Figuren und reinen Hintergründen (Abbildung 10). Daher ähnelt VEATIC unseren Alltagsszenarien stärker, und die darauf trainierten Algorithmen sind für Alltagsanwendungen vielversprechender.
Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar .