Этот документ доступен на arxiv под лицензией CC 4.0.
Авторы:
(1) Чжихан Рен, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);
(2) Джефферсон Ортега, Калифорнийский университет, Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);
(3) Ифань Ван, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);
(4) Чжимин Чен, Калифорнийский университет, Беркли (электронная почта: [email protected]);
(5) Юнхуэй Го, Техасский университет в Далласе (электронная почта: [email protected]);
(6) Стелла X. Ю, Калифорнийский университет, Беркли и Мичиганский университет, Анн-Арбор (электронная почта: [email protected]);
(7) Дэвид Уитни, Калифорнийский университет, Беркли (электронная почта: [email protected]).
Все видео, использованные в наборе данных VEATIC, были выбраны с веб-сайта онлайн-обмена видео (YouTube). Набор данных VEATIC содержит 124 видеоклипа, 104 клипа из голливудских фильмов, 15 клипов из домашних видео и 5 клипов из документальных фильмов или реалити-шоу. В частности, мы классифицируем документальные видео как любые видеоролики, демонстрирующие откровенное социальное взаимодействие, но с той или иной формой редактирования видео, а к домашним видео относятся видео, демонстрирующие откровенное социальное взаимодействие без какого-либо редактирования видео. Все видео в наборе данных имели частоту кадров 25 кадров в секунду и варьировались по разрешению: самое низкое — 202 x 360, а самое высокое — 1920 x 1080.
За исключением обзора видеокадров на рисунке 2, мы показываем больше примеров на рисунке 9. Более того, в отличие от ранее опубликованных наборов данных, где большинство кадров содержат главного героя [31, 29, 32], в VEATIC есть не только кадры, содержащие выбранный символ, но и также имеется множество кадров, содержащих невыделенные символы и чистый фон (рис. 10). Таким образом, VEATIC больше похож на сценарии нашей повседневной жизни, а обученные на нем алгоритмы будут более перспективны для повседневных приложений.
Этот документ доступен на arxiv под лицензией CC 4.0.