이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.
저자:
(1) 캘리포니아 대학교 버클리 캠퍼스의 Zhihang Ren과 이들 저자는 이 연구에 동등하게 기여했습니다(이메일: [email protected]).
(2) 캘리포니아 대학교 버클리 캠퍼스의 Jefferson Ortega와 이들 저자는 이 작업에 동등하게 기여했습니다(이메일: [email protected]).
(3) University of California, Berkeley의 Yifan Wang과 이들 저자는 이 연구에 동등하게 기여했습니다(이메일: [email protected]).
(4) 캘리포니아 버클리 대학교 Zhimin Chen(이메일: [email protected]);
(5) 댈러스 텍사스 대학교 Yunhui Guo (이메일: [email protected]);
(6) Stella X. Yu, University of California, Berkeley 및 University of Michigan, Ann Arbor (이메일: [email protected]);
(7) David Whitney, University of California, Berkeley (이메일: [email protected]).
VEATIC 데이터세트에 사용된 모든 동영상은 온라인 동영상 공유 웹사이트(YouTube)에서 선택되었습니다. VEATIC 데이터 세트에는 124개의 비디오 클립, 할리우드 영화의 104개의 클립, 홈 비디오의 15개 클립, 다큐멘터리 또는 리얼리티 TV 프로그램의 5개 클립이 포함되어 있습니다. 구체적으로 다큐멘터리 비디오는 솔직한 사회적 상호작용을 보여주되 어떤 형태로든 영상 편집이 포함된 비디오로 분류되며, 홈비디오는 비디오 편집 없이 솔직한 사회적 상호작용을 보여주는 비디오를 의미합니다. 데이터 세트의 모든 비디오는 초당 25프레임의 프레임 속도를 가지며 해상도 범위는 최저 202 x 360, 최고 해상도 1920 x 1080입니다.
그림 2의 비디오 프레임 개요를 제외하고 그림 9에 더 많은 샘플이 나와 있습니다. 또한 대부분의 프레임에 주인공이 포함되어 있는 이전에 게시된 데이터 세트와 달리[31, 29, 32] VEATIC은 선택한 캐릭터를 포함하는 프레임뿐만 아니라 또한 선택되지 않은 문자와 순수한 배경을 포함하는 프레임이 많이 있습니다(그림 10). 따라서 VEATIC은 우리의 일상 생활 시나리오와 더 유사하며 VEATIC에서 훈련된 알고리즘은 일상적인 애플리케이션에 더욱 유망할 것입니다.
이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.