paint-brush
VEATIC: 비디오 기반 감정 및 상황 데이터 세트의 영향 추적: VEATIC 데이터 세트~에 의해@kinetograph
167 판독값

VEATIC: 비디오 기반 감정 및 상황 데이터 세트의 영향 추적: VEATIC 데이터 세트

너무 오래; 읽다

본 논문에서 연구자들은 인간 감정 인식을 위한 VEATIC 데이터 세트를 소개하여 기존 데이터 세트의 한계를 해결하고 상황 기반 추론을 가능하게 합니다.
featured image - VEATIC: 비디오 기반 감정 및 상황 데이터 세트의 영향 추적: VEATIC 데이터 세트
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.

저자:

(1) 캘리포니아 대학교 버클리 캠퍼스의 Zhihang Ren과 이들 저자는 이 연구에 동등하게 기여했습니다(이메일: [email protected]).

(2) 캘리포니아 대학교 버클리 캠퍼스의 Jefferson Ortega와 이들 저자는 이 연구에 동등하게 기여했습니다(이메일: [email protected]).

(3) University of California, Berkeley의 Yifan Wang과 이들 저자는 이 연구에 동등하게 기여했습니다(이메일: [email protected]).

(4) 캘리포니아 버클리 대학교 Zhimin Chen(이메일: [email protected]);

(5) 댈러스 텍사스 대학교 Yunhui Guo (이메일: [email protected]);

(6) Stella X. Yu, University of California, Berkeley 및 University of Michigan, Ann Arbor (이메일: [email protected]);

(7) David Whitney, University of California, Berkeley (이메일: [email protected]).

링크 표

3. VEATIC 데이터세트

이 섹션에서는 VEATIC (비디오 기반 감정 및 상황 데이터 세트의 영향 추적)을 소개합니다. 먼저 모든 비디오 클립을 얻은 방법을 설명합니다. 다음으로 데이터 주석 절차와 전처리 과정을 설명합니다. 마지막으로 중요한 데이터 세트 통계를 보고하고 데이터 분석 결과를 시각화합니다.

3.1. 비디오 클립 획득

데이터 세트에 사용된 모든 비디오 클립은 온라인 비디오 공유 웹사이트(YouTube)에서 획득되었으며 비디오 클립은 클립 속 인물의 감정/영향이 시간에 따라 달라야 한다는 점을 기준으로 선택되었습니다. 전체적으로 VEATIC 데이터세트에는 124개의 비디오 클립, 할리우드 영화의 104개의 클립, 홈 비디오의 15개 클립, 다큐멘터리 또는 리얼리티 TV 쇼의 5개의 클립이 포함되어 있습니다. VEATIC 데이터세트의 샘플 프레임은 (그림 2)에 나와 있습니다. 이러한 비디오에는 0개에서 여러 개의 상호 작용하는 캐릭터가 포함되어 있습니다. 관찰자는 대상 캐릭터의 감정을 추적할 때 시각적 정보에만 접근할 수 있도록 비디오에서 모든 소리가 제거되었습니다.


그림 2. VEATIC의 비디오 프레임 개요. 우리는 데이터 세트에 있는 5개의 비디오에서 4개의 키 프레임을 샘플링했습니다. 비디오 클립의 소스가 고유한 다른 데이터 세트와 달리 VEATIC의 비디오 클립은 다양한 소스에서 나옵니다. 여기에는 할리우드 영화, 다큐멘터리, 직접 만든 비디오가 포함됩니다. 따라서 데이터세트로 훈련된 모델이 더 많은 일반화 능력을 갖게 됩니다. 시각적 입력의 경우 VEATIC에는 다양한 배경, 조명 조건, 캐릭터 상호 작용 등을 포함한 다양한 컨텍스트 정보가 포함되어 있습니다. 이를 통해 데이터 세트가 일상 생활을 더욱 잘 표현하게 됩니다. 마지막으로 선택한 캐릭터의 감정/영향은 각 비디오 클립마다 많이 다르기 때문에 VEATIC에서 캐릭터의 감정을 모델링하는 것이 더욱 어려워집니다.

3.2. 데이터 주석 및 전처리

총 192명의 관찰자가 데이터세트의 동영상 주석에 참여했습니다. 모든 참가자는 UC Berkeley Institutional Review Board의 지침 및 규정에 따라 서명된 동의를 제공했으며 모든 실험 절차가 승인되었습니다.


참가자들은 데이터 세트에 있는 총 124개의 비디오를 시청하고 평가했습니다. 관찰자가 피로해지는 것을 방지하기 위해 주석 절차를 1시간 및 30분 주석 세션 두 개로 나누었습니다. 참가자들이 비디오에 주석을 달기 전에 Bradley와 Lang(1999)이 제공한 평가에 따라 그리드의 다양한 위치에 레이블이 지정된 예시 감정과 함께 원자가 각성 감정 평가 그리드의 인쇄된 버전이 표시되었습니다. 주석 작성자는 나중에 주석 프로세스에서 활용할 차원과 샘플 단어 위치를 숙지하도록 지시 받았습니다. 참가자들은 감정 평가 그리드에 익숙해진 후 비디오에서 대상 캐릭터의 원자가와 각성을 지속적으로 추적하는 2분간의 연습 주석을 완료했습니다(그림 3b). 주석 작성자는 2D 원자가-각성 그리드 내에서 실시간으로 마우스 포인터를 지속적으로 움직여 비디오에서 대상 캐릭터의 원자가와 각성을 추적하도록 지시 받았습니다. 그리드는 [-1, 1] 범위의 원자가 및 각성 등급에 매핑됩니다. 잠재적인 운동 편향을 제어하기 위해 우리는 주석자의 절반이 x축에 원자가를 갖고 y축에 각성을 갖고 나머지 절반은 각성이 x에 있도록 차원을 뒤집어 참가자 간의 원자가-각성 차원의 균형을 맞췄습니다. -축이고 원자가는 y축에 있었습니다. 관찰자는 연습 주석 세션을 마친 후 데이터 세트의 비디오에 주석을 달기 시작했습니다.


그림 3. 비디오 주석에 사용되는 사용자 인터페이스. a) 참가자들은 먼저 대상 캐릭터를 보여주고 각 비디오가 시작되기 전에 작업 지침을 상기시켰습니다. b) 관찰자가 비디오에 주석을 추가하는 동안 존재했던 오버레이된 원자가 및 각성 그리드. 관찰자들은 영상 속 대상 캐릭터의 감정을 실시간으로 지속적으로 평가하도록 지시받았다. 관찰자가 10초 이상 마우스를 움직이지 않으면 반응 평가 그리드가 깜박여 관찰자가 감정을 지속적으로 평가하도록 상기시킵니다.


참가자가 주석을 시작하기 전에 대상 캐릭터에 원이 표시된 이미지(그림 3a)가 표시되어 참가자에게 비디오가 시작될 때 추적할 캐릭터를 알려줍니다. 그런 다음 실시간으로 비디오 클립에 주석을 달았습니다. 각 비디오 주석이 끝날 때 참가자들은 "익숙하지 않음", "약간 익숙함", "다소 익숙함", "보통 익숙함" 및 "매우 익숙함" 범위의 1~5개 개별 리커트 척도를 사용하여 비디오 클립에 대한 익숙함을 보고했습니다. 친숙한". 참가자들에게는 1(즐거움 없음)부터 9(매우 즐거움)까지의 1~9점 개별 리커트 척도를 사용하여 평가된 클립을 시청하는 동안의 즐거움 수준에 대해서도 질문했습니다. 또한 참가자들이 지루함을 느끼지 않도록 124개의 영상을 모두 2개의 세션으로 나누어 진행하였습니다. 참가자들은 두 세션에서 별도로 비디오 클립을 평가했습니다.


각 실험 동안 우리는 참가자들이 마우스 포인터를 특정 위치에 유지한 기간을 추적하여 주의를 기울이지 않는지 여부를 평가했습니다. 지속 시간이 10초보다 길면 감정 등급 그리드가 변동하기 시작하여 참가자에게 대상 캐릭터의 감정을 계속 추적하도록 상기시킵니다. 데이터 세트에 시끄러운 주석자가 있는지 평가하기 위해 각 주석자와 Leave-One-Out 합의(현재 주석자를 제외한 응답의 집계) 간의 Pearson 상관 관계를 계산하여 각 개별 주석자의 합의를 계산했습니다. 각 영상. 우리는 Leave-One-Out 합의를 사용하는 모든 비디오에서 단 하나의 주석자가 .2보다 낮은 상관 관계를 갖는 것을 발견했습니다. 단 하나의 주석자가 임계값 아래로 떨어졌기 때문에 비디오에 대한 중요한 대체 주석을 제거하지 않기 위해 주석자를 데이터세트에 유지하기로 결정했습니다.


그림 4. 선택한 캐릭터의 확대 보기를 통해 특정 비디오 클립에 대한 샘플 평균 원자가 및 각성 등급을 시각화합니다. 우리는 원자가 및 각성의 특정 평균 등급과 관련된 주요 프레임을 보여줍니다. 해당 프레임과 등급은 동일한 색상으로 표시됩니다.

3.3. 시각화 및 데이터 분석

그림 4는 2개의 서로 다른 비디오 클립의 샘플 평균 등급과 키 프레임을 보여줍니다. 분명히 여기서 원자가와 각성 모두 다양한 평가를 받고 있습니다. 더욱이 이는 공간적 및/또는 시간적 맥락 정보가 감정 인식 작업에서 중요한 역할을 한다는 것을 보여줍니다. 베일런스 예(위 그림)에서는 싸움의 시간적 및/또는 공간적 맥락 정보가 없으면 마지막 프레임(노란색)의 캐릭터(여성)가 놀라울 정도로 행복해하는지 아니면 놀란 것인지를 인식하기 어려울 것입니다. 각성 예(아래 그림)에서는 선택한 캐릭터의 얼굴이 없더라도 관찰자는 강렬한 맥락을 통해 캐릭터의 각성을 쉽고 일관되게 유추할 수 있습니다.


그림 5. 단일 비디오에 대한 원자가 및 각성 등급의 예(비디오 47). 투명한 회색 선은 개별 과목 등급을 나타내고 녹색 선은 참가자 전체의 평균 등급을 나타냅니다.


그림 5는 데이터 세트의 단일 비디오에 대한 모든 참가자의 샘플 원자가 및 각성 등급을 보여줍니다. 개별 피험자의 등급(회색 선)은 원자가 및 각성 등급 모두에 대해 참가자 전체의 합의 등급(녹색 선)을 따랐습니다. 녹색 합의 선 주위에 겹치는 짙은 회색 선은 광범위한 관찰자 간의 합의를 나타냅니다. 또한 각 비디오에 대한 관찰자의 표준 편차를 계산하여 비디오에 따라 관찰자의 반응이 어떻게 다른지 조사했습니다. 우리는 원자가와 각성 차원 모두에 대한 관찰자 사이의 분산이 평균 표준 편차가 µ = 0.248이고 중앙값이 0.222이고 각성이 평균 표준 편차가 µ = 0.248이고 중앙값이 0.244인 원자가로 작다는 것을 발견했습니다. EMOTIC[32]의 원자가 및 각성 등급 차이와 유사합니다.


모든 비디오에 대한 원자가 및 각성 등급 분포는 그림 6에 나와 있습니다. 개별 참가자 등급은 VEATIC 데이터 세트의 다양성을 강조하는 원자가 및 각성 차원 모두에 완전히 분포되어 있음을 발견했습니다. 또한 참가자들 사이에서 각 비디오에 대한 친숙도와 즐거움 평가를 수집했습니다(그림 7 참조). 비디오 ID 0-97에 대한 평균 친숙도 등급이 1.61이었기 때문에 관찰자가 데이터 세트에 사용된 비디오에 익숙하지 않은 것으로 나타났습니다. 또한, 관찰자는 비디오 ID 0-97에 대해 비디오를 시청하는 동안 즐거움을 평균 4.98로 평가했는데, 이는 관찰자가 비디오 클립을 보고 주석을 달기를 적당히 즐겼음을 나타냅니다. 비디오 ID 98-123에 대해서는 친숙도 및 즐거움 등급이 수집되지 않았습니다. 이러한 비디오에 대한 주석은 이러한 등급이 포함되지 않은 데이터 수집 중 이전 시점에 수집되었기 때문입니다.


그림 6. 참가자 간의 원자가 및 각성 등급 분포. 개별 흰색 점은 할리우드 영화의 각 비디오 클립에 대한 연속 등급의 평균 원자가와 각성을 나타냅니다. 파란색 사각형과 녹색 삼각형은 각각 다큐멘터리와 홈 비디오의 평균 원자가와 각성을 나타냅니다. 등급은 0.02 간격으로 분류되었으며 각 구간 내에서 총 데이터 포인트 수가 계산되었습니다.


그림 7. 비디오 ID 0-97에 대한 비디오 전반의 친숙도 및 즐거움 등급. 검정색 수직선은 1SD를 나타냅니다.


아래 표 2에는 VEATIC 데이터 세트의 기본 통계가 요약되어 있습니다. 간단히 말해서 VEATIC은 총 비디오 클립 길이가 길고 광범위한 상황과 감정적 조건을 포괄하는 다양한 비디오 소스를 보유하고 있습니다. 또한 이전 데이터 세트와 비교하여 평가에 주석을 달기 위해 훨씬 더 많은 참가자를 모집했습니다.


표 2. VEATIC 데이터세트 통계



이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.