저자:
(1) 캘리포니아 대학교 버클리 캠퍼스의 Zhihang Ren과 이들 저자는 이 연구에 동등하게 기여했습니다(이메일: [email protected]).
(2) 캘리포니아 대학교 버클리 캠퍼스의 Jefferson Ortega와 이들 저자는 이 작업에 동등하게 기여했습니다(이메일: [email protected]).
(3) University of California, Berkeley의 Yifan Wang과 이들 저자는 이 연구에 동등하게 기여했습니다(이메일: [email protected]).
(4) 캘리포니아 버클리 대학교 Zhimin Chen(이메일: [email protected]);
(5) 댈러스 텍사스대학교 Yunhui Guo (이메일: [email protected]);
(6) Stella X. Yu, University of California, Berkeley 및 University of Michigan, Ann Arbor (이메일: [email protected]);
(7) David Whitney, University of California, Berkeley (이메일: [email protected]).
최근에는 CAER [33] 및 EMOTIC [32]과 같이 얼굴 정보와 상황 정보를 모두 포함하는 프레임을 제공하는 여러 데이터 세트가 있습니다. CAER [33]은 각 비디오 프레임의 범주형 레이블을 포함하는 비디오 기반 데이터 세트이고, EMOTIC [32]은 범주형 표현 레이블과 연속적인 원자가-각성-지배 등급을 모두 포함하는 이미지 기반 데이터 세트입니다. 이러한 데이터 세트와 달리 우리의 데이터 세트는 비디오 기반이며 지속적인 원자가 및 각성 등급을 포함합니다. 우리 데이터 세트와 이전 데이터 세트 간의 자세한 비교는 표 1에서 확인할 수 있습니다.
다양한 감정 데이터 세트를 기반으로 감정을 자동으로 추론하는 방법에 대한 연구가 집중되기 시작했습니다. 인간의 감정은 오디오[70, 68, 65], 시각적[40, 54, 55, 37] 및 텍스트[68, 22]와 같은 다양한 양식에서 추론할 수 있습니다. 특히 시각적 입력의 경우 세 가지 주요 작업이 있습니다.
원자가 각성 추정 작업은 각 이미지/프레임의 원자가 및 각성을 예측하는 것을 목표로 합니다[71, 69, 29, 30]. 표정 인식 작업은 각 이미지/프레임의 감정 범주를 분류하는 데 중점을 둡니다[66, 57, 67]. AU(동작 단위) 감지 작업은 각 이미지/프레임의 얼굴에서 안면 근육 동작을 감지하려고 합니다[25, 56, 35, 64]. 현재 제안된 대부분의 방법은 감정 상태를 추론하기 위해 얼굴 영역에 크게 의존합니다. 실제로 얼굴 영역에는 인간의 감정 상태에 대한 풍부한 정보가 포함되어 있습니다. 그러나 상황적 요인은 인간이 타인의 감정 상태를 정확하게 추론하고 인지하는 데 필요한 필수적인 정보도 제공한다[8, 9, 10]. 여러 연구[33, 32, 40]에서는 상황 정보를 감정 추론의 소스로 통합하기 시작했습니다. 본 연구에서 우리는 새로운 과제, 즉 각 비디오 프레임의 원자가와 각성을 추론하기 위해 얼굴 정보와 맥락 정보를 모두 채택했습니다.
사람의 영향을 추론하려면 일반적으로 오디오 세그먼트, 비디오 프레임 또는 단어의 시간적 정보를 처리해야 합니다. 많은 연구[68, 69, 29, 30]에서는 장단기 기억(LSTM)[23], Gated Recurrent Unit(GRU)[11] 또는 순환 신경망(RNN)[24, 50]을 활용하기 시작했습니다. 시간적 정보. ViT(Visual Transformer)[14]의 출현으로 관심이 옮겨졌습니다. 많은 비디오 이해 작업[19, 1, 36]은 시간 정보 이해 및 최첨단 성능 달성을 위해 ViT를 활용했습니다. 우리의 기본 방법은 또한 비디오 클립의 시간 정보를 처리하는 도구로 ViT를 채택했습니다.
이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.