Autores:
(1) Zhihang Ren, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);
(2) Jefferson Ortega, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);
(3) Yifan Wang, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);
(4) Zhimin Chen, Universidade da Califórnia, Berkeley (E-mail: [email protected]);
(5) Yunhui Guo, Universidade do Texas em Dallas (E-mail: [email protected]);
(6) Stella X. Yu, Universidade da Califórnia, Berkeley e Universidade de Michigan, Ann Arbor (E-mail: [email protected]);
(7) David Whitney, Universidade da Califórnia, Berkeley (E-mail: [email protected]).
Recentemente, surgiram vários conjuntos de dados que fornecem frames com informações faciais e de contexto, como CAER [33] e EMOTIC [32]. CAER [33] é um conjunto de dados baseado em vídeo que contém rótulos categóricos de cada quadro de vídeo, e EMOTIC [32] é um conjunto de dados baseado em imagem contendo rótulos de expressão categórica e classificações contínuas de dominância de excitação de valência. Ao contrário desses conjuntos de dados, nosso conjunto de dados é baseado em vídeo e contém avaliações contínuas de valência e excitação. Uma comparação detalhada entre nosso conjunto de dados com conjuntos de dados anteriores pode ser encontrada na Tabela 1.
Com base em vários conjuntos de dados emocionais, os estudos começaram a se concentrar em como inferir emoções automaticamente. O afeto humano pode ser inferido a partir de muitas modalidades, como áudio [70, 68, 65], visual [40, 54, 55, 37] e texto [68, 22]. Para entradas visuais, em particular, existem três tarefas principais.
A tarefa de estimativa de excitação de valência visa prever a valência e excitação de cada imagem/quadro [71, 69, 29, 30]; a tarefa de reconhecimento de expressão concentra-se na classificação das categorias emocionais de cada imagem/quadro [66, 57, 67]; e a tarefa de detecção da unidade de ação (AU) pretende detectar ações dos músculos faciais dos rostos de cada imagem/quadro [25, 56, 35, 64]. Atualmente, a maioria dos métodos propostos depende muito da área facial para inferir o estado emocional. Na verdade, a área facial contém informações valiosas sobre o estado emocional humano. No entanto, os fatores contextuais também fornecem informações essenciais que são necessárias para os humanos inferirem e perceberem corretamente os estados emocionais dos outros [8, 9, 10]. Vários estudos [33, 32, 40] começaram a incorporar informações de contexto como fonte de inferência de afeto. Neste estudo, também adotamos informações faciais e de contexto para realizar a nova tarefa, ou seja, inferir a valência e a excitação de cada quadro de vídeo.
Para inferir o afeto de uma pessoa, geralmente precisamos lidar com informações temporais de segmentos de áudio, quadros de vídeo ou palavras. Muitos estudos [68, 69, 29, 30] começaram a utilizar memória de longo e curto prazo (LSTM) [23], unidade recorrente controlada (GRU) [11] ou rede neural recorrente (RNN) [24, 50] para processar o informações temporais. Com o surgimento do transformador visual (ViT) [14], a atenção mudou. Muitas tarefas de compreensão de vídeo [19, 1, 36] utilizaram ViT para compreensão de informações temporais e obtenção de desempenho de última geração. Nosso método de linha de base também adotou o ViT como ferramenta para processar informações temporais em videoclipes.
Este artigo está disponível no arxiv sob licença CC 4.0.