paint-brush
VEATIC: Rastreamento de emoção e afeto baseado em vídeo em conjunto de dados de contexto: trabalho relacionadopor@kinetograph
196 leituras

VEATIC: Rastreamento de emoção e afeto baseado em vídeo em conjunto de dados de contexto: trabalho relacionado

Muito longo; Para ler

Neste artigo, os pesquisadores apresentam o conjunto de dados VEATIC para reconhecimento de afeto humano, abordando as limitações dos conjuntos de dados existentes, permitindo inferência baseada no contexto.
featured image - VEATIC: Rastreamento de emoção e afeto baseado em vídeo em conjunto de dados de contexto: trabalho relacionado
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Zhihang Ren, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);

(2) Jefferson Ortega, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);

(3) Yifan Wang, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);

(4) Zhimin Chen, Universidade da Califórnia, Berkeley (E-mail: [email protected]);

(5) Yunhui Guo, Universidade do Texas em Dallas (E-mail: [email protected]);

(6) Stella X. Yu, Universidade da Califórnia, Berkeley e Universidade de Michigan, Ann Arbor (E-mail: [email protected]);

(7) David Whitney, Universidade da Califórnia, Berkeley (E-mail: [email protected]).

Tabela de links

2. Trabalho relacionado

Recentemente, surgiram vários conjuntos de dados que fornecem frames com informações faciais e de contexto, como CAER [33] e EMOTIC [32]. CAER [33] é um conjunto de dados baseado em vídeo que contém rótulos categóricos de cada quadro de vídeo, e EMOTIC [32] é um conjunto de dados baseado em imagem contendo rótulos de expressão categórica e classificações contínuas de dominância de excitação de valência. Ao contrário desses conjuntos de dados, nosso conjunto de dados é baseado em vídeo e contém avaliações contínuas de valência e excitação. Uma comparação detalhada entre nosso conjunto de dados com conjuntos de dados anteriores pode ser encontrada na Tabela 1.


Com base em vários conjuntos de dados emocionais, os estudos começaram a se concentrar em como inferir emoções automaticamente. O afeto humano pode ser inferido a partir de muitas modalidades, como áudio [70, 68, 65], visual [40, 54, 55, 37] e texto [68, 22]. Para entradas visuais, em particular, existem três tarefas principais.


Tabela 1. Comparação do conjunto de dados VEATIC com conjuntos de dados de reconhecimento de emoções existentes. VEATIC contém uma grande quantidade de videoclipes e uma longa duração total de vídeo. É o primeiro grande conjunto de dados de vídeo de reconhecimento de emoções com reconhecimento de contexto com valência contínua e anotações de excitação. O VEATIC também possui muito mais anotadores em comparação com outros conjuntos de dados de vídeo de reconhecimento de emoções sensíveis ao contexto. (*: Misto significa contendo anotações contínuas e categóricas.)


A tarefa de estimativa de excitação de valência visa prever a valência e excitação de cada imagem/quadro [71, 69, 29, 30]; a tarefa de reconhecimento de expressão concentra-se na classificação das categorias emocionais de cada imagem/quadro [66, 57, 67]; e a tarefa de detecção da unidade de ação (AU) pretende detectar ações dos músculos faciais dos rostos de cada imagem/quadro [25, 56, 35, 64]. Atualmente, a maioria dos métodos propostos depende muito da área facial para inferir o estado emocional. Na verdade, a área facial contém informações valiosas sobre o estado emocional humano. No entanto, os fatores contextuais também fornecem informações essenciais que são necessárias para os humanos inferirem e perceberem corretamente os estados emocionais dos outros [8, 9, 10]. Vários estudos [33, 32, 40] começaram a incorporar informações de contexto como fonte de inferência de afeto. Neste estudo, também adotamos informações faciais e de contexto para realizar a nova tarefa, ou seja, inferir a valência e a excitação de cada quadro de vídeo.


Para inferir o afeto de uma pessoa, geralmente precisamos lidar com informações temporais de segmentos de áudio, quadros de vídeo ou palavras. Muitos estudos [68, 69, 29, 30] começaram a utilizar memória de longo e curto prazo (LSTM) [23], unidade recorrente controlada (GRU) [11] ou rede neural recorrente (RNN) [24, 50] para processar o informações temporais. Com o surgimento do transformador visual (ViT) [14], a atenção mudou. Muitas tarefas de compreensão de vídeo [19, 1, 36] utilizaram ViT para compreensão de informações temporais e obtenção de desempenho de última geração. Nosso método de linha de base também adotou o ViT como ferramenta para processar informações temporais em videoclipes.



Este artigo está disponível no arxiv sob licença CC 4.0.