Autores:
(1) Zhihang Ren, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);
(2) Jefferson Ortega, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);
(3) Yifan Wang, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);
(4) Zhimin Chen, Universidade da Califórnia, Berkeley (E-mail: [email protected]);
(5) Yunhui Guo, Universidade do Texas em Dallas (E-mail: [email protected]);
(6) Stella X. Yu, Universidade da Califórnia, Berkeley e Universidade de Michigan, Ann Arbor (E-mail: [email protected]);
(7) David Whitney, Universidade da Califórnia, Berkeley (E-mail: [email protected]).
O reconhecimento do afeto humano tem sido um tópico significativo na psicofísica e na visão computacional. No entanto, os conjuntos de dados publicados atualmente têm muitas limitações. Por exemplo, a maioria dos conjuntos de dados contém quadros que contêm apenas informações sobre expressões faciais. Devido às limitações dos conjuntos de dados anteriores, é muito difícil compreender os mecanismos de reconhecimento de afetos humanos ou generalizar bem em casos comuns para modelos de visão computacional treinados nesses conjuntos de dados. Neste trabalho, apresentamos um novo grande conjunto de dados, o Video-based Emotion and Affect Tracking in Context Dataset (VEATIC), que pode superar as limitações dos conjuntos de dados anteriores. VEATIC possui 124 videoclipes de filmes de Hollywood, documentários e vídeos caseiros com valência contínua e classificações de excitação de cada quadro por meio de anotação em tempo real. Junto com o conjunto de dados, propomos uma nova tarefa de visão computacional para inferir o efeito do personagem selecionado por meio do contexto e das informações do personagem em cada quadro de vídeo. Além disso, propomos um modelo simples para avaliar esta nova tarefa de visão computacional. Também comparamos o desempenho do modelo pré-treinado usando nosso conjunto de dados com outros conjuntos de dados semelhantes. Os experimentos mostram os resultados concorrentes do nosso modelo pré-treinado via VEATIC, indicando a generalização do VEATIC. Nosso conjunto de dados está disponível em https://veatic.github.io.
Reconhecer o afeto humano é de vital importância em nossa vida diária. Podemos inferir os sentimentos das pessoas e prever suas reações subsequentes com base em suas expressões faciais, nas interações com outras pessoas e no contexto da cena. É uma parte inestimável da nossa comunicação. Assim, muitos estudos são dedicados à compreensão do mecanismo de reconhecimento do afeto. Com o surgimento da Inteligência Artificial (IA), muitos estudos também propuseram algoritmos para perceber e interpretar automaticamente o afeto humano, com a implicação potencial de que sistemas como robôs e humanos virtuais podem interagir com as pessoas de uma forma naturalista.
Quando encarregados de reconhecer emoções no mundo real, os humanos têm acesso a muito mais informações do que apenas expressões faciais. Apesar disso, muitos estudos que investigam o reconhecimento de emoções costumam utilizar estímulos estáticos de expressões faciais isoladas do contexto, especialmente em avaliações de transtornos psicológicos [3, 18] e em modelos de visão computacional [60, 62]. Além disso, embora estudos anteriores continuem a investigar o processo pelo qual os humanos percebem as emoções, muitos desses estudos não conseguem investigar como o reconhecimento das emoções é influenciado por fatores contextuais, como a cena visual, informações de fundo, movimentos corporais, outros rostos e até mesmo nossas crenças. desejos e processamento conceitual [4, 34, 8, 42, 44]. Curiosamente, descobriu-se que as informações contextuais visuais são integradas de forma automática e sem esforço com as expressões faciais [2]. Também pode substituir sinais faciais durante julgamentos emocionais [26] (Figura 1) e pode até influenciar a percepção da emoção nos estágios iniciais do processamento visual [7]. Na verdade, a informação contextual é muitas vezes tão valiosa para compreender a emoção de uma pessoa como o próprio rosto [8, 9, 10]. A crescente evidência da importância da informação contextual no reconhecimento de emoções [4] exige que os pesquisadores reavaliem os paradigmas experimentais nos quais investigam o reconhecimento de emoções humanas. Por exemplo, para compreender melhor os mecanismos e processos que levam ao reconhecimento das emoções humanas durante as interações sociais quotidianas, a generalização dos estudos de investigação deve ser seriamente considerada. Mais importante ainda, os conjuntos de dados para rastreamento de emoções e afetos não devem conter apenas rostos ou personagens específicos isolados, mas também devem ser incluídos fatores contextuais, como informações visuais de fundo da cena e interações entre personagens.
A fim de representar o estado emocional dos humanos, numerosos estudos em psicologia e neurociência propuseram métodos para quantificar o estado emocional dos humanos, que incluem modelos de emoção categóricos e contínuos. A teoria categórica da emoção mais famosa e dominante é a teoria das emoções básicas, que afirma que certas emoções são universalmente reconhecidas em todas as culturas (raiva, medo, felicidade, etc.) e que todas as emoções diferem na sua resposta comportamental e fisiológica, na sua avaliação, e na expressão [16]. Alternativamente, o modelo circunplexo de afeto, um modelo contínuo de emoção, propõe que todos os estados afetivos surgem de dois sistemas neurofisiológicos relacionados à valência e à excitação e todas as emoções podem ser descritas por uma combinação linear dessas duas dimensões [52, 47, 53] . Outro modelo de reconhecimento de emoções, o modelo Facial Action Coding System, afirma que todas as expressões faciais podem ser divididas nos componentes principais dos movimentos musculares chamados Unidades de Ação [17]. Modelos anteriores de reconhecimento de emoções foram construídos com esses diferentes modelos em mente [61, 63, 41]. No entanto, poucos modelos se concentram na medição do afeto usando dimensões contínuas, um produto infeliz da escassez de bancos de dados anotados disponíveis para computação afetiva.
Com base nas métricas emocionais mencionadas acima, muitos conjuntos de dados de reconhecimento de emoções foram desenvolvidos. Os primeiros conjuntos de dados, como SAL [15], SEMAINE [39], Belfast induzido [58], DEAP [28] e MAHNOB-HCI [59] são coletados em ambientes de laboratório altamente controlados e geralmente são pequenos em tamanho de dados. Esses conjuntos de dados anteriores carecem de diversidade em termos de personagens, movimentos, iluminação de cena e planos de fundo. Além disso, as representações nos primeiros conjuntos de dados são geralmente discretas. Conjuntos de dados recentes, como RECOLA [49], MELD [46], conjunto de dados OMG-emotion [5], Aff-Wild [69] e Aff-Wild2 [29, 30], começam a coletar estados emocionais por meio de classificações contínuas e utilizam vídeos na internet ou chamado de “in-the-wild”. No entanto, estes conjuntos de dados carecem de informações contextuais e concentram-se apenas nas expressões faciais. Os quadros são dominados por personagens ou rostos específicos. Além disso, os conjuntos de dados acima mencionados possuem anotadores limitados (geralmente menos de 10). Como os observadores humanos têm fortes diferenças individuais e sofrem de muitos preconceitos [12, 45, 48], anotadores limitados podem levar a vieses de anotação substanciais.
Neste estudo, apresentamos o conjunto de dados de rastreamento de emoção e afeto baseado em vídeo em contexto (VEATIC, /ve"ætIc/), um grande conjunto de dados que pode ser benéfico tanto para grupos de psicologia quanto de visão computacional. O conjunto de dados inclui 124 videoclipes de Hollywood filmes, documentários e vídeos caseiros com valência contínua e classificações de excitação de cada quadro por meio de anotação em tempo real. Também recrutamos um grande número de participantes para anotar os dados. Com base neste conjunto de dados, propomos uma nova tarefa de visão computacional. inferindo automaticamente o efeito do personagem selecionado por meio do contexto e das informações do personagem em cada quadro de vídeo. Neste estudo, também fornecemos uma solução simples para esta tarefa. Os experimentos mostram a eficácia do método, bem como os benefícios do conjunto de dados VEATIC proposto. . Em poucas palavras, as principais contribuições deste trabalho são:
• Construímos o primeiro grande conjunto de dados de vídeo, VEATIC, para rastreamento de emoções e afetos que contém características faciais e fatores contextuais. O conjunto de dados possui classificações contínuas de valência e excitação para cada quadro.
• Para aliviar os preconceitos dos anotadores, recrutamos um grande conjunto de anotadores (192 no total) para anotar o conjunto de dados em comparação com conjuntos de dados anteriores (geralmente menos de 10).
• Fornecemos um modelo básico para prever a excitação e a valência do personagem selecionado em cada quadro usando informações do personagem e fatores contextuais.
Este artigo está disponível no arxiv sob licença CC 4.0.