Este artigo está disponível no arxiv sob licença CC 4.0.
Autores:
(1) Zhihang Ren, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);
(2) Jefferson Ortega, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);
(3) Yifan Wang, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);
(4) Zhimin Chen, Universidade da Califórnia, Berkeley (E-mail: [email protected]);
(5) Yunhui Guo, Universidade do Texas em Dallas (E-mail: [email protected]);
(6) Stella X. Yu, Universidade da Califórnia, Berkeley e Universidade de Michigan, Ann Arbor (E-mail: [email protected]);
(7) David Whitney, Universidade da Califórnia, Berkeley (E-mail: [email protected]).
Compreender como os humanos inferem as emoções dos outros é essencial para a compreensão dos pesquisadores sobre a cognição social. Embora os psicofísicos conduzam experimentos, eles precisam de conjuntos de estímulos específicos para projetar experimentos. No entanto, entre os conjuntos de dados publicados, não existe atualmente nenhum conjunto de dados de vídeo baseado em contexto que contenha classificações contínuas de valência e excitação. A falta deste tipo de conjuntos de dados também impede os pesquisadores de desenvolver algoritmos de visão computacional para as tarefas correspondentes. Nosso conjunto de dados VEATIC proposto preenche esta importante lacuna no campo da visão computacional e será benéfico para estudos psicofísicos na compreensão do reconhecimento de emoções. D
Durante a coleta de dados, os participantes rastrearam e avaliaram continuamente as emoções dos personagens-alvo nos videoclipes, o que é diferente dos experimentos psicofísicos gerais, onde as respostas são coletadas após um atraso. Este design em nosso conjunto de dados foi vital para imitar o processamento de emoções em tempo real que ocorre quando os humanos processam emoções em suas vidas cotidianas. Além disso, o processamento de emoções não é um processo imediato e depende fortemente do acúmulo temporal de informações ao longo do tempo para fazer inferências precisas sobre as emoções dos outros.
A força do conjunto de dados VEATIC é que ele imita como os humanos percebem as emoções no mundo real: continuamente e na presença de informações contextuais tanto no domínio temporal quanto no espacial. Um conjunto de dados tão rico é vital para futuros modelos de visão computacional e pode ultrapassar os limites do que os modelos atuais podem realizar. Com a criação de conjuntos de dados mais ricos como o VEATIC, pode ser possível que futuros modelos de visão computacional percebam emoções em tempo real enquanto interagem com humanos.
Este artigo está disponível no arxiv sob licença CC 4.0.