paint-brush
VEATIC: Rastreamento de emoção e afeto baseado em vídeo em conjunto de dados de contexto: acordo de assunto entre vídeospor@kinetograph
327 leituras
327 leituras

VEATIC: Rastreamento de emoção e afeto baseado em vídeo em conjunto de dados de contexto: acordo de assunto entre vídeos

Muito longo; Para ler

Neste artigo, os pesquisadores apresentam o conjunto de dados VEATIC para reconhecimento de afeto humano, abordando as limitações dos conjuntos de dados existentes, permitindo inferência baseada no contexto.
featured image - VEATIC: Rastreamento de emoção e afeto baseado em vídeo em conjunto de dados de contexto: acordo de assunto entre vídeos
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Este artigo está disponível no arxiv sob licença CC 4.0.

Autores:

(1) Zhihang Ren, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);

(2) Jefferson Ortega, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);

(3) Yifan Wang, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);

(4) Zhimin Chen, Universidade da Califórnia, Berkeley (E-mail: [email protected]);

(5) Yunhui Guo, Universidade do Texas em Dallas (E-mail: [email protected]);

(6) Stella X. Yu, Universidade da Califórnia, Berkeley e Universidade de Michigan, Ann Arbor (E-mail: [email protected]);

(7) David Whitney, Universidade da Califórnia, Berkeley (E-mail: [email protected]).

Tabela de links

10. Acordo de assunto entre vídeos

Um benefício do conjunto de dados VEATIC é que ele possui vários anotadores para cada vídeo, sendo o número mínimo de anotadores para qualquer vídeo 25 e o máximo 73. A percepção da emoção é subjetiva e os julgamentos dos observadores podem variar entre várias pessoas. Muitos dos conjuntos de dados de emoções publicados anteriormente têm um número muito baixo de anotadores, muitas vezes tendo apenas um número de anotadores de um dígito (n <10). Ter tão poucos anotadores é problemático devido ao aumento da variação entre os observadores. Para mostrar isso, calculamos como a classificação média de cada vídeo em nosso conjunto de dados variava se amostrassemos aleatoriamente, com substituição, cinco versus todos os anotadores. Repetimos esse processo 1000 vezes para cada vídeo e calculamos o desvio padrão da avaliação média recalculada. A Figura 12a mostra como o desvio padrão da classificação de consenso entre os vídeos varia se usarmos cinco ou todos os anotadores para cada vídeo. Esta análise mostra que ter mais anotadores leva a desvios padrão muito menores na classificação de consenso, o que pode levar a representações mais precisas da emoção da verdade básica nos vídeos.


Figura 9. Mais exemplos de quadros de vídeo no VEATIC. Os videoclipes no VEATIC contêm vários planos de fundo, condições de iluminação, interações de personagens, etc., tornando-os um conjunto de dados abrangente não apenas para tarefas de reconhecimento de emoções, mas também para outras tarefas de compreensão de vídeo.


Figura 10. Exemplo de quadros de vídeo de caracteres não selecionados e fundo puro no VEATIC. O primeiro quadro de amostra em cada linha mostra o caractere selecionado. Os demais quadros de amostra são caracteres não selecionados ou planos de fundo puros.


Além disso, investigamos como as respostas dos observadores variavam entre os vídeos calculando o desvio padrão entre os observadores para cada vídeo. A Figura 12b mostra os desvios padrão entre os vídeos. Descobrimos que os desvios padrão para as dimensões de valência e excitação eram pequenos, com valência tendo um desvio padrão médio de µ = 0,248 e uma mediana de 0,222 e excitação tendo um desvio padrão médio de µ = 0,248 e uma mediana de 0,244, que são comparáveis com a variação da classificação de valência e excitação do EMOTIC [32].


Este artigo está disponível no arxiv sob licença CC 4.0.