Este artigo está disponível no arxiv sob licença CC 4.0.
Autores:
(1) Zhihang Ren, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);
(2) Jefferson Ortega, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);
(3) Yifan Wang, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);
(4) Zhimin Chen, Universidade da Califórnia, Berkeley (E-mail: [email protected]);
(5) Yunhui Guo, Universidade do Texas em Dallas (E-mail: [email protected]);
(6) Stella X. Yu, Universidade da Califórnia, Berkeley e Universidade de Michigan, Ann Arbor (E-mail: [email protected]);
(7) David Whitney, Universidade da Califórnia, Berkeley (E-mail: [email protected]).
Um benefício do conjunto de dados VEATIC é que ele possui vários anotadores para cada vídeo, sendo o número mínimo de anotadores para qualquer vídeo 25 e o máximo 73. A percepção da emoção é subjetiva e os julgamentos dos observadores podem variar entre várias pessoas. Muitos dos conjuntos de dados de emoções publicados anteriormente têm um número muito baixo de anotadores, muitas vezes tendo apenas um número de anotadores de um dígito (n <10). Ter tão poucos anotadores é problemático devido ao aumento da variação entre os observadores. Para mostrar isso, calculamos como a classificação média de cada vídeo em nosso conjunto de dados variava se amostrassemos aleatoriamente, com substituição, cinco versus todos os anotadores. Repetimos esse processo 1000 vezes para cada vídeo e calculamos o desvio padrão da avaliação média recalculada. A Figura 12a mostra como o desvio padrão da classificação de consenso entre os vídeos varia se usarmos cinco ou todos os anotadores para cada vídeo. Esta análise mostra que ter mais anotadores leva a desvios padrão muito menores na classificação de consenso, o que pode levar a representações mais precisas da emoção da verdade básica nos vídeos.
Além disso, investigamos como as respostas dos observadores variavam entre os vídeos calculando o desvio padrão entre os observadores para cada vídeo. A Figura 12b mostra os desvios padrão entre os vídeos. Descobrimos que os desvios padrão para as dimensões de valência e excitação eram pequenos, com valência tendo um desvio padrão médio de µ = 0,248 e uma mediana de 0,222 e excitação tendo um desvio padrão médio de µ = 0,248 e uma mediana de 0,244, que são comparáveis com a variação da classificação de valência e excitação do EMOTIC [32].
Este artigo está disponível no arxiv sob licença CC 4.0.