paint-brush
VEATIC: Rastreamento de emoção e afeto baseado em vídeo em conjunto de dados de contexto: Conjunto de dados VEATICpor@kinetograph

VEATIC: Rastreamento de emoção e afeto baseado em vídeo em conjunto de dados de contexto: Conjunto de dados VEATIC

Muito longo; Para ler

Neste artigo, os pesquisadores apresentam o conjunto de dados VEATIC para reconhecimento de afeto humano, abordando as limitações dos conjuntos de dados existentes, permitindo inferência baseada no contexto.
featured image - VEATIC: Rastreamento de emoção e afeto baseado em vídeo em conjunto de dados de contexto: Conjunto de dados VEATIC
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Este artigo está disponível no arxiv sob licença CC 4.0.

Autores:

(1) Zhihang Ren, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);

(2) Jefferson Ortega, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);

(3) Yifan Wang, Universidade da Califórnia, Berkeley e estes autores contribuíram igualmente para este trabalho (E-mail: [email protected]);

(4) Zhimin Chen, Universidade da Califórnia, Berkeley (E-mail: [email protected]);

(5) Yunhui Guo, Universidade do Texas em Dallas (E-mail: [email protected]);

(6) Stella X. Yu, Universidade da Califórnia, Berkeley e Universidade de Michigan, Ann Arbor (E-mail: [email protected]);

(7) David Whitney, Universidade da Califórnia, Berkeley (E-mail: [email protected]).

Tabela de links

3. Conjunto de dados VEATIC

Nesta seção, apresentamos o conjunto de dados de rastreamento de emoção e afeto baseado em vídeo em contexto ( VEATIC ). Primeiro, descrevemos como obtivemos todos os videoclipes. A seguir, ilustramos os procedimentos de anotação de dados e o processo de pré-processamento. Por fim, relatamos estatísticas importantes do conjunto de dados e visualizamos os resultados da análise de dados.

3.1. Aquisição de videoclipes

Todos os videoclipes utilizados no conjunto de dados foram adquiridos de um site de compartilhamento de vídeos on-line (YouTube) e os videoclipes foram selecionados com base no fato de que as emoções/afetos dos personagens nos clipes deveriam variar ao longo do tempo. No total, o conjunto de dados VEATIC contém 124 videoclipes, 104 clipes de filmes de Hollywood, 15 clipes de vídeos caseiros e 5 clipes de documentários ou reality shows. Quadros de amostra do conjunto de dados VEATIC são mostrados na (Figura 2). Esses vídeos contêm de zero a vários personagens em interação. Todo o som foi removido dos vídeos para que os observadores só tivessem acesso às informações visuais ao rastrear a emoção do personagem alvo.


Figura 2. Visão geral dos quadros de vídeo no VEATIC. Amostramos 4 quadros-chave de 5 vídeos em nosso conjunto de dados. Ao contrário de outros conjuntos de dados onde a fonte dos videoclipes é única, os videoclipes do VEATIC vêm de fontes diferentes. Eles incluem filmes de Hollywood, documentários e vídeos caseiros. Assim, faria com que o modelo treinado em nosso conjunto de dados tivesse mais capacidade de generalização. Para a entrada visual, o VEATIC contém várias informações de contexto, incluindo diferentes planos de fundo, condições de iluminação, interações de personagens, etc. Por fim, a emoção/afeto do personagem selecionado varia muito em cada videoclipe, tornando a modelagem do afeto do personagem no VEATIC mais desafiadora.

3.2. Anotação e pré-processamento de dados

No total, tivemos 192 observadores que participaram da anotação dos vídeos no conjunto de dados. Todos os participantes forneceram consentimento assinado de acordo com as diretrizes e regulamentos do Conselho de Revisão Institucional da UC Berkeley e todos os procedimentos experimentais foram aprovados.


Os participantes assistiram e avaliaram um total de 124 vídeos no conjunto de dados. Para evitar que os observadores fiquem cansados, dividimos o procedimento de anotação em duas sessões de anotação de 1 hora e 30 minutos. Antes que os participantes pudessem anotar qualquer vídeo, eles viram uma versão impressa da grade de classificação de afeto de excitação de valência com exemplos de emoções rotuladas em diferentes locais da grade de acordo com as classificações fornecidas por Bradley e Lang (1999) [6]. Os anotadores foram instruídos a se familiarizarem com as dimensões e as localizações das palavras de amostra que utilizariam posteriormente no processo de anotação. Depois que os participantes se familiarizaram com a grade de classificação de afeto, eles completaram uma anotação prática de dois minutos, onde rastrearam continuamente a valência e a excitação de um personagem alvo em um vídeo (Figura 3b). Os anotadores foram instruídos a rastrear a valência e a excitação do personagem alvo no vídeo, movendo continuamente o ponteiro do mouse em tempo real dentro da grade 2D de excitação de valência. A grade seria mapeada para suas classificações de valência e excitação no intervalo de [−1, 1]. Para controlar possíveis vieses motores, contrabalançamos as dimensões de excitação de valência entre os participantes, onde metade dos anotadores tinha valência no eixo x e excitação no eixo y e a outra metade teve as dimensões invertidas para que a excitação estivesse no x -eixo e valência estavam no eixo y. Depois que os observadores terminaram a sessão de anotação prática, eles começaram a anotar os vídeos no conjunto de dados.


Figura 3. Interface do usuário usada para anotação de vídeo. a) Os participantes viram primeiro o personagem alvo e foram lembrados das instruções da tarefa antes do início de cada vídeo. b) A grade sobreposta de valência e excitação que estava presente enquanto os observadores anotavam os vídeos. Os observadores foram instruídos a avaliar continuamente a emoção do personagem alvo no vídeo em tempo real. Se os observadores não movessem o mouse por mais de 10 segundos, a grade de classificação de resposta piscaria para lembrar o observador de avaliar continuamente a emoção.


Antes dos participantes iniciarem as anotações, foi mostrada uma imagem com o personagem alvo circulado (Figura 3a) que informa aos participantes qual personagem eles irão rastrear quando o vídeo começar. Em seguida, eles anotaram os videoclipes em tempo real. No final de cada anotação de vídeo, os participantes relataram sua familiaridade com o videoclipe usando uma escala Likert discreta de 1 a 5 que variava de “Não familiarizado”, “Um pouco familiar”, “Um pouco familiar”, “Moderadamente familiar” e “Extremamente familiar”. familiar". Os participantes também foram questionados sobre seu nível de prazer ao assistir ao clipe, que foi avaliado usando uma escala Likert discreta de 1 a 9, que variou de 1 (Não Agradável) a 9 (Extremamente Agradável). Além disso, para não deixar os participantes entediados, todos os 124 videoclipes foram divididos em duas sessões. Os participantes avaliaram os videoclipes em duas sessões separadamente.


Durante cada tentativa, avaliamos se os participantes não estavam prestando atenção, rastreando o tempo que mantiveram o ponteiro do mouse em um único local. Se a duração fosse superior a 10 segundos, a grelha de classificação de efeitos começaria a flutuar, o que lembrava aos participantes que continuassem a monitorizar a emoção do personagem alvo. Para avaliar se havia algum anotador ruidoso em nosso conjunto de dados, calculamos a concordância de cada anotador individual com o consenso calculando a correlação de Pearson entre cada anotador e o consenso de exclusão (agregado de respostas, exceto para o anotador atual) para cada vídeo. Descobrimos que apenas um anotador teve uma correlação inferior a 0,2 em todos os vídeos com o consenso de deixar um de fora. Como apenas um anotador ficou abaixo do nosso limite, decidimos mantê-lo no conjunto de dados para não remover nenhuma anotação alternativa importante dos vídeos.


Figura 4. Visualização de classificações médias de valência e excitação para videoclipes específicos com visualização ampliada do personagem selecionado. Mostramos quadros-chave relacionados a classificações médias específicas de valência e excitação. Os quadros e classificações correspondentes são marcados com a mesma cor.

3.3. Visualização e análise de dados

A Figura 4 mostra amostras de classificações médias e quadros-chave em dois videoclipes diferentes. Claramente, tanto a valência quanto a excitação aqui têm uma ampla gama de classificações. Além disso, mostra que a informação de contexto, seja espacial e/ou temporal, desempenha um papel importante nas tarefas de reconhecimento de emoções. No exemplo de valência (figura superior), sem a informação do contexto temporal e/ou espacial do combate, seria difícil reconhecer se a personagem (a mulher) do último quadro (amarelo) está surpreendentemente feliz ou atônita. No exemplo de excitação (figura inferior), mesmo sem o rosto do personagem selecionado, os observadores podem inferir de forma fácil e consistente a excitação do personagem através do contexto intenso.


Figura 5. Exemplo de classificações de valência e excitação para um único vídeo (vídeo 47). As linhas cinza transparentes indicam as classificações individuais dos assuntos e a linha verde é a classificação média dos participantes.


A Figura 5 ilustra amostras de avaliações de valência e excitação de todos os participantes para um único vídeo em nosso conjunto de dados. As classificações individuais dos sujeitos (linhas cinzentas) seguiram as classificações de consenso entre os participantes (linha verde) tanto para as classificações de valência como de excitação. A densa linha cinzenta sobreposta à linha verde de consenso indica acordos entre uma vasta gama de observadores. Além disso, investigamos como as respostas dos observadores variavam entre os vídeos calculando o desvio padrão entre os observadores para cada vídeo. Descobrimos que a variância entre os observadores para as dimensões de valência e excitação era pequena, com a valência tendo um desvio padrão médio de µ = 0,248 e uma mediana de 0,222 e a excitação tendo um desvio padrão médio de µ = 0,248 e uma mediana de 0,244, que são comparável com a variação da classificação de valência e excitação do EMOTIC [32].


A distribuição das classificações de valência e excitação em todos os nossos vídeos é mostrada na Figura 6. Descobrimos que as classificações individuais dos participantes foram totalmente distribuídas entre as dimensões de valência e excitação, o que destaca a diversidade do conjunto de dados VEATIC. Também coletamos classificações de familiaridade e diversão para cada vídeo entre os participantes (mostrados na Figura 7). Descobrimos que os observadores não estavam familiarizados com os vídeos usados no conjunto de dados, pois a classificação média de familiaridade foi de 1,61 para IDs de vídeo de 0 a 97. Além disso, os observadores avaliaram seu prazer ao assistir aos vídeos com uma média de 4,98 para IDs de vídeo de 0 a 97, indicando que os observadores gostaram moderadamente de assistir e anotar os videoclipes. As classificações de familiaridade e diversão não foram coletadas para os IDs de vídeo 98 a 123, pois as anotações desses vídeos foram coletadas em um momento anterior durante a coleta de dados que não incluía essas classificações.


Figura 6. Distribuição das classificações de valência e excitação entre os participantes. Os pontos brancos individuais representam a valência média e a excitação das classificações contínuas de cada videoclipe de filmes de Hollywood. Quadrados azuis e triângulos verdes representam a valência e excitação médias para documentários e vídeos caseiros, respectivamente. As classificações foram agrupadas em intervalos de 0,02 e o número total de pontos de dados foi contado dentro de cada compartimento.


Figura 7. Classificações de familiaridade e diversão em vídeos para IDs de vídeo de 0 a 97. Linhas pretas verticais indicam 1 SD.


A Tabela 2 abaixo resume as estatísticas básicas do conjunto de dados VEATIC. Em poucas palavras, VEATIC tem uma longa duração total de videoclipe e uma variedade de fontes de vídeo que cobrem uma ampla gama de contextos e condições emocionais. Além disso, em comparação com conjuntos de dados anteriores, recrutamos muito mais participantes para anotar as classificações.


Tabela 2. Estatísticas do conjunto de dados VEATIC.



Este artigo está disponível no arxiv sob licença CC 4.0.