paint-brush
VEATIC: Seguimiento de emociones y afectos basado en videos en un conjunto de datos contextual: acuerdo de temas entre videospor@kinetograph
287 lecturas

VEATIC: Seguimiento de emociones y afectos basado en videos en un conjunto de datos contextual: acuerdo de temas entre videos

Demasiado Largo; Para Leer

En este artículo, los investigadores presentan el conjunto de datos VEATIC para el reconocimiento de los afectos humanos, abordando las limitaciones de los conjuntos de datos existentes y permitiendo la inferencia basada en el contexto.
featured image - VEATIC: Seguimiento de emociones y afectos basado en videos en un conjunto de datos contextual: acuerdo de temas entre videos
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Este documento está disponible en arxiv bajo licencia CC 4.0.

Autores:

(1) Zhihang Ren, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(2) Jefferson Ortega, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(3) Yifan Wang, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(4) Zhimin Chen, Universidad de California, Berkeley (correo electrónico: [email protected]);

(5) Yunhui Guo, Universidad de Texas en Dallas (correo electrónico: [email protected]);

(6) Stella X. Yu, Universidad de California, Berkeley y Universidad de Michigan, Ann Arbor (correo electrónico: [email protected]);

(7) David Whitney, Universidad de California, Berkeley (correo electrónico: [email protected]).

Tabla de enlaces

10. Acuerdo de tema entre videos

Un beneficio del conjunto de datos VEATIC es que tiene múltiples anotadores para cada video, siendo el número mínimo de anotadores para cualquier video determinado 25 y el máximo 73. La percepción de las emociones es subjetiva y los juicios de los observadores pueden variar entre varias personas. Muchos de los conjuntos de datos de emociones publicados anteriormente tienen un número muy bajo de anotadores, y a menudo tienen un número de anotadores de un solo dígito (n <10). Tener tan pocos anotadores es problemático debido a la mayor variación entre los observadores. Para mostrar esto, calculamos cómo variaba la calificación promedio de cada video en nuestro conjunto de datos si tomábamos una muestra aleatoria, con reemplazo, de cinco versus todos los anotadores. Repetimos este proceso 1000 veces para cada video y calculamos la desviación estándar de la calificación promedio recalculada. La Figura 12a muestra cómo varía la desviación estándar de la calificación de consenso entre videos si usamos cinco o todos los anotadores para cada video. Este análisis muestra que tener más anotadores conduce a desviaciones estándar mucho más pequeñas en la calificación de consenso, lo que puede conducir a representaciones más precisas de la emoción de la verdad fundamental en los videos.


Figura 9. Más fotogramas de vídeo de muestra en VEATIC. Los videoclips en VEATIC contienen varios fondos, condiciones de iluminación, interacciones de personajes, etc., lo que lo convierte en un conjunto de datos completo no solo para tareas de reconocimiento de emociones sino también para otras tareas de comprensión de videos.


Figura 10. Fotogramas de vídeo de muestra de personajes no seleccionados y fondo puro en VEATIC. El primer cuadro de muestra de cada fila muestra el carácter seleccionado. El resto de los fotogramas de muestra son personajes no seleccionados o fondos puros.


Además, investigamos cómo variaban las respuestas de los observadores entre los videos calculando la desviación estándar entre los observadores para cada video. La Figura 12b muestra las desviaciones estándar entre videos. Encontramos que las desviaciones estándar para las dimensiones de valencia y excitación eran pequeñas: la valencia tenía una desviación estándar promedio de µ = 0,248 y una mediana de 0,222 y la excitación tenía una desviación estándar promedio de µ = 0,248 y una mediana de 0,244, que son comparables. con la variación de la calificación de valencia y excitación de EMOTIC [32].


Este documento está disponible en arxiv bajo licencia CC 4.0.