328 lecturas

VEATIC: Seguimiento de emociones y afectos basado en videos en un conjunto de datos contextual: acuerdo de temas entre videos

por Kinetograph: The Video Editing Technology Publication3m2024/05/27

Demasiado Largo; Para Leer

En este artículo, los investigadores presentan el conjunto de datos VEATIC para el reconocimiento de los afectos humanos, abordando las limitaciones de los conjuntos de datos existentes y permitiendo la inferencia basada en el contexto.

featured image - VEATIC: Seguimiento de emociones y afectos basado en videos en un conjunto de datos contextual: acuerdo de temas entre videos

Este documento está disponible en arxiv bajo licencia CC 4.0.

Autores:

(1) Zhihang Ren, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(2) Jefferson Ortega, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(3) Yifan Wang, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(4) Zhimin Chen, Universidad de California, Berkeley (correo electrónico: [email protected]);

(5) Yunhui Guo, Universidad de Texas en Dallas (correo electrónico: [email protected]);

(6) Stella X. Yu, Universidad de California, Berkeley y Universidad de Michigan, Ann Arbor (correo electrónico: [email protected]);

(7) David Whitney, Universidad de California, Berkeley (correo electrónico: [email protected]).

Tabla de enlaces

10. Acuerdo de tema entre videos

Un beneficio del conjunto de datos VEATIC es que tiene múltiples anotadores para cada video, siendo el número mínimo de anotadores para cualquier video determinado 25 y el máximo 73. La percepción de las emociones es subjetiva y los juicios de los observadores pueden variar entre varias personas. Muchos de los conjuntos de datos de emociones publicados anteriormente tienen un número muy bajo de anotadores, y a menudo tienen un número de anotadores de un solo dígito (n <10). Tener tan pocos anotadores es problemático debido a la mayor variación entre los observadores. Para mostrar esto, calculamos cómo variaba la calificación promedio de cada video en nuestro conjunto de datos si tomábamos una muestra aleatoria, con reemplazo, de cinco versus todos los anotadores. Repetimos este proceso 1000 veces para cada video y calculamos la desviación estándar de la calificación promedio recalculada. La Figura 12a muestra cómo varía la desviación estándar de la calificación de consenso entre videos si usamos cinco o todos los anotadores para cada video. Este análisis muestra que tener más anotadores conduce a desviaciones estándar mucho más pequeñas en la calificación de consenso, lo que puede conducir a representaciones más precisas de la emoción de la verdad fundamental en los videos.

Además, investigamos cómo variaban las respuestas de los observadores entre los videos calculando la desviación estándar entre los observadores para cada video. La Figura 12b muestra las desviaciones estándar entre videos. Encontramos que las desviaciones estándar para las dimensiones de valencia y excitación eran pequeñas: la valencia tenía una desviación estándar promedio de µ = 0,248 y una mediana de 0,222 y la excitación tenía una desviación estándar promedio de µ = 0,248 y una mediana de 0,244, que son comparables. con la variación de la calificación de valencia y excitación de EMOTIC [32].