paint-brush
VEATIC: Seguimiento de emociones y afectos basado en videos en un conjunto de datos contextual: trabajo relacionadopor@kinetograph
156 lecturas

VEATIC: Seguimiento de emociones y afectos basado en videos en un conjunto de datos contextual: trabajo relacionado

Demasiado Largo; Para Leer

En este artículo, los investigadores presentan el conjunto de datos VEATIC para el reconocimiento de los afectos humanos, abordando las limitaciones de los conjuntos de datos existentes y permitiendo la inferencia basada en el contexto.
featured image - VEATIC: Seguimiento de emociones y afectos basado en videos en un conjunto de datos contextual: trabajo relacionado
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Autores:

(1) Zhihang Ren, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(2) Jefferson Ortega, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(3) Yifan Wang, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(4) Zhimin Chen, Universidad de California, Berkeley (correo electrónico: [email protected]);

(5) Yunhui Guo, Universidad de Texas en Dallas (correo electrónico: [email protected]);

(6) Stella X. Yu, Universidad de California, Berkeley y Universidad de Michigan, Ann Arbor (correo electrónico: [email protected]);

(7) David Whitney, Universidad de California, Berkeley (correo electrónico: [email protected]).

Tabla de enlaces

2. Trabajo relacionado

Recientemente, ha habido varios conjuntos de datos que proporcionan marcos con información facial y contextual, como CAER [33] y EMOTIC [32]. CAER [33] es un conjunto de datos basado en video que contiene etiquetas categóricas de cada cuadro de video, y EMOTIC [32] es un conjunto de datos basado en imágenes que contiene etiquetas de expresión categóricas y calificaciones continuas de dominancia-excitación-valencia. A diferencia de estos conjuntos de datos, nuestro conjunto de datos está basado en videos y contiene calificaciones continuas de valencia y excitación. En la Tabla 1 se puede encontrar una comparación detallada entre nuestro conjunto de datos con conjuntos de datos anteriores.


A partir de varios conjuntos de datos sobre emociones, los estudios han comenzado a centrarse en cómo inferir las emociones automáticamente. El afecto humano se puede inferir de muchas modalidades, como el audio [70, 68, 65], lo visual [40, 54, 55, 37] y el texto [68, 22]. Para las entradas visuales, en particular, existen tres tareas principales.


Tabla 1. Comparación del conjunto de datos VEATIC con conjuntos de datos de reconocimiento de emociones existentes. VEATIC contiene una gran cantidad de videoclips y una larga duración total de vídeo. Es el primer gran conjunto de datos de vídeo de reconocimiento de emociones consciente del contexto con valencia continua y anotaciones de excitación. VEATIC también tiene muchos más anotadores en comparación con otros conjuntos de datos de vídeo de reconocimiento de emociones sensibles al contexto. (*: medios mixtos que contienen anotaciones continuas y categóricas).


La tarea de estimación de la activación de valencia tiene como objetivo predecir la valencia y la activación de cada imagen/cuadro [71, 69, 29, 30]; la tarea de reconocimiento de expresiones se centra en clasificar categorías emocionales de cada imagen/cuadro [66, 57, 67]; y la tarea de detección de la unidad de acción (AU) tiene como objetivo detectar las acciones de los músculos faciales de las caras de cada imagen/cuadro [25, 56, 35, 64]. Actualmente, la mayoría de los métodos propuestos se basan en gran medida en el área facial para inferir el estado emocional. De hecho, el área facial contiene rica información sobre el estado emocional humano. Sin embargo, los factores contextuales también proporcionan información esencial que es necesaria para que los humanos infieran y perciban correctamente los estados emocionales de los demás [8, 9, 10]. Varios estudios [33, 32, 40] han comenzado a incorporar información contextual como fuente de inferencia afectiva. En este estudio, también adoptamos información facial y contextual para lograr la nueva tarea, es decir, inferir la valencia y la excitación de cada cuadro de video.


Para inferir el afecto de una persona, normalmente necesitamos tratar con información temporal de segmentos de audio, fotogramas de vídeo o palabras. Muchos estudios [68, 69, 29, 30] comenzaron a utilizar memoria a corto plazo (LSTM) [23], unidad recurrente cerrada (GRU) [11] o red neuronal recurrente (RNN) [24, 50] para procesar el información temporal. Con la aparición del transformador visual (ViT) [14], la atención ha cambiado. Muchas tareas de comprensión de video [19, 1, 36] han utilizado ViT para comprender la información temporal y lograr un rendimiento de última generación. Nuestro método de referencia también adoptó ViT como herramienta para procesar la información temporal en videoclips.



Este documento está disponible en arxiv bajo licencia CC 4.0.