Autores:
(1) Zhihang Ren, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);
(2) Jefferson Ortega, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);
(3) Yifan Wang, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);
(4) Zhimin Chen, Universidad de California, Berkeley (correo electrónico: [email protected]);
(5) Yunhui Guo, Universidad de Texas en Dallas (correo electrónico: [email protected]);
(6) Stella X. Yu, Universidad de California, Berkeley y Universidad de Michigan, Ann Arbor (correo electrónico: [email protected]);
(7) David Whitney, Universidad de California, Berkeley (correo electrónico: [email protected]).
Recientemente, ha habido varios conjuntos de datos que proporcionan marcos con información facial y contextual, como CAER [33] y EMOTIC [32]. CAER [33] es un conjunto de datos basado en video que contiene etiquetas categóricas de cada cuadro de video, y EMOTIC [32] es un conjunto de datos basado en imágenes que contiene etiquetas de expresión categóricas y calificaciones continuas de dominancia-excitación-valencia. A diferencia de estos conjuntos de datos, nuestro conjunto de datos está basado en videos y contiene calificaciones continuas de valencia y excitación. En la Tabla 1 se puede encontrar una comparación detallada entre nuestro conjunto de datos con conjuntos de datos anteriores.
A partir de varios conjuntos de datos sobre emociones, los estudios han comenzado a centrarse en cómo inferir las emociones automáticamente. El afecto humano se puede inferir de muchas modalidades, como el audio [70, 68, 65], lo visual [40, 54, 55, 37] y el texto [68, 22]. Para las entradas visuales, en particular, existen tres tareas principales.
La tarea de estimación de la activación de valencia tiene como objetivo predecir la valencia y la activación de cada imagen/cuadro [71, 69, 29, 30]; la tarea de reconocimiento de expresiones se centra en clasificar categorías emocionales de cada imagen/cuadro [66, 57, 67]; y la tarea de detección de la unidad de acción (AU) tiene como objetivo detectar las acciones de los músculos faciales de las caras de cada imagen/cuadro [25, 56, 35, 64]. Actualmente, la mayoría de los métodos propuestos se basan en gran medida en el área facial para inferir el estado emocional. De hecho, el área facial contiene rica información sobre el estado emocional humano. Sin embargo, los factores contextuales también proporcionan información esencial que es necesaria para que los humanos infieran y perciban correctamente los estados emocionales de los demás [8, 9, 10]. Varios estudios [33, 32, 40] han comenzado a incorporar información contextual como fuente de inferencia afectiva. En este estudio, también adoptamos información facial y contextual para lograr la nueva tarea, es decir, inferir la valencia y la excitación de cada cuadro de video.
Para inferir el afecto de una persona, normalmente necesitamos tratar con información temporal de segmentos de audio, fotogramas de vídeo o palabras. Muchos estudios [68, 69, 29, 30] comenzaron a utilizar memoria a corto plazo (LSTM) [23], unidad recurrente cerrada (GRU) [11] o red neuronal recurrente (RNN) [24, 50] para procesar el información temporal. Con la aparición del transformador visual (ViT) [14], la atención ha cambiado. Muchas tareas de comprensión de video [19, 1, 36] han utilizado ViT para comprender la información temporal y lograr un rendimiento de última generación. Nuestro método de referencia también adoptó ViT como herramienta para procesar la información temporal en videoclips.
Este documento está disponible en arxiv bajo licencia CC 4.0.