Este documento está disponible en arxiv bajo licencia CC 4.0.
Autores:
(1) Zhihang Ren, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);
(2) Jefferson Ortega, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);
(3) Yifan Wang, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);
(4) Zhimin Chen, Universidad de California, Berkeley (correo electrónico: [email protected]);
(5) Yunhui Guo, Universidad de Texas en Dallas (correo electrónico: [email protected]);
(6) Stella X. Yu, Universidad de California, Berkeley y Universidad de Michigan, Ann Arbor (correo electrónico: [email protected]);
(7) David Whitney, Universidad de California, Berkeley (correo electrónico: [email protected]).
Comprender cómo los humanos infieren las emociones de los demás es esencial para que los investigadores comprendan la cognición social. Mientras los psicofísicos realizan experimentos, necesitan conjuntos de estímulos específicos para diseñar experimentos. Sin embargo, entre los conjuntos de datos publicados, actualmente no existe ningún conjunto de datos de video basado en contexto que contenga calificaciones continuas de valencia y excitación. La falta de este tipo de conjuntos de datos también impide que los investigadores desarrollen algoritmos de visión por computadora para las tareas correspondientes. Nuestro conjunto de datos VEATIC propuesto llena este importante vacío en el campo de la visión por computadora y será beneficioso para los estudios psicofísicos para comprender el reconocimiento de emociones. D
Durante la recopilación de datos, los participantes rastrearon y calificaron continuamente las emociones de los personajes objetivo en los videoclips, lo que es diferente de los experimentos psicofísicos generales donde las respuestas se recopilan después de un retraso. Este diseño en nuestro conjunto de datos fue vital para imitar el procesamiento de emociones en tiempo real que ocurre cuando los humanos procesan emociones en su vida cotidiana. Además, el procesamiento de emociones no es un proceso inmediato y depende en gran medida de la acumulación temporal de información a lo largo del tiempo para hacer inferencias precisas sobre las emociones de los demás.
La fortaleza del conjunto de datos VEATIC es que imita cómo los humanos perciben las emociones en el mundo real: de forma continua y en presencia de información contextual tanto en el dominio temporal como espacial. Un conjunto de datos tan rico es vital para futuros modelos de visión por computadora y puede ampliar los límites de lo que los modelos actuales pueden lograr. Con la creación de conjuntos de datos más ricos como VEATIC, es posible que futuros modelos de visión por computadora perciban emociones en tiempo real mientras interactúan con los humanos.
Este documento está disponible en arxiv bajo licencia CC 4.0.