paint-brush
VEATIC: Seguimiento de emociones y afectos basado en videos en un conjunto de datos contextual: experimentospor@kinetograph
136 lecturas

VEATIC: Seguimiento de emociones y afectos basado en videos en un conjunto de datos contextual: experimentos

Demasiado Largo; Para Leer

En este artículo, los investigadores presentan el conjunto de datos VEATIC para el reconocimiento de los afectos humanos, abordando las limitaciones de los conjuntos de datos existentes y permitiendo la inferencia basada en el contexto.
featured image - VEATIC: Seguimiento de emociones y afectos basado en videos en un conjunto de datos contextual: experimentos
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Este documento está disponible en arxiv bajo licencia CC 4.0.

Autores:

(1) Zhihang Ren, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(2) Jefferson Ortega, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(3) Yifan Wang, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(4) Zhimin Chen, Universidad de California, Berkeley (correo electrónico: [email protected]);

(5) Yunhui Guo, Universidad de Texas en Dallas (correo electrónico: [email protected]);

(6) Stella X. Yu, Universidad de California, Berkeley y Universidad de Michigan, Ann Arbor (correo electrónico: [email protected]);

(7) David Whitney, Universidad de California, Berkeley (correo electrónico: [email protected]).

Tabla de enlaces

4. Experimentos

En este estudio, proponemos una nueva tarea de reconocimiento de emociones en contexto, es decir, inferir la valencia y la excitación del personaje seleccionado a través del contexto y la información del personaje en cada cuadro de video. Aquí, proponemos un modelo de referencia simple para comparar la nueva tarea de reconocimiento de emociones en contexto. La canalización del modelo se muestra en la Figura 8. Adoptamos dos submódulos simples: un módulo de red neuronal convolucional (CNN) para la extracción de características y un módulo de transformador visual para el procesamiento de información temporal. La estructura del módulo CNN se adopta de Resnet50 [21]. A diferencia de CAER [33] y EMOTIC [32], donde las características faciales/de carácter y contextuales se extraen por separado y se fusionan más tarde, codificamos directamente el cuadro completamente informado. Para una única predicción, N fotogramas de vídeo consecutivos se codifican de forma independiente. Luego, los vectores de características de fotogramas consecutivos se incrustan en primera posición y se introducen en el codificador del transformador que contiene L conjuntos de módulos de atención. Por fin, la predicción de la excitación y la valencia se logra mediante una cabeza de perceptrón multicapa (MLP).


Figura 8. La arquitectura del modelo de referencia para la tarea de seguimiento de emociones y afectos en contexto. El modelo consta de un módulo de extracción de características CNN y un transformador visual para combinar información temporal de fotogramas consecutivos.

4.1. Función de pérdida y configuración de entrenamiento

La función de pérdidas de nuestro modelo base es una combinación ponderada de dos pérdidas separadas. La pérdida de MSE regulariza la alineación local de la verdad fundamental de las calificaciones y las predicciones del modelo. Para garantizar la alineación de las calificaciones y predicciones a mayor escala, como aprender las estadísticas temporales de las calificaciones emocionales, también utilizamos el coeficiente de correlación de concordancia (CCC) como regularización. Este coeficiente se define de la siguiente manera,


4.2. Métricas de evaluación


El SAGR mide cuánto coinciden los signos de los valores individuales de dos vectores X e Y. Toma valores en [0, 1], donde 1 representa el acuerdo completo y 0 representa una contradicción completa. La métrica SAGR puede capturar información de desempeño adicional que otras. Por ejemplo, dada una verdad fundamental de valencia de 0,2, las predicciones de 0,7 y -0,3 conducirán al mismo valor de RMSE. Pero claramente, 0,7 es más adecuado porque es una valencia positiva.


Tabla 3. Desempeño de nuestro modelo propuesto en condiciones de información completa, solo de caracteres y de solo contexto. Inferencia a través de información de carácter y contexto, el modelo funciona mejor. Muestra la importancia tanto del contexto como de la información del personaje en las tareas de seguimiento de emociones y afectos.


Tabla 4. Comparación de nuestro método propuesto perfeccionado con los modelos previamente entrenados de EMOTIC y CARE-S en sus conjuntos de datos. Nuestro modelo simple logra resultados competitivos, lo que indica la generalización de VEATIC.

4.3. Resultados de referencia

Comparamos la nueva tarea de reconocimiento de emociones en contexto utilizando las 4 métricas antes mencionadas, CCC, PCC, RMSE y SAGR. Los resultados se muestran en la Tabla 3. En comparación con otros conjuntos de datos, nuestro método simple propuesto está a la par con los métodos más modernos en sus conjuntos de datos.


También investigamos la importancia del contexto y la información de los personajes en las tareas de reconocimiento de emociones al introducir los marcos de solo contexto y de solo personajes en el modelo previamente entrenado en marcos completamente informados. Para obtener comparaciones justas y excluir la influencia de las diferencias en la distribución de píxeles del cuadro, también ajustamos el modelo previamente entrenado en los cuadros de solo contexto y de solo caracteres. Los resultados correspondientes se muestran también en la Tabla 3. Sin información completa, el rendimiento del modelo disminuye tanto para condiciones de solo contexto como de solo caracteres.


Para mostrar la efectividad del conjunto de datos de VEATIC, utilizamos nuestro modelo previamente entrenado en VEATIC, lo ajustamos en otros conjuntos de datos y probamos su rendimiento. Solo probamos EMOTIC [32] y CAER-S [33] dada la simplicidad de nuestro modelo y la similitud de nuestro modelo con los modelos propuestos en otros artículos sobre conjuntos de datos. Los resultados se muestran en la Tabla 4. Nuestro modelo previamente entrenado funciona a la par con los métodos propuestos en EMOTIC [32] y CAERS [33]. Por lo tanto, muestra la efectividad de nuestro conjunto de datos VEATIC propuesto.



Este documento está disponible en arxiv bajo licencia CC 4.0.