paint-brush
VEATIC: Seguimiento de emociones y afectos basado en videos en un conjunto de datos contextual: Conjunto de datos VEATICpor@kinetograph
167 lecturas

VEATIC: Seguimiento de emociones y afectos basado en videos en un conjunto de datos contextual: Conjunto de datos VEATIC

Demasiado Largo; Para Leer

En este artículo, los investigadores presentan el conjunto de datos VEATIC para el reconocimiento de los afectos humanos, abordando las limitaciones de los conjuntos de datos existentes y permitiendo la inferencia basada en el contexto.
featured image - VEATIC: Seguimiento de emociones y afectos basado en videos en un conjunto de datos contextual: Conjunto de datos VEATIC
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Este documento está disponible en arxiv bajo licencia CC 4.0.

Autores:

(1) Zhihang Ren, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(2) Jefferson Ortega, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(3) Yifan Wang, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(4) Zhimin Chen, Universidad de California, Berkeley (correo electrónico: [email protected]);

(5) Yunhui Guo, Universidad de Texas en Dallas (correo electrónico: [email protected]);

(6) Stella X. Yu, Universidad de California, Berkeley y Universidad de Michigan, Ann Arbor (correo electrónico: [email protected]);

(7) David Whitney, Universidad de California, Berkeley (correo electrónico: [email protected]).

Tabla de enlaces

3. Conjunto de datos VEATIC

En esta sección, presentamos el conjunto de datos de seguimiento de emociones y afectos en contexto basado en videos ( VEATIC ). Primero, describimos cómo obtuvimos todos los videoclips. A continuación, ilustramos los procedimientos de anotación de datos y el proceso de preprocesamiento. Finalmente, informamos estadísticas importantes de conjuntos de datos y visualizamos los resultados del análisis de datos.

3.1. Adquisición de videoclips

Todos los videoclips utilizados en el conjunto de datos se adquirieron de un sitio web para compartir videos en línea (YouTube) y los videoclips se seleccionaron sobre la base de que las emociones/afectos de los personajes de los clips deben variar a lo largo del tiempo. En total, el conjunto de datos VEATIC contiene 124 videoclips, 104 clips de películas de Hollywood, 15 clips de videos caseros y 5 clips de documentales o reality shows de televisión. En la (Figura 2) se muestran marcos de muestra del conjunto de datos VEATIC. Estos videos contienen de cero a múltiples personajes que interactúan. Se eliminó todo el sonido de los videos para que los observadores solo tuvieran acceso a información visual al rastrear la emoción del personaje objetivo.


Figura 2. Descripción general de fotogramas de vídeo en VEATIC. Tomamos muestras de 4 fotogramas clave de 5 videos en nuestro conjunto de datos. A diferencia de otros conjuntos de datos donde la fuente de los videoclips es única, los videoclips de VEATIC provienen de diferentes fuentes. Incluyen películas de Hollywood, documentales y vídeos caseros. Por lo tanto, haría que el modelo entrenado en nuestro conjunto de datos tuviera más capacidad de generalización. Para la entrada visual, VEATIC contiene diversa información de contexto, incluidos diferentes fondos, condiciones de iluminación, interacciones de personajes, etc. Hace que el conjunto de datos sea más representativo de nuestra vida diaria. Por último, la emoción/afecto del personaje seleccionado varía mucho en cada videoclip, lo que hace que modelar el afecto del personaje en VEATIC sea más desafiante.

3.2. Anotación de datos y preprocesamiento

En total, tuvimos 192 observadores que participaron en la anotación de los videos en el conjunto de datos. Todos los participantes dieron su consentimiento firmado de acuerdo con las pautas y regulaciones de la Junta de Revisión Institucional de UC Berkeley y todos los procedimientos experimentales fueron aprobados.


Los participantes vieron y calificaron un total de 124 videos en el conjunto de datos. Para evitar que los observadores se cansen, dividimos el procedimiento de anotación en dos sesiones de anotación de 1 hora y 30 minutos. Antes de que los participantes pudieran anotar cualquier video, se les mostró una versión impresa de la cuadrícula de calificación de afecto de valencia-excitación con ejemplos de emociones etiquetadas en diferentes ubicaciones de la cuadrícula de acuerdo con las calificaciones proporcionadas por Bradley y Lang (1999) [6]. Se pidió a los anotadores que se familiarizaran con las dimensiones y las ubicaciones de las palabras de muestra que luego utilizarían en el proceso de anotación. Después de que los participantes se familiarizaron con la cuadrícula de calificación de afecto, completaron una anotación de práctica de dos minutos en la que rastrearon continuamente la valencia y la excitación de un personaje objetivo en un video (Figura 3b). Se instruyó a los anotadores para que rastrearan la valencia y la excitación del personaje objetivo en el video moviendo continuamente el puntero del mouse en tiempo real dentro de la cuadrícula de valencia-excitación 2D. La cuadrícula se asignaría a sus calificaciones de valencia y excitación en el rango de [−1, 1]. Para controlar posibles sesgos motores, contrapesamos las dimensiones de valencia-excitación entre los participantes donde la mitad de los anotadores tenían valencia en el eje x y excitación en el eje y y la otra mitad tenía las dimensiones invertidas para que la excitación estuviera en el eje x. -el eje y la valencia estaban en el eje y. Una vez que los observadores terminaron la sesión de práctica de anotación, comenzaron a anotar los videos en el conjunto de datos.


Figura 3. Interfaz de usuario utilizada para la anotación de vídeo. a) A los participantes se les mostró primero el personaje objetivo y se les recordaron las instrucciones de la tarea antes del inicio de cada video. b) La cuadrícula de valencia y excitación superpuesta que estaba presente mientras los observadores anotaban los videos. Se ordenó a los observadores que calificaran continuamente la emoción del personaje objetivo en el video en tiempo real. Si los observadores no movían el mouse durante más de 10 segundos, la cuadrícula de calificación de respuesta parpadearía para recordarle que calificara continuamente la emoción.


Antes de que los participantes comenzaran las anotaciones, se les mostró una imagen con el personaje objetivo rodeado por un círculo (Figura 3a), que les informa a qué personaje seguirán cuando comience el video. Luego, anotaron los videoclips en tiempo real. Al final de cada anotación de video, los participantes informaron su familiaridad con el videoclip usando una escala Likert discreta del 1 al 5 que iba desde "No familiarizado", "Ligeramente familiar", "Algo familiar", "Moderadamente familiar" y "Extremadamente familiar". familiar". También se preguntó a los participantes sobre su nivel de disfrute mientras veían el clip, que se calificó utilizando una escala Likert discreta del 1 al 9 que iba del 1 (No disfrutable) al 9 (Extremadamente disfrutable). Además, para que los participantes no se aburrieran, los 124 videoclips se dividieron en dos sesiones. Los participantes calificaron los videoclips en dos sesiones por separado.


Durante cada prueba, evaluamos si los participantes no estaban prestando atención mediante el seguimiento del tiempo que mantuvieron el puntero del mouse en un solo lugar. Si la duración fuera superior a 10 segundos, la cuadrícula de clasificación de afecto comenzaría a fluctuar, lo que recordaría a los participantes que continuaran rastreando la emoción del personaje objetivo. Para evaluar si había anotadores ruidosos en nuestro conjunto de datos, calculamos el acuerdo de cada anotador individual con el consenso calculando la correlación de Pearson entre cada anotador y el consenso de dejar uno fuera (agregado de respuestas excepto el anotador actual) para cada vídeo. Descubrimos que solo un anotador tenía una correlación inferior a 0,2 en todos los vídeos con el consenso de dejar uno fuera. Dado que solo un anotador cayó por debajo de nuestro umbral, decidimos mantenerlo en el conjunto de datos para no eliminar ninguna anotación alternativa importante a los videos.


Figura 4. Visualización de calificaciones medias de muestra de valencia y excitación para videoclips específicos con la vista ampliada del personaje seleccionado. Mostramos fotogramas clave relacionados con valoraciones medias específicas de valencia y excitación. Los marcos y clasificaciones correspondientes están marcados del mismo color.

3.3. Visualización y análisis de datos

La Figura 4 muestra muestras de calificaciones medias y cuadros clave en 2 videoclips diferentes. Es evidente que aquí tanto la valencia como la excitación tienen una amplia gama de valoraciones. Además, muestra que la información contextual, ya sea espacial y/o temporal, juega un papel importante en las tareas de reconocimiento de emociones. En el ejemplo de valencia (figura superior), sin la información del contexto temporal y/o espacial de la pelea, sería difícil reconocer si el personaje (la mujer) en el último cuadro (amarillo) está sorprendentemente feliz o asombrado. En el ejemplo de excitación (figura inferior), incluso sin la cara del personaje seleccionado, los observadores pueden inferir fácil y consistentemente la excitación del personaje a través del contexto intenso.


Figura 5. Ejemplo de calificaciones de valencia y excitación para un solo video (video 47). Las líneas grises transparentes indican calificaciones de sujetos individuales y la línea verde es la calificación promedio de los participantes.


La Figura 5 ilustra muestras de calificaciones de valencia y excitación de todos los participantes para un solo video en nuestro conjunto de datos. Las calificaciones de los sujetos individuales (líneas grises) siguieron las calificaciones de consenso entre los participantes (línea verde) tanto para las calificaciones de valencia como de excitación. La densa línea gris que se superpone alrededor de la línea verde de consenso indica acuerdos entre una amplia gama de observadores. Además, investigamos cómo variaban las respuestas de los observadores entre los videos calculando la desviación estándar entre los observadores para cada video. Descubrimos que la varianza entre los observadores para las dimensiones de valencia y excitación era pequeña: la valencia tenía una desviación estándar promedio de µ = 0,248 y una mediana de 0,222 y la excitación tenía una desviación estándar promedio de µ = 0,248 y una mediana de 0,244, que son comparable con la variación de la calificación de valencia y excitación de EMOTIC [32].


La distribución de las calificaciones de valencia y excitación en todos nuestros videos se muestra en la Figura 6. Descubrimos que las calificaciones de los participantes individuales se distribuyeron completamente en las dimensiones de valencia y excitación, lo que resalta la diversidad del conjunto de datos VEATIC. También recopilamos calificaciones de familiaridad y disfrute de cada video entre los participantes (como se muestra en la Figura 7). Descubrimos que los observadores no estaban familiarizados con los vídeos utilizados en el conjunto de datos, ya que la calificación de familiaridad promedio fue de 1,61 para los ID de vídeo del 0 al 97. Además, los observadores calificaron su disfrute mientras miraban los videos con un promedio de 4,98 para los ID de video 0-97, lo que indica que los observadores disfrutaron moderadamente viendo y anotando los videoclips. No se recopilaron calificaciones de familiaridad y disfrute para los ID de video 98-123, ya que las anotaciones de estos videos se recopilaron en un momento anterior durante la recopilación de datos que no incluía estas calificaciones.


Figura 6. Distribución de las calificaciones de valencia y excitación entre los participantes. Los puntos blancos individuales representan la valencia y activación promedio de las calificaciones continuas de cada videoclip de películas de Hollywood. Los cuadrados azules y los triángulos verdes representan la valencia y la excitación promedio de documentales y videos caseros, respectivamente. Las calificaciones se agruparon en intervalos de 0,02 y se contó el número total de puntos de datos dentro de cada grupo.


Figura 7. Calificaciones de familiaridad y disfrute en los videos para las ID de video del 0 al 97. Las líneas negras verticales indican 1 SD.


La Tabla 2 a continuación resume las estadísticas básicas del conjunto de datos VEATIC. En pocas palabras, VEATIC tiene una larga duración total de videoclips y una variedad de fuentes de video que cubren una amplia gama de contextos y condiciones emocionales. Además, en comparación con conjuntos de datos anteriores, reclutamos a muchos más participantes para anotar las calificaciones.


Tabla 2. Estadísticas del conjunto de datos VEATIC.



Este documento está disponible en arxiv bajo licencia CC 4.0.