paint-brush
VEATIC: Calificaciones y referencias de familiaridad y disfrutepor@kinetograph
217 lecturas

VEATIC: Calificaciones y referencias de familiaridad y disfrute

Demasiado Largo; Para Leer

En este artículo, los investigadores presentan el conjunto de datos VEATIC para el reconocimiento de los afectos humanos, abordando las limitaciones de los conjuntos de datos existentes y permitiendo la inferencia basada en el contexto.
featured image - VEATIC: Calificaciones y referencias de familiaridad y disfrute
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Este documento está disponible en arxiv bajo licencia CC 4.0.

Autores:

(1) Zhihang Ren, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(2) Jefferson Ortega, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(3) Yifan Wang, Universidad de California, Berkeley y estos autores contribuyeron igualmente a este trabajo (correo electrónico: [email protected]);

(4) Zhimin Chen, Universidad de California, Berkeley (correo electrónico: [email protected]);

(5) Yunhui Guo, Universidad de Texas en Dallas (correo electrónico: [email protected]);

(6) Stella X. Yu, Universidad de California, Berkeley y Universidad de Michigan, Ann Arbor (correo electrónico: [email protected]);

(7) David Whitney, Universidad de California, Berkeley (correo electrónico: [email protected]).

Tabla de enlaces

11. Calificaciones de familiaridad y disfrute

Se recopilaron calificaciones de familiaridad y disfrute para cada video entre los participantes, como se muestra en la Figura 13. Las calificaciones de familiaridad y disfrute para las ID de video 0-83 se recopilaron en una escala de 1-5 y 1-9, respectivamente. Las calificaciones de familiaridad y disfrute para las ID de vídeo 83-123 se recopilaron antes de la planificación del conjunto de datos VEATIC y se recopilaron en una escala diferente. Las calificaciones de familiaridad y disfrute para los ID de video 83-97 se recopilaron en una escala de 0 a 5 y no se recolectaron calificaciones de familiaridad/disfrute para los ID de video 98-123. Para fines de análisis y visualización, cambiamos la escala de las calificaciones de familiaridad y disfrute de los ID de video 83-97 a 1-5 y 1-9, respectivamente, para que coincidan con los ID de video 0-83. Para reescalar los valores de familiaridad de 0-5 a 1-5 realizamos una transformación lineal, primero normalizamos los datos entre 0 y 1, luego multiplicamos los valores por 4 y sumamos 1. Reescalamos los valores de disfrute de 0-5 a 1-9 de manera similar, primero normalizando los datos entre 0 y 1, luego multiplicamos los valores por 8 y sumamos 1. Como resultado, la calificación promedio de familiaridad fue 1,61 mientras que la calificación promedio de disfrute fue 4,98 para las ID de video 0-97.


Figura 11. Ejemplo de diferentes valoraciones de un mismo vídeo en VEATIC. (a). Los dos personajes seleccionados. (b). Las calificaciones de emoción continua de los personajes correspondientes. El mismo color indica el mismo carácter. Un buen algoritmo de reconocimiento de emociones debería inferir la emoción de dos personajes de manera correspondiente, dadas las interacciones entre personajes y exactamente la misma información de contexto.

Referencias

[1] Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Luciˇ c y Cordelia Schmid. Vivit: Un transformador de visión de vídeo. En Actas de la conferencia internacional IEEE/CVF sobre visión por computadora, páginas 6836–6846, 2021.


Figura 12. a) Desviación estándar de respuesta de cinco anotadores versus desviación estándar de respuesta de todos los anotadores. Probar una pequeña cantidad de anotadores puede generar una imprecisión sustancial en las anotaciones. Aumentar el número de anotadores, como en este estudio, mejora enormemente la precisión. b) Desviación estándar de respuesta de los anotadores para cada video. Las líneas continuas rojas y azules indican la desviación estándar de las respuestas de los anotadores en cuanto a valencia y excitación, en cada video, respectivamente. Los resultados se ordenan según la desviación estándar de cada vídeo para fines de visualización. Las líneas discontinuas muestran la desviación estándar mediana para cada dimensión. Los valores medios para las desviaciones estándar de valencia y excitación son los mismos con µ = 0,248.


Figura 13. Calificaciones de familiaridad y disfrute en todos los videos. Cada barra representa la calificación promedio de familiaridad o disfrute reportada por todos los participantes que anotaron el video. La calificación promedio de todos los videos se muestra con la línea discontinua horizontal en ambas figuras. Las ID de vídeo se muestran en el eje x.


[2] Hillel Aviezer, Shlomo Bentin, Veronica Dudarev y Ran R Hassin. La automaticidad de la integración emocional del rostro-contexto. Emoción, 11(6):1406, 2011.


[3] Simon Baron-Cohen, Sally Wheelwright, Jacqueline Hill, Yogini Raste e Ian Plumb. Versión revisada del test “leer la mente en los ojos”: un estudio con adultos normales y adultos con síndrome de Asperger o autismo de alto funcionamiento. Revista de Psicología y Psiquiatría Infantil y Disciplinas Afines, 42(2):241–251, 2001.


[4] Lisa Feldman Barrett y Elizabeth A. Kensinger. El contexto se codifica habitualmente durante la percepción de las emociones. Ciencia psicológica, 21(4):595–599, 2010.


[5] Pablo Barros, Nikhil Churamani, Egor Lakomkin, Henrique Siqueira, Alexander Sutherland y Stefan Wermter. El conjunto de datos de comportamiento de emoción-Dios mío. En la Conferencia Internacional Conjunta sobre Redes Neuronales (IJCNN) de 2018, páginas 1 a 7. IEEE, 2018.


[6] Margaret M. Bradley y Peter J. Lang. Normas afectivas para palabras en inglés (nuevamente): manual de instrucciones y calificaciones afectivas. Informe técnico, Informe técnico C-1, del centro de investigaciones en psicofisiología. . . , 1999.


[7] Marta Calbi, Francesca Siri, Katrin Heimann, Daniel Barratt, Vittorio Gallese, Anna Kolesnikov y Maria Alessandra Umilta. Cómo influye el contexto en la interpretación de las expresiones faciales: un estudio de localización de fuentes de EEG de alta densidad sobre el “efecto Kuleshov”. Informes científicos, 9(1):1–16, 2019.


[8] Zhimin Chen y David Whitney. Seguimiento del estado afectivo de personas invisibles. Actas de la Academia Nacional de Ciencias, 116(15):7559–7564, 2019.


[9] Zhimin Chen y David Whitney. El seguimiento afectivo inferencial revela la notable velocidad de la percepción de las emociones basada en el contexto. Cognición, 208:104549, 2021.


[10] Zhimin Chen y David Whitney. El seguimiento inferencial de emociones (iet) revela el papel fundamental del contexto en el reconocimiento de emociones. Emoción, 22(6):1185, 2022.


[11] Kyunghyun Cho, Bart Merrienboer, Caglar Gulcehre, Fethi Bougares, Holger Schwenk y Yoshua Bengio. Aprendizaje de representaciones de frases utilizando el codificador-decodificador rnn para la traducción automática estadística. En EMNLP, 2014.


[12] Jules Davidoff. Diferencias en la percepción visual: el ojo individual. Elsevier, 2012. [13] Abhinav Dhall, Roland Goecke, Simon Lucey, Tom Gedeon y otros. Recopilación de bases de datos de expresiones faciales de películas grandes y ricamente comentadas. IEEE multimedia, 19(3):34, 2012.


[14] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. Una imagen vale 16x16 palabras: Transformadores para el reconocimiento de imágenes a escala. Preimpresión de arXiv arXiv:2010.11929, 2020.


[15] Ellen Douglas-Cowie, Roddy Cowie, Cate Cox, Noam Amir y Dirk Heylen. El oyente artificial sensible: una técnica de inducción para generar una conversación coloreada emocionalmente. En el taller de LREC sobre corpus para la investigación sobre la emoción y el afecto, páginas 1–4. ELRA París, 2008.


[16]Paul Ekman. Un argumento para emociones básicas. Cognición y emoción, 6(3-4):169–200, 1992.


[17] Paul Ekman y Wallace V. Friesen. Sistema de codificación de acciones faciales. Psicología ambiental y comportamiento no verbal, 1978.


[18] Zhiyun Gao, Wentao Zhao, Sha Liu, Zhifen Liu, Chengxiang Yang y Yong Xu. Reconocimiento de emociones faciales en la esquizofrenia. Fronteras en psiquiatría, 12:633717, 2021.


[19] Rohit Girdhar, Joao Carreira, Carl Doersch y Andrew Zisserman. Red de transformadores de acción de vídeo. En Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 244–253, 2019.


[20] Kaiming He, Xiangyu Zhang, Shaoqing Ren y Jian Sun. Profundizando en los rectificadores: superando el rendimiento a nivel humano en la clasificación de imagenet. En Actas de la conferencia internacional IEEE sobre visión por computadora, páginas 1026–1034, 2015.


[21] Kaiming He, Xiangyu Zhang, Shaoqing Ren y Jian Sun. Aprendizaje residual profundo para el reconocimiento de imágenes. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 770–778, 2016.


[22] Will E Hipson y Saif M Mohammad. Dinámica de las emociones en los diálogos cinematográficos. PloS one, 16(9):e0256153, 2021. [23] Sepp Hochreiter y Jurgen Schmidhuber. Memoria larga ¨corto plazo¨. Computación neuronal, 9(8):1735–1780, 1997.


[24] John J. Hopfield. Redes neuronales y sistemas físicos con habilidades computacionales colectivas emergentes. Actas de la academia nacional de ciencias, 79(8):2554–2558, 1982.


[25] Zhao Kaili, Wen-Sheng Chu y Honggang Zhang. Aprendizaje profundo de regiones y múltiples etiquetas para la detección de unidades de acción facial. En En las actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 3391–3399, 2016.


[26] Mary Kayyal, Sherri Widen y James A. Russell. El contexto es más poderoso de lo que pensamos: las señales contextuales anulan las señales faciales incluso para la valencia. Emoción, 15(3):287, 2015.


[27] Diederik P. Kingma y Jimmy Ba. Adam: un método para la optimización estocástica. Preimpresión de arXiv arXiv:1412.6980, 2014.


[28] Sander Koelstra, Christian Muhl, Mohammad Soleymani, Jong-Seok Lee, Ashkan Yazdani, Touradj Ebrahimi, Thierry Pun, Anton Nijholt e Ioannis Patras. Deap: una base de datos para el análisis de emociones; utilizando señales fisiológicas. Transacciones IEEE sobre informática afectiva, 3(1):18–31, 2011.


[29] Dimitrios Kollias y Stefanos Zafeiriou. Aff-wild2: Ampliación de la base de datos aff-wild para el reconocimiento de afectos. Preimpresión de arXiv arXiv:1811.07770, 2018.


[30] Dimitrios Kollias y Stefanos Zafeiriou. Expresión, afecto, reconocimiento de unidades de acción: Aff-wild2, aprendizaje multitarea y arcface. Preimpresión de arXiv arXiv:1910.04855, 2019.


[31] Jean Kossaifi, Georgios Tzimiropoulos, Sinisa Todorovic y Maja Pantic. Base de datos Afew-va para estimación de valencia y excitación en estado salvaje. Computación de imagen y visión, 65:23–36, 2017.


[32] Ronak Kosti, José M. Álvarez, Adria Recasens y Agata Lapedriza. Reconocimiento de emociones basado en el contexto utilizando un conjunto de datos emotivos. Transacciones IEEE sobre análisis de patrones e inteligencia artificial, 42(11):2755–2766, 2019.


[33] Jiyoung Lee, Seungryong Kim, Sunok Kim, Jungin Park y Kwanghoon Sohn. Redes de reconocimiento de emociones conscientes del contexto. En Actas de la conferencia internacional IEEE/CVF sobre visión por computadora, páginas 10143–10152, 2019.


[34] Tae-Ho Lee, June-Seek Choi y Yang Seok Cho. La modulación del contexto de la percepción de las emociones faciales difería según la diferencia individual. Más uno, 7(3):e32987, 2012.


[35] Yong Li, Jiabei Zeng, Shiguang Shan y Xilin Chen. Aprendizaje de representación autosupervisada a partir de vídeos para la detección de unidades de acción facial. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 10924–10933, 2019.


[36] Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin y Han Hu. Transformador giratorio de vídeo. En Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 3202–3211, 2022.


[37] Cheng Luo, Siyang Song, Weicheng Xie, Linlin Shen y Hatice Gunes. Aprendizaje de gráficos de relación au basados en características de borde multidimensional para el reconocimiento de unidades de acción facial. En Actas de la Trigésima Primera Conferencia Internacional Conjunta sobre Inteligencia Artificial, IJCAI-22, páginas 1239–1246, 2022.


[38] Daniel McDuff, Rana Kaliouby, Thibaud Senechal, May Amr, Jeffrey Cohn y Rosalind Picard. Conjunto de datos de expresión facial Affectiva-mit (am-fed): expresiones faciales naturalistas y espontáneas recopiladas. En Actas de la conferencia IEEE sobre talleres de reconocimiento de patrones y visión por computadora, páginas 881–888, 2013.


[39] Gary McKeown, Michel Valstar, Roddy Cowie, Maja Pantic y Marc Schroder. La base de datos semaine: registros multimodales anotados de conversaciones emocionalmente coloreadas entre una persona y un agente limitado. Transacciones IEEE sobre informática afectiva, 3(1):5–17, 2011.


[40] Trisha Mittal, Pooja Guhan, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera y Dinesh Manocha. Emoticon: reconocimiento de emociones multimodal consciente del contexto utilizando el principio de Frege. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 14234–14243, 2020.


[41] MA Nasri, Mohamed Amine Hmani, Aymen Mtibaa, Dijana Petrovska-Delacretaz, M Ben Slima y A Ben Hamida. Reconocimiento facial de emociones a partir de imágenes estáticas basado en redes neuronales convolucionales. En 2020, Quinta Conferencia Internacional sobre Tecnologías Avanzadas para el Procesamiento de Señales e Imágenes (ATSIP), páginas 1–6. IEEE, 2020.


[42] Erik C Nook, Kristen A Lindquist y Jamil Zaki. Una nueva mirada a la percepción de las emociones: los conceptos aceleran y dan forma al reconocimiento de las emociones faciales. Emoción, 15(5):569, 2015.


[43] Desmond C Ong, Zhengxuan Wu, Zhi-Xuan Tan, Marianne Reddan, Isabella Kahhale, Alison Mattek y Jamil Zaki. Modelado de emociones en historias complejas: el conjunto de datos de narrativas emocionales de Stanford. Transacciones IEEE sobre informática afectiva, 12(3):579–594, 2019.


[44] Desmond C Ong, Jamil Zaki y Noah D Goodman. Modelos computacionales de inferencia de emociones en la teoría de la mente: una revisión y una hoja de ruta. Temas de ciencia cognitiva, 11(2):338–357, 2019.


[45] Timea R Partos, Simon J Cropper y David Rawlings. No ves lo que veo: diferencias individuales en la percepción del significado a partir de estímulos visuales. Más uno, 11(3):e0150615, 2016.


[46] Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam Naik, Erik Cambria y Rada Mihalcea. Meld: un conjunto de datos multimodal y multipartito para el reconocimiento de emociones en conversaciones. Preimpresión de arXiv arXiv:1810.02508, 2018.


[47] Jonathan Posner, James A Russell y Bradley S Peterson. El modelo circumplejo del afecto: un enfoque integrador de la neurociencia afectiva, el desarrollo cognitivo y la psicopatología. Desarrollo y psicopatología, 17(3):715–734, 2005.


[48] Zhihang Ren, Xinyu Li, Dana Pietralla, Mauro Manassi y David Whitney. Dependencia serial en los juicios dermatológicos. Diagnóstico, 13(10):1775, 2023.


[49] Fabien Ringeval, Andreas Sonderegger, Juergen Sauer y Denis Lalanne. Presentamos el corpus multimodal recola de interacciones afectivas y colaborativas remotas. En 2013, décima conferencia y talleres internacionales del IEEE sobre reconocimiento automático de rostros y gestos (FG), páginas 1 a 8. IEEE, 2013.


[50] David E Rumelhart, Geoffrey E Hinton, Ronald J Williams, et al. Aprendizaje de representaciones internas mediante propagación de errores, 1985.


[51] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, et al. Desafío de reconocimiento visual a gran escala de Imagenet. Revista internacional de visión por computadora, 115:211–252, 2015.


[52] James A Russell. Un modelo circumplejo de afecto. Revista de personalidad y psicología social, 39(6):1161, 1980.


[53] James A Russell. perspectiva contextual dimensional. La psicología de la expresión facial, página 295, 1997.


[54] Andréi V. Sávchenko. Reconocimiento de expresiones faciales y atributos basado en el aprendizaje multitarea de redes neuronales ligeras. En 2021, 19.º Simposio internacional de IEEE sobre sistemas inteligentes e informática (SISY), páginas 119–124. IEEE, 2021.


[55] Andrey V Savchenko, Lyudmila V Savchenko e Ilya Makarov. Clasificación de emociones y participación en el aprendizaje en línea basándose en una única red neuronal de reconocimiento de expresiones faciales. Transacciones IEEE sobre informática afectiva, 13(4):2132–2143, 2022.


[56] Zhiwen Shao, Zhilei Liu, Jianfei Cai y Lizhuang Ma. Atención adaptativa profunda para la detección conjunta de unidades de acción facial y la alineación del rostro. En Actas de la conferencia europea sobre visión por computadora (ECCV), páginas 705–720, 2018.


[57] Jiahui She, Yibo Hu, Hailin Shi, Jun Wang, Qiu Shen y Tao Mei. Sumérjase en la ambigüedad: minería de distribución latente y estimación de incertidumbre por pares para el reconocimiento de expresiones faciales. En Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 6248–6257, 2021.


[58] Ian Sneddon, Margaret McRorie, Gary McKeown y Jennifer Hanratty. La base de datos de emociones naturales inducidas por Belfast. Transacciones IEEE sobre informática afectiva, 3(1):32–41, 2011.


[59] Mohammad Soleymani, Jeroen Lichtenauer, Thierry Pun y Maja Pantic. Una base de datos multimodal para el reconocimiento de afectos y el etiquetado implícito. Transacciones IEEE sobre informática afectiva, 3(1):42–55, 2011.


[60] Paweł Tarnowski, Marcin Kołodziej, Andrzej Majkowski y Remigiusz J Rak. Reconocimiento de emociones mediante expresiones faciales. Procedia Ciencias de la Computación, 108:1175–1184, 2017.


[61] YI Tian, Takeo Kanade y Jeffrey F Cohn. Reconocimiento de unidades de acción para el análisis de la expresión facial. IEEE Transactions sobre análisis de patrones e inteligencia artificial, 23(2):97–115, 2001.


[62] Vedat Tumen, ¨Omer Faruk S¨oylemez y Burhan Ergen. ¨ Reconocimiento de emociones faciales en un conjunto de datos utilizando una red neuronal convolucional. En el Simposio internacional de procesamiento de datos e inteligencia artificial (IDAP) de 2017, páginas 1 a 5. IEEE, 2017.


[63] Gaetano Valenza, Antonio Lanata y Enzo Pasquale Scilingo. El papel de la dinámica no lineal en la valencia afectiva y el reconocimiento de la excitación. Transacciones IEEE sobre informática afectiva, 3(2):237–249, 2011.


[64] Raviteja Vemulapalli y Aseem Agarwala. Una incrustación compacta para la similitud de expresiones faciales. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 5683–5692, 2019.


[65] Kannan Venkataramanan y Haresh Rengaraj Rajamohan. Reconocimiento de emociones a partir del habla. Preimpresión de arXiv arXiv:1912.10458, 2019.


[66] Kai Wang, Xiaojiang Peng, Jianfei Yang, Shijian Lu y Yu Qiao. Suprimir las incertidumbres para el reconocimiento de expresiones faciales a gran escala. En Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 6897–6906, 2020.


[67] Fanglei Xue, Zichang Tan, Yu Zhu, Zhongsong Ma y Guodong Guo. Redes en cascada de gruesa a fina con predicción fluida para el reconocimiento de expresiones faciales en vídeo. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 2412–2418, 2022.


[68] Seunghyun Yoon, Seokhyun Byun y Kyomin Jung. Reconocimiento multimodal de emociones del habla mediante audio y texto. En 2018 Taller de tecnología del lenguaje hablado (SLT) del IEEE, páginas 112–118. IEEE, 2018.


[69] Stefanos Zafeiriou, Dimitrios Kollias, Mihalis A Nicolaou, Athanasios Papaioannou, Guoying Zhao e Irene Kotsia. Aff-wild: desafío de valencia y excitación en lo salvaje. En Actas de la conferencia IEEE sobre talleres de visión por computadora y reconocimiento de patrones, páginas 34 a 41, 2017.


[70] Yuanyuan Zhang, Jun Du, Zirui Wang, Jianshu Zhang y Yanhui Tu. Red totalmente convolucional basada en la atención para el reconocimiento de emociones del habla. En la Cumbre y Conferencia Anual de la Asociación de Procesamiento de Información y Señales de Asia-Pacífico de 2018 (APSIPA ASC), páginas 1771–1775. IEEE, 2018.


[71] Yuan-Hang Zhang, Rulin Huang, Jiabei Zeng y Shiguang Shan. M 3 f: Estimación de excitación de valencia continua multimodal en la naturaleza. En 2020, 15.ª Conferencia internacional IEEE sobre reconocimiento automático de rostros y gestos (FG 2020), páginas 632–636. IEEE, 2020.


Este documento está disponible en arxiv bajo licencia CC 4.0.