paint-brush
VEATIC: 친숙함과 즐거움 평가 및 참고자료~에 의해@kinetograph
183 판독값

VEATIC: 친숙함과 즐거움 평가 및 참고자료

너무 오래; 읽다

본 논문에서 연구자들은 인간 감정 인식을 위한 VEATIC 데이터 세트를 소개하여 기존 데이터 세트의 한계를 해결하고 상황 기반 추론을 가능하게 합니다.
featured image - VEATIC: 친숙함과 즐거움 평가 및 참고자료
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.

저자:

(1) 캘리포니아 대학교 버클리 캠퍼스의 Zhihang Ren과 이들 저자는 이 연구에 동등하게 기여했습니다(이메일: [email protected]).

(2) 캘리포니아 대학교 버클리 캠퍼스의 Jefferson Ortega와 이들 저자는 이 연구에 동등하게 기여했습니다(이메일: [email protected]).

(3) University of California, Berkeley의 Yifan Wang과 이들 저자는 이 연구에 동등하게 기여했습니다(이메일: [email protected]).

(4) 캘리포니아 버클리 대학교 Zhimin Chen(이메일: [email protected]);

(5) 댈러스 텍사스 대학교 Yunhui Guo (이메일: [email protected]);

(6) Stella X. Yu, University of California, Berkeley 및 University of Michigan, Ann Arbor (이메일: [email protected]);

(7) David Whitney, University of California, Berkeley (이메일: [email protected]).

링크 표

11. 친숙도와 재미도 평가

그림 13과 같이 참가자 전체의 각 비디오에 대해 친숙도와 즐거움 등급이 수집되었습니다. 비디오 ID 0~83에 대한 친숙도와 즐거움 등급은 각각 1~5와 1~9의 척도로 수집되었습니다. 비디오 ID 83-123에 대한 친숙도 및 즐거움 등급은 VEATIC 데이터 세트를 계획하기 전에 수집되었으며 다른 규모로 수집되었습니다. 비디오 ID 83~97에 대한 친숙도 및 즐거움 등급은 0~5점 척도로 수집되었으며, 비디오 ID 98~123에 대해서는 친숙도/즐거움 등급이 수집되지 않았습니다. 분석 및 시각화 목적을 위해 비디오 ID 0-83과 일치하도록 비디오 ID 83-97에 대한 친숙도 및 즐거움 등급을 각각 1-5 및 1-9로 재조정했습니다. 친숙도 값을 0-5에서 1-5로 조정하기 위해 선형 변환을 수행했습니다. 먼저 0과 1 사이의 데이터를 정규화한 다음 값에 4를 곱하고 1을 더했습니다. 즐거움 값을 0-5에서 마찬가지로 1~9까지 데이터를 0과 1 사이에서 정규화한 다음 값에 8을 곱하고 1을 더했습니다. 그 결과 비디오 ID 0~97에 대한 평균 친숙도 등급은 1.61, 평균 즐거움 등급은 4.98이었습니다.


그림 11. VEATIC에서 동일한 동영상에 대한 다양한 등급의 예. (ㅏ). 선택한 두 캐릭터. (비). 해당 캐릭터의 연속 감정 평가입니다. 동일한 색상은 동일한 문자를 나타냅니다. 좋은 감정 인식 알고리즘은 캐릭터 간의 상호 작용과 정확히 동일한 상황 정보를 바탕으로 두 캐릭터의 감정을 추론해야 합니다.

참고자료

[1] Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Luciß 및 Cordelia Schmid. Vivit: 비디오 '비전 트랜스포머. 컴퓨터 비전에 관한 IEEE/CVF 국제 컨퍼런스 진행, 페이지 6836-6846, 2021.


그림 12. a) 5명의 주석자의 응답 표준 편차와 모든 주석자의 응답 표준 편차. 소수의 주석자를 테스트하면 주석이 상당히 부정확해질 수 있습니다. 본 연구에서와 같이 주석자 수를 늘리면 정확도가 크게 향상됩니다. b) 각 동영상에 대한 주석 작성자의 응답 표준 편차. 빨간색과 파란색 실선은 각각 각 동영상에서 원자가와 각성에 대한 주석자의 반응의 표준 편차를 나타냅니다. 결과는 시각화 목적으로 각 비디오의 표준 편차를 기준으로 정렬됩니다. 점선은 각 차원의 중앙값 표준 편차를 나타냅니다. 원자가와 각성의 표준편차에 대한 평균값은 µ = 0.248로 동일합니다.


그림 13. 모든 동영상의 친숙도 및 즐거움 평점. 각 막대는 동영상에 주석을 단 모든 참가자가 보고한 평균 친숙도 또는 즐거움 등급을 나타냅니다. 모든 동영상의 평균 등급은 두 그림 모두에서 가로 점선으로 표시됩니다. 동영상 ID는 x축에 표시됩니다.


[2] Hillel Aviezer, Shlomo Bentin, Veronica Dudarev 및 Ran R Hassin. 감정적인 얼굴-맥락 통합의 자동성. 감정, 11(6):1406, 2011.


[3] Simon Baron-Cohen, Sally Wheelwright, Jacqueline Hill, Yogini Raste 및 Ian Plumb. "눈으로 마음을 읽기" 테스트 개정판: 정상 성인과 아스퍼거 증후군 또는 고기능 자폐증이 있는 성인을 대상으로 한 연구. 아동 심리학 및 정신의학과 관련 학문 저널, 42(2):241–251, 2001.


[4] Lisa Feldman Barrett과 Elizabeth A Kensinger. 맥락은 감정 인식 중에 일상적으로 인코딩됩니다. 심리학, 21(4):595-599, 2010.


[5] Pablo Barros, Nikhil Churamani, Egor Lakomkin, Henrique Siqueira, Alexander Sutherland 및 Stefan Wermter. 세상에 감정 행동 데이터 세트. 2018 신경망 국제 합동 컨퍼런스(IJCNN), 1~7페이지. IEEE, 2018.


[6] 마가렛 M 브래들리(Margaret M Bradley)와 피터 J 랭(Peter J Lang). 영어 단어에 대한 정서적 규범(새로): 사용 설명서 및 정서적 평가. 기술 보고서, 기술 보고서 C-1, 정신 생리학 연구 센터 . . . , 1999.


[7] Marta Calbi, Francesca Siri, Katrin Heimann, Daniel Barratt, Vittorio Gallese, Anna Kolesnikov 및 Maria Alessandra Umilta. 상황이 얼굴 표정 해석에 어떻게 영향을 미치는지: "쿨레쇼프 효과"에 대한 소스 위치화 고밀도 뇌파 연구. 과학 보고서, 9(1):1–16, 2019.


[8] 첸 지민(Zhimin Chen)과 데이비드 휘트니(David Whitney). 보이지 않는 사람의 감정 상태를 추적합니다. 국립과학원회보, 116(15):7559-7564, 2019.


[9] 첸 지민(Zhimin Chen)과 데이비드 휘트니(David Whitney). 추론적 정서적 추적은 상황 기반 감정 인식의 놀라운 속도를 보여줍니다. 인지, 208:104549, 2021.


[10] 첸 지민(Zhimin Chen)과 데이비드 휘트니(David Whitney). 추론적 감정 추적(iet)은 감정 인식에서 맥락의 중요한 역할을 드러냅니다. 감정, 22(6):1185, 2022.


[11] 조경현, Bart Merrienboer, Caglar Gulcehre, Fethi Bougares, Holger Schwenk, Yoshua Bengio. 통계적 기계 번역을 위해 rnn 인코더-디코더를 사용하여 구문 표현을 학습합니다. EMNLP, 2014.


[12] 줄스 다비도프. 시각적 인식의 차이: 개인의 눈. Elsevier, 2012. [13] Abhinav Dhall, Roland Goecke, Simon Lucey, Tom Gedeon 등. 영화에서 풍부하고 주석이 달린 얼굴 표정 데이터베이스를 수집합니다. IEEE 멀티미디어, 19(3):34, 2012.


[14] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly 등. 이미지는 16x16 단어의 가치가 있습니다. 대규모 이미지 인식을 위한 변환기입니다. arXiv 사전 인쇄 arXiv:2010.11929, 2020.


[15] 엘렌 더글라스-코위, 로디 카위, 케이트 콕스, 노암 아미르, 더크 헤일렌. 민감한 인공 청취자: 감정적인 대화를 생성하기 위한 유도 기술. 감정과 정서 연구를 위한 말뭉치에 관한 LREC 워크숍, 1~4페이지. 엘라 파리, 2008.


[16] 폴 에크만. 기본적인 감정에 대한 논쟁. 인지 및 감정, 6(3-4):169-200, 1992.


[17] 폴 에크만(Paul Ekman)과 월리스 V 프리젠(Wallace V Friesen). 얼굴 동작 코딩 시스템. 환경 심리학 및 비언어적 행동, 1978.


[18] Zhiyun Gao, Wentao Zhao, Sha Liu, Zhifen Liu, Chengxiang Yang 및 Yong Xu. 정신분열증의 얼굴 감정 인식. 정신의학의 프론티어, 12:633717, 2021.


[19] Rohit Girdhar, Joao Carreira, Carl Doersch 및 Andrew Zisserman. 비디오 액션 트랜스포머 네트워크. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 진행, 2019년 244~253페이지.


[20] Kaiming He, Xiangyu Zhang, Shaoqing Ren 및 Jian Sun. 정류기에 대한 심층 탐구: imagenet 분류에서 인간 수준의 성능을 능가합니다. 컴퓨터 비전에 관한 IEEE 국제 컨퍼런스 진행, 페이지 1026–1034, 2015.


[21] Kaiming He, Xiangyu Zhang, Shaoqing Ren 및 Jian Sun. 이미지 인식을 위한 심층 잔여 학습. 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컨퍼런스 진행, 페이지 770-778, 2016.


[22] 윌 E 힙슨(Will E Hipson)과 사이프 M 모하마드(Saif M Mohammad). 영화 대사의 감정 역학. PloS one, 16(9):e0256153, 2021. [23] Sepp Hochreiter 및 Jurgen Schmidhuber. 장단기 기억. 신경 계산, 9(8):1735–1780, 1997.


[24] 존 J 홉필드. 창발적인 집단 계산 능력을 갖춘 신경망 및 물리적 시스템. 국립과학원회보, 79(8):2554–2558, 1982.


[25] Zhao Kaili, Wen-Sheng Chu, Honggang Zhang. 얼굴 동작 단위 감지를 위한 심층 영역 및 다중 라벨 학습. 컴퓨터 비전 및 패턴 인식에 관한 IEEE 회의 진행 중, 페이지 3391–3399, 2016.


[26] 메리 Kayyal, Sherri Widen 및 James A Russell. 맥락은 우리가 생각하는 것보다 더 강력합니다. 맥락적 단서는 심지어 원자가의 경우에도 얼굴 단서를 무시합니다. 감정, 15(3):287, 2015.


[27] Diederik P Kingma와 지미 바. Adam: 확률론적 최적화 방법입니다. arXiv 사전 인쇄 arXiv:1412.6980, 2014.


[28] Sander Koelstra, Christian Muhl, Mohammad Soleymani, 이종석, Ashkan Yazdani, Touradj Ebrahimi, Thierry Pun, Anton Nijholt 및 Ioannis Patras. Deap: 감정 분석을 위한 데이터베이스. 생리적 신호를 이용하여 감성 컴퓨팅에 관한 IEEE 트랜잭션, 3(1):18–31, 2011.


[29] Dimitrios Kollias 및 Stefanos Zafeiriou. Af-wild2: 감정 인식을 위해 aff-wild 데이터베이스를 확장합니다. arXiv 사전 인쇄 arXiv:1811.07770, 2018.


[30] 디미트리오스 콜리아스(Dimitrios Kollias)와 스테파노스 자페이리우(Stefanos Zafeiriou). 표현, 정서, 행동 단위 인식: Aff-wild2, 다중 작업 학습 및 arcface. arXiv 사전 인쇄 arXiv:1910.04855, 2019.


[31] Jean Kossaifi, Georgios Tzimiropoulos, Sinisa Todorovic 및 Maja Pantic. 야생에서의 원자가 및 각성 추정을 위한 Afew-va 데이터베이스. 이미지 및 비전 컴퓨팅, 65:23–36, 2017.


[32] 로나크 코스티, 호세 M 알바레즈, 아드리아 레카센스, 아가타 라페드리자. 감정 데이터 세트를 활용한 상황 기반 감정 인식. 패턴 분석 및 기계 지능에 관한 IEEE 트랜잭션, 42(11):2755–2766, 2019.


[33] 이지영, 김승룡, 김순옥, 박정인, 손광훈. 상황 인식 감정 인식 네트워크. 컴퓨터 비전에 관한 IEEE/CVF 국제 컨퍼런스 진행, 페이지 10143–10152, 2019.


[34] 이태호, 최준식, 조양석. 얼굴 감정 인식의 맥락 변조는 개인차에 따라 다릅니다. PLOS 1, 7(3):e32987, 2012.


[35] Yong Li, Jiabei Zeng, Shiguang Shan 및 Xilin Chen. 얼굴 동작 단위 감지를 위한 비디오에서 자체 지도 표현 학습. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 진행, 페이지 10924–10933, 2019.


[36] Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin 및 Han Hu. 비디오 스윈 트랜스포머. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 진행, 페이지 3202-3211, 2022.


[37] Cheng Luo, Siyang Song, Weicheng Xie, Linlin Shen 및 Hatice Gunes. 얼굴 동작 단위 인식을 위한 다차원 에지 특징 기반 au 관계 그래프 학습. 제31차 인공 지능에 관한 국제 합동 회의 진행 과정, IJCAI-22, 페이지 1239~1246, 2022.


[38] Daniel McDuff, Rana Kaliouby, Thibaud Senechal, May Amr, Jeffrey Cohn 및 Rosalind Picard. Affectiva-mit 표정 데이터세트(am-fed): 자연스럽고 자연스러운 표정이 수집되었습니다. 컴퓨터 비전 및 패턴 인식 워크숍에 관한 IEEE 컨퍼런스 진행, 페이지 881-888, 2013.


[39] Gary McKeown, Michel Valstar, Roddy Cowie, Maja Pantic 및 Marc Schroder. semaine 데이터베이스: 개인과 제한된 에이전트 간의 감정적으로 채색된 대화에 대한 주석이 달린 다중 모드 기록입니다. 감성 컴퓨팅에 관한 IEEE 트랜잭션, 3(1):5–17, 2011.


[40] Trisha Mittal, Pooja Guhan, Uttaran Bhattacharya, Rohan Chandra, Aniket Bera 및 Dinesh Manocha. 이모티콘: 프레게 원리를 이용한 상황인지 다중모달 감정인식. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 진행, 페이지 14234–14243, 2020.


[41] MA Nasri, Mohamed Amine Hmani, Aymen Mtibaa, Dijana Petrovska-Delacretaz, M Ben Slima 및 A Ben Hamida. 컨볼루션 신경망을 기반으로 한 정적 이미지에서 얼굴 감정을 인식합니다. 2020년 제5차 신호 및 이미지 처리를 위한 첨단 기술(ATSIP)에 관한 국제 컨퍼런스, 1~6페이지. IEEE, 2020.


[42] Erik C Nook, Kristen A Lindquist 및 Jamil Zaki. 감정 인식에 대한 새로운 시각: 얼굴 감정 인식의 속도와 모양 개념. 감정, 15(5):569, 2015.


[43] Desmond C Ong, Zhengxuan Wu, Zhi-Xuan Tan, Marianne Reddan, Isabella Kahhale, Alison Mattek 및 Jamil Zaki. 복잡한 이야기의 감정 모델링: 스탠포드 감정 내러티브 데이터세트. 감성 컴퓨팅에 관한 IEEE 거래, 12(3):579–594, 2019.


[44] Desmond C Ong, Jamil Zaki 및 Noah D Goodman. 마음 이론의 감정 추론 전산 모델: 검토 및 로드맵. 인지과학 주제, 11(2):338–357, 2019.


[45] Timea R Partos, Simon J Cropper 및 David Rawlings. 당신은 내가 보는 것을 보지 못합니다. 시각적 자극의 의미 인식에 대한 개인차가 있습니다. PloS 1, 11(3):e0150615, 2016.


[46] Soujanya Poria, Devamanyu Hazarika, Navonil Majumder, Gautam Naik, Erik Cambria 및 Rada Mihalcea. Meld: 대화에서 감정 인식을 위한 다중 모드 다자간 데이터세트입니다. arXiv 사전 인쇄 arXiv:1810.02508, 2018.


[47] 조나단 포즈너, 제임스 A 러셀, 브래들리 S 피터슨. 정서의 우회 모델: 정서 신경과학, 인지 발달 및 정신병리학에 대한 통합적 접근 방식. 발달과 정신병리학, 17(3):715-734, 2005.


[48] Zhihang Ren, Xinyu Li, Dana Pietralla, Mauro Manassi 및 David Whitney. 피부과 판단의 연속 의존. 진단, 13(10):1775, 2023.


[49] Fabien Ringeval, Andreas Sonderegger, Juergen Sauer 및 Denis Lalanne. 원격 협업 및 정서적 상호작용을 위한 Recola 다중 모달 코퍼스를 소개합니다. 2013년 제10회 IEEE 국제 컨퍼런스 및 자동 얼굴 및 동작 인식(FG)에 관한 워크숍, 1~8페이지. IEEE, 2013.


[50] David E Rumelhart, Geoffrey E Hinton, Ronald J Williams 등. 오류 전파를 통한 내부 표현 학습, 1985.


[51] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein 등 이미지넷 대규모 시각인식 챌린지. 컴퓨터 비전 국제 저널, 115:211–252, 2015.


[52] 제임스 A 러셀. 정서의 곡절 모델. 성격과 사회심리학 저널, 39(6):1161, 1980.


[53] 제임스 A 러셀. 차원적 맥락적 관점. 표정의 심리학, 295페이지, 1997년.


[54] 안드레이 V. 사브첸코. 경량 신경망의 다중 작업 학습을 기반으로 한 표정 및 속성 인식. 2021년 IEEE 19차 지능형 시스템 및 정보학 국제 심포지엄(SISY), 119~124페이지. IEEE, 2021.


[55] 안드레이 V 사브첸코, 류드밀라 V 사브첸코, 일리아 마카로프. 단일 얼굴 표정 인식 신경망을 기반으로 온라인 학습에서 감정과 몰입도를 분류합니다. 감성 컴퓨팅에 관한 IEEE 거래, 13(4):2132–2143, 2022.


[56] Zhiwen Shao, Zhilei Liu, Jianfei Cai 및 Lizhuang Ma. 관절 얼굴 동작 단위 감지 및 얼굴 정렬을 위한 심층 적응형 주의입니다. 컴퓨터 비전에 관한 유럽 회의(ECCV) 간행물, 페이지 705-720, 2018.


[57] Jiahui She, Yibo Hu, Hailin Shi, Jun Wang, Qiu Shen 및 Tao Mei. 모호성 탐구: 얼굴 표정 인식을 위한 잠재 분포 마이닝 및 쌍별 불확실성 추정. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 진행, 페이지 6248-6257, 2021.


[58] Ian Sneddon, Margaret McRorie, Gary McKeown 및 Jennifer Hanratty. 벨파스트가 유도한 자연스러운 감정 데이터베이스. 감성 컴퓨팅에 관한 IEEE 거래, 3(1):32–41, 2011.


[59] Mohammad Soleymani, Jeroen Lichtenauer, Thierry Pun 및 Maja Pantic. 감정 인식 및 암시적 태깅을 위한 다중 모드 데이터베이스입니다. 감성 컴퓨팅에 관한 IEEE 트랜잭션, 3(1):42–55, 2011.


[60] Paweł Tarnowski, Marcin Kołodziej, Andrzej Majkowski 및 Remigiusz J Rak. 표정을 이용한 감정인식. Procedia 컴퓨터 과학, 108:1175–1184, 2017.


[61] YI Tian, Takeo Kanade 및 Jeffrey F Cohn. 표정 분석을 위한 동작 단위 인식. 패턴 분석 및 기계 지능에 관한 IEEE 거래, 23(2):97–115, 2001.


[62] Vedat Tumen, ¨ Omer Faruk S ¨ oylemez 및 Burhan Ergen. ¨ 컨볼루셔널 신경망을 이용한 데이터 세트의 얼굴 감정 인식. 2017 국제 인공 지능 및 데이터 처리 심포지엄(IDAP), 1~5페이지. IEEE, 2017.


[63] Gaetano Valenza, Antonio Lanata, Enzo Pasquale Scilingo. 정서적 원자가와 각성 인식에서 비선형 역학의 역할. 감성 컴퓨팅에 관한 IEEE 트랜잭션, 3(2):237–249, 2011.


[64] Raviteja Vemulapalli 및 Aseem Agarwala. 표정 유사성을 위한 컴팩트한 임베딩입니다. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 진행, 페이지 5683–5692, 2019.


[65] Kannan Venkataramanan 및 Haresh Rengaraj Rajamohan. 음성을 통한 감정 인식. arXiv 사전 인쇄 arXiv:1912.10458, 2019.


[66] Kai Wang, Xiaojiang Peng, Jianfei Yang, Shijian Lu 및 Yu Qiao. 대규모 얼굴 표정 인식에 대한 불확실성을 억제합니다. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 진행, 페이지 6897-6906, 2020.


[67] Fanglei Xue, Zichang Tan, Yu Zhu, Zhongsong Ma 및 Guodong Guo. 비디오 얼굴 표정 인식을 원활하게 예측하는 대략적인 계단식 네트워크입니다. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 컨퍼런스 진행, 페이지 2412–2418, 2022.


[68] 윤승현, 변석현, 정교민. 오디오와 텍스트를 이용한 다중 음성 감정 인식. 2018 IEEE 음성 언어 기술 워크숍(SLT), 112~118페이지. IEEE, 2018.


[69] Stefanos Zafeiriou, Dimitrios Kollias, Mihalis A Nicolaou, Athanasios Papaioannou, Guoying Zhao 및 Irene Kotsia. Aff-wild: 원자가 및 각성'야생'도전. 컴퓨터 비전 및 패턴 인식 워크숍에 관한 IEEE 컨퍼런스 진행, 2017년 34~41페이지.


[70] Yuanyuan Zhang, Jun Du, Zirui Wang, Jianshu Zhang 및 Yanhui Tu. 음성 감정 인식을 위한 주의 기반 완전 컨벌루션 네트워크입니다. 2018년 아시아 태평양 신호 및 정보 처리 협회 연례 정상 회담 및 컨퍼런스(APSIPA ASC), 1771~1775페이지. IEEE, 2018.


[71] Yuan-Hang Zhang, Rulin Huang, Jiabei Zeng 및 Shiguang Shan. M 3 f: 야생에서의 다중 모드 연속 원자가-각성 추정. 2020년 제15회 IEEE 자동 얼굴 및 제스처 인식에 관한 국제 컨퍼런스(FG 2020), 632~636페이지. IEEE, 2020.


이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.