paint-brush
VEATIC: рейтинги знакомства и удовольствия, а также ссылкик@kinetograph
216 чтения

VEATIC: рейтинги знакомства и удовольствия, а также ссылки

Слишком долго; Читать

В этой статье исследователи представляют набор данных VEATIC для распознавания человеческих эмоций, устраняя ограничения в существующих наборах данных и позволяя делать выводы на основе контекста.
featured image - VEATIC: рейтинги знакомства и удовольствия, а также ссылки
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Этот документ доступен на arxiv под лицензией CC 4.0.

Авторы:

(1) Чжихан Рен, Калифорнийский университет, Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);

(2) Джефферсон Ортега, Калифорнийский университет, Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);

(3) Ифань Ван, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);

(4) Чжимин Чен, Калифорнийский университет, Беркли (электронная почта: [email protected]);

(5) Юнхуэй Го, Техасский университет в Далласе (электронная почта: [email protected]);

(6) Стелла X. Ю, Калифорнийский университет, Беркли и Мичиганский университет, Анн-Арбор (электронная почта: [email protected]);

(7) Дэвид Уитни, Калифорнийский университет, Беркли (электронная почта: [email protected]).

Таблица ссылок

11. Рейтинги знакомства и удовольствия

Оценки знакомства и удовольствия собирались для каждого видео среди участников, как показано на рисунке 13. Оценки знакомства и удовольствия для видео с идентификаторами 0–83 собирались по шкале от 1 до 5 и от 1 до 9 соответственно. Рейтинги знакомства и удовольствия для видео с идентификаторами 83–123 собирались до планирования набора данных VEATIC и собирались по другой шкале. Оценки знакомства и удовольствия для видео с идентификаторами 83–97 собирались по шкале от 0 до 5, а рейтинг знакомства/удовольствия не собирался для видео с идентификаторами 98–123. В целях анализа и визуализации мы изменили масштаб оценок знакомства и удовольствия для видео с идентификаторами 83–97 до 1–5 и 1–9 соответственно, чтобы они соответствовали идентификаторам видео 0–83. Чтобы изменить масштаб значений знакомства с 0–5 на 1–5, мы выполнили линейное преобразование: сначала мы нормализовали данные между 0 и 1, затем умножили значения на 4 и добавили 1. Мы изменили масштаб значений удовольствия от 0–5 до 1–9 аналогичным образом, сначала нормализовав данные между 0 и 1, затем мы умножили значения на 8 и добавили 1. В результате средний рейтинг знакомства составил 1,61, а средний рейтинг удовольствия — 4,98 для идентификаторов видео 0–97.


Рисунок 11. Пример разных оценок одного и того же видео в VEATIC. (а). Два выбранных персонажа. (б). Непрерывные оценки эмоций соответствующих персонажей. Один и тот же цвет обозначает один и тот же символ. Хороший алгоритм распознавания эмоций должен определять эмоции двух персонажей соответственно, учитывая взаимодействие между персонажами и одну и ту же контекстную информацию.

Рекомендации

[1] Анураг Арнаб, Мостафа Дегани, Георг Хейгольд, Чен Сун, Марио Лучич и Корделия Шмид. Vivit: Трансформатор видеовидения. В материалах международной конференции IEEE/CVF по компьютерному зрению, страницы 6836–6846, 2021 г.


Рисунок 12. а) Стандартное отклонение ответа пяти аннотаторов по сравнению со стандартным отклонением ответа всех аннотаторов. Тестирование небольшого количества аннотаторов может привести к существенной неточности в аннотациях. Увеличение количества аннотаторов, как в этом исследовании, значительно повышает точность. б) Стандартное отклонение ответов аннотаторов для каждого видео. Красные и синие сплошные линии обозначают стандартное отклонение ответов комментаторов на валентность и возбуждение в каждом видео соответственно. Результаты сортируются на основе стандартного отклонения каждого видео для целей визуализации. Пунктирные линии показывают медианное стандартное отклонение для каждого измерения. Средние значения стандартных отклонений валентности и возбуждения одинаковы с ц = 0,248.


Рисунок 13. Рейтинги знакомства и удовольствия для всех видео. Каждая полоса представляет собой средний рейтинг знакомства или удовольствия, о котором сообщили все участники, комментировавшие видео. Средний рейтинг по всем видео показан горизонтальной пунктирной линией на обоих рисунках. Идентификаторы видео показаны по оси X.


[2] Гилель Авиезер, Шломо Бентин, Вероника Дударева и Ран Р. Хассин. Автоматичность эмоциональной интеграции лица и контекста. Эмоция, 11(6):1406, 2011.


[3] Саймон Барон-Коэн, Салли Уилрайт, Жаклин Хилл, Йогини Расте и Ян Пламб. Пересмотренная версия теста «чтение мыслей в глазах»: исследование с участием нормальных взрослых и взрослых с синдромом Аспергера или высокофункциональным аутизмом. Журнал детской психологии, психиатрии и смежных дисциплин, 42 (2): 241–251, 2001.


[4] Лиза Фельдман Барретт и Элизабет Кенсинджер. Контекст обычно кодируется во время восприятия эмоций. Психологическая наука, 21(4):595–599, 2010.


[5] Пабло Баррос, Нихил Чурамани, Егор Лакомкин, Энрике Сикейра, Александр Сазерленд и Стефан Вермтер. Набор данных о поведении omg-emotion. На Международной совместной конференции по нейронным сетям (IJCNN) 2018 г., страницы 1–7. ИИЭР, 2018.


[6] Маргарет М. Брэдли и Питер Дж. Лэнг. Аффективные нормы для английских слов (по-новому): Инструкция по эксплуатации и аффективные рейтинги. Технический отчет, Технический отчет С-1, Центр исследований в области психофизиологии. . . , 1999.


[7] Марта Кальби, Франческа Сири, Катрин Хейманн, Дэниел Барратт, Витторио Галлезе, Анна Колесникова и Мария Алессандра Умильта. Как контекст влияет на интерпретацию мимики: исследование локализации источника ЭЭГ высокой плотности на «эффекте Кулешова». Научные отчеты, 9(1):1–16, 2019.


[8] Чжиминь Чен и Дэвид Уитни. Отслеживание аффективного состояния невидимых лиц. Труды Национальной академии наук, 116(15):7559–7564, 2019.


[9] Чжиминь Чен и Дэвид Уитни. Логическое аффективное отслеживание показывает удивительную скорость контекстно-зависимого восприятия эмоций. Познание, 208:104549, 2021.


[10] Чжиминь Чен и Дэвид Уитни. Инференциальное отслеживание эмоций (iet) раскрывает решающую роль контекста в распознавании эмоций. Эмоция, 22(6):1185, 2022.


[11] Кёнхён Чо, Барт Мерриенбоер, Чаглар Гульчере, Фетти Бугарес, Хольгер Швенк и Йошуа Бенджио. Изучение представлений фраз с использованием кодера-декодера rnn для статистического машинного перевода. В ЭМНЛП, 2014.


[12] Жюль Давидофф. Различия в зрительном восприятии: Индивидуальный глаз. Elsevier, 2012. [13] Абхинав Дхалл, Роланд Гёке, Саймон Люси, Том Гедеон и др. Сбор больших, богато аннотированных баз данных выражений лиц из фильмов. IEEE мультимедиа, 19(3):34, 2012.


[14] Алексей Досовицкий, Лукас Бейер, Александр Колесников, Дирк Вайсенборн, Сяохуа Чжай, Томас Унтертинер, Мостафа Дегани, Маттиас Миндерер, Георг Хейгольд, Сильвен Гелли и др. Изображение стоит 16x16 слов: Трансформаторы для распознавания изображений в масштабе. Препринт arXiv arXiv:2010.11929, 2020.


[15] Эллен Дуглас-Коуи, Родди Коуи, Кейт Кокс, Ноам Амир и Дирк Хейлен. Чувствительный искусственный слушатель: метод индукции для создания эмоционально окрашенного разговора. На семинаре LREC по корпусам для исследования эмоций и аффектов, страницы 1–4. ЭЛРА Париж, 2008 г.


[16] Пол Экман. Аргумент в пользу базовых эмоций. Познание и эмоции, 6(3-4):169–200, 1992.


[17] Пол Экман и Уоллес В. Фризен. Система кодирования действий лица. Экологическая психология и невербальное поведение, 1978.


[18] Чжиюнь Гао, Вэньтао Чжао, Ша Лю, Чжифэнь Лю, Чэнсян Ян и Юн Сюй. Распознавание эмоций по лицу при шизофрении. Границы психиатрии, 12:633717, 2021.


[19] Рохит Гирдхар, Жоау Каррейра, Карл Дорш и Эндрю Зиссерман. Видео экшен-сеть-трансформер. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, страницы 244–253, 2019 г.


[20] Каймин Хэ, Сянъюй Чжан, Шаоцин Жэнь и Цзянь Сунь. Углубление выпрямителей: превосходящая производительность человеческого уровня в классификации изображений. В материалах международной конференции IEEE по компьютерному зрению, страницы 1026–1034, 2015 г.


[21] Каймин Хэ, Сянъюй Чжан, Шаоцин Жэнь и Цзянь Сунь. Глубокое остаточное обучение для распознавания изображений. В материалах конференции IEEE по компьютерному зрению и распознаванию образов, страницы 770–778, 2016 г.


[22] Уилл Э. Хипсон и Саиф М. Мохаммад. Эмоциональная динамика в диалогах фильмов. PloS one, 16(9):e0256153, 2021. [23] Зепп Хохрайтер и Юрген Шмидхубер. Долгосрочная ¨ память. Нейронные вычисления, 9(8):1735–1780, 1997.


[24] Джон Дж. Хопфилд. Нейронные сети и физические системы с возникающими коллективными вычислительными способностями. Труды Национальной академии наук, 79 (8): 2554–2558, 1982.


[25] Чжао Кайли, Вэнь-Шэн Чу и Хунган Чжан. Глубокое обучение по регионам и множеству меток для обнаружения единиц действий на лице. В материалах конференции IEEE по компьютерному зрению и распознаванию образов, страницы 3391–3399, 2016 г.


[26] Мэри Кайял, Шерри Уайден и Джеймс Рассел. Контекст более мощный, чем мы думаем: контекстуальные сигналы перевешивают лицевые сигналы даже в отношении валентности. Эмоция, 15(3):287, 2015.


[27] Дидерик П. Кингма и Джимми Ба. Адам: Метод стохастической оптимизации. Препринт arXiv arXiv:1412.6980, 2014.


[28] Сандер Кельстра, Кристиан Мюль, Мохаммад Сулеймани, Чон-Сок Ли, Ашкан Яздани, Турадж Эбрахими, Тьерри Пун, Антон Нейхолт и Иоаннис Патрас. Deap: база данных для анализа эмоций; используя физиологические сигналы. Транзакции IEEE по аффективным вычислениям, 3(1):18–31, 2011.


[29] Димитриос Коллиас и Стефанос Зафейриу. Aff-wild2: расширение базы данных aff-wild для распознавания аффектов. Препринт arXiv arXiv:1811.07770, 2018.


[30] Димитриос Коллиас и Стефанос Зафейриу. Выражение, аффект, распознавание единиц действия: Aff-wild2, многозадачное обучение и arcface. Препринт arXiv arXiv:1910.04855, 2019.


[31] Жан Коссаифи, Георгиос Цимиропулос, Синиша Тодорович и Майя Пантич. База данных Afew-va для оценки валентности и возбуждения в реальных условиях. Image and Vision Computing, 65:23–36, 2017.


[32] Ронак Кости, Хосе М. Альварес, Адриа Рекасенс и Агата Лапедриса. Распознавание эмоций на основе контекста с использованием набора эмотических данных. Транзакции IEEE по анализу шаблонов и машинному интеллекту, 42(11):2755–2766, 2019.


[33] Джиён Ли, Сынрён Ким, Сунок Ким, Чонгин Пак и Кванхун Сон. Сети контекстно-зависимого распознавания эмоций. В материалах международной конференции IEEE/CVF по компьютерному зрению, страницы 10143–10152, 2019 г.


[34] Ли Тэ-Хо, Чхве Джун-Сик и Ян Сок Чо. Контекстная модуляция восприятия эмоций на лице различалась индивидуально. PLOS one, 7(3):e32987, 2012.


[35] Юн Ли, Цзябэй Цзэн, Шигуан Шань и Силинь Чен. Самоконтролируемое обучение представлению по видео для обнаружения единиц движения лица. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, страницы 10924–10933, 2019 г.


[36] Цзе Лю, Цзя Нин, Юэ Цао, Исюань Вэй, Чжэн Чжан, Стивен Линь и Хань Ху. Видео Свин Трансформер. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, страницы 3202–3211, 2022 г.


[37] Чэн Ло, Сиянь Сун, Вэйчэн Се, Линьлин Шен и Хатидже Гюнеш. Изучение многомерного графа отношений на основе краевых функций для распознавания единиц действия лица. В материалах тридцать первой международной совместной конференции по искусственному интеллекту, IJCAI-22, страницы 1239–1246, 2022 г.


[38] Дэниел Макдафф, Рана Калиуби, Тибо Сенешаль, Мэй Амр, Джеффри Кон и Розалинда Пикард. Набор данных по выражениям лица Affectiva-mit (накормленный): собраны натуралистичные и спонтанные выражения лица. В материалах конференции IEEE по компьютерному зрению и семинарам по распознаванию образов, страницы 881–888, 2013 г.


[39] Гэри МакКаун, Мишель Вальстар, Родди Коуи, Майя Пантик и Марк Шредер. База данных semaine: аннотированные мультимодальные записи эмоционально окрашенных разговоров между человеком и ограниченным агентом. Транзакции IEEE по аффективным вычислениям, 3(1):5–17, 2011.


[40] Триша Миттал, Пуджа Гухан, Уттаран Бхаттачарья, Рохан Чандра, Аникет Бера и Динеш Маноча. Смайлик: контекстно-зависимое мультимодальное распознавание эмоций с использованием принципа Фреге. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, страницы 14234–14243, 2020 г.


[41] М.А. Насри, Мохамед Амин Хмани, Аймен Мтибаа, Дияна Петровска-Делакретаз, М. Бен Слима и А. Бен Хамида. Распознавание эмоций лица по статическому изображению на основе сверточных нейронных сетей. В 2020 г. состоится 5-я Международная конференция по передовым технологиям обработки сигналов и изображений (ATSIP), стр. 1–6. ИИЭР, 2020.


[42] Эрик С. Нук, Кристен А. Линдквист и Джамиль Заки. Новый взгляд на восприятие эмоций: концепции ускоряют и формируют распознавание эмоций по лицу. Эмоция, 15(5):569, 2015.


[43] Десмонд К. Онг, Чжэнсюань Ву, Чжи-Сюань Тан, Марианна Реддан, Изабелла Кахале, Элисон Маттек и Джамиль Заки. Моделирование эмоций в сложных историях: набор данных Стэнфордских эмоциональных повествований. Транзакции IEEE об аффективных вычислениях, 12(3):579–594, 2019.


[44] Десмонд К. Онг, Джамиль Заки и Ной Д. Гудман. Вычислительные модели вывода эмоций в теории разума: обзор и дорожная карта. Темы когнитивной науки, 11(2):338–357, 2019.


[45] Тимеа Р. Партос, Саймон Дж. Кроппер и Дэвид Роулингс. Вы не видите того, что вижу я: Индивидуальные различия в восприятии смысла визуальных стимулов. PloS one, 11(3):e0150615, 2016.


[46] Суджанья Пориа, Деваманью Хазарика, Навонил Маджумдер, Гаутам Найк, Эрик Камбрия и Рада Михалча. Meld: мультимодальный многосторонний набор данных для распознавания эмоций в разговорах. Препринт arXiv arXiv:1810.02508, 2018.


[47] Джонатан Познер, Джеймс А. Рассел и Брэдли С. Петерсон. Циркумплексная модель аффекта: интегративный подход к аффективной нейробиологии, когнитивному развитию и психопатологии. Развитие и психопатология, 17(3):715–734, 2005.


[48] Чжихан Рен, Синьюй Ли, Дана Пьетралла, Мауро Манасси и Дэвид Уитни. Серийная зависимость в дерматологических заключениях. Диагностика, 13(10):1775, 2023.


[49] Фабьен Рингеваль, Андреас Зондереггер, Юрген Зауэр и Денис Лаланн. Представляем мультимодальный корпус Recola удаленных совместных и аффективных взаимодействий. В 2013 г. 10-я международная конференция и семинары IEEE по автоматическому распознаванию лиц и жестов (FG), страницы 1–8. ИИЭР, 2013.


[50] Дэвид Э. Румельхарт, Джеффри Э. Хинтон, Рональд Дж. Уильямс и др. Изучение внутренних представлений путем распространения ошибок, 1985.


[51] Ольга Русаковский, Цзя Дэн, Хао Су, Джонатан Краузе, Санджив Сатиш, Шон Ма, Чжихэн Хуанг, Андрей Карпати, Адитья Хосла, Майкл Бернштейн и др. Масштабная задача Imagenet по визуальному распознаванию. Международный журнал компьютерного зрения, 115:211–252, 2015.


[52] Джеймс Рассел. Окружная модель аффекта. Журнал личности и социальной психологии, 39 (6): 1161, 1980.


[53] Джеймс Рассел. многомерная контекстуальная перспектива. Психология выражения лица, стр. 295, 1997.


[54] Савченко Андрей В. Распознавание выражений лица и атрибутов на основе многозадачного обучения легких нейронных сетей. В 2021 году 19-й Международный симпозиум IEEE по интеллектуальным системам и информатике (SISY), страницы 119–124. ИИЭР, 2021.


[55] Андрей Савченко, Людмила Савченко и Илья Макаров. Классификация эмоций и вовлеченность в онлайн-обучении на основе единой нейронной сети распознавания выражений лица. Транзакции IEEE по аффективным вычислениям, 13(4):2132–2143, 2022.


[56] Чживэнь Шао, Чжилэй Лю, Цзяньфэй Цай и Лицжуан Ма. Глубокое адаптивное внимание для обнаружения совместных действий на лице и выравнивания лица. В материалах Европейской конференции по компьютерному зрению (ECCV), страницы 705–720, 2018 г.


[57] Цзяхуэй Ше, Ибо Ху, Хайлинь Ши, Цзюнь Ван, Цю Шэнь и Тао Мэй. Погрузитесь в двусмысленность: анализ скрытого распределения и попарная оценка неопределенности для распознавания выражений лица. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, страницы 6248–6257, 2021 г.


[58] Ян Снеддон, Маргарет МакРори, Гэри МакКаун и Дженнифер Хэнратти. База данных естественных эмоций, вызываемых Белфастом. Транзакции IEEE по аффективным вычислениям, 3(1):32–41, 2011.


[59] Мохаммад Сулеймани, Йерун Лихтенауэр, Тьерри Пун и Майя Пантич. Мультимодальная база данных для распознавания аффектов и неявной маркировки. Транзакции IEEE по аффективным вычислениям, 3(1):42–55, 2011.


[60] Павел Тарновский, Марцин Колодзей, Анджей Майковски и Ремигиуш Й. Рак. Распознавание эмоций по мимике. Procedia Computer Science, 108:1175–1184, 2017.


[61] Й.И. Тиан, Такео Канаде и Джеффри Ф. Кон. Распознавание единиц действия для анализа выражения лица. Транзакции IEEE по анализу шаблонов и машинному интеллекту, 23 (2): 97–115, 2001.


[62] Ведат Тумен, Омер Фарук Сойлемез и Бурхан Эрген. ¨ Распознавание эмоций по лицу на наборе данных с использованием сверточной нейронной сети. На Международном симпозиуме по искусственному интеллекту и обработке данных (IDAP) 2017 г., страницы 1–5. ИИЭР, 2017.


[63] Гаэтано Валенца, Антонио Ланата и Энцо Паскуале Силинго. Роль нелинейной динамики в аффективной валентности и распознавании возбуждения. Транзакции IEEE по аффективным вычислениям, 3(2):237–249, 2011.


[64] Равитеджа Вемулапалли и Асим Агарвала. Компактное встраивание для сходства выражений лиц. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, страницы 5683–5692, 2019 г.


[65] Каннан Венкатараманан и Хареш Ренгарадж Раджамохан. Распознавание эмоций по речи. Препринт arXiv arXiv:1912.10458, 2019.


[66] Кай Ван, Сяоцзян Пэн, Цзяньфэй Ян, Шицзянь Лу и Юй Цяо. Подавление неопределенностей для крупномасштабного распознавания выражений лица. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, страницы 6897–6906, 2020 г.


[67] Фэнлэй Сюэ, Цзычан Тан, Юй Чжу, Чжунсонг Ма и Годун Го. Каскадные сети от грубого к точному с плавным прогнозированием для распознавания выражений лица на видео. В материалах конференции IEEE/CVF по компьютерному зрению и распознаванию образов, страницы 2412–2418, 2022 г.


[68] Сынхён Юн, Сохён Бён и Кёмин Чон. Мультимодальное распознавание речевых эмоций с использованием звука и текста. Семинар IEEE по технологиям разговорной речи (SLT) в 2018 году, страницы 112–118. ИИЭР, 2018.


[69] Стефанос Зафейриу, Димитриос Коллиас, Михалис Николау, Афанасиос Папайоанну, Гоин Чжао и Ирен Коция. Aff-wild: вызов валентности и пробуждения в дикой природе. В материалах конференции IEEE по компьютерному зрению и семинарам по распознаванию образов, страницы 34–41, 2017 г.


[70] Юаньюань Чжан, Цзюнь Ду, Зируй Ван, Цзяньшу Чжан и Яньхуэй Ту. Полностью сверточная сеть, основанная на внимании, для распознавания речевых эмоций. На ежегодном саммите и конференции Азиатско-Тихоокеанской ассоциации обработки сигналов и информации (APSIPA ASC) в 2018 году, страницы 1771–1775. ИИЭР, 2018.


[71] Юань-Хан Чжан, Рулин Хуан, Цзябэй Цзэн и Шигуан Шань. M 3 f: Мультимодальная непрерывная оценка пробуждения валентности в дикой природе. В 2020 г. состоится 15-я Международная конференция IEEE по автоматическому распознаванию лиц и жестов (FG 2020), страницы 632–636. ИИЭР, 2020.


Этот документ доступен на arxiv под лицензией CC 4.0.