Этот документ доступен на arxiv под лицензией CC 4.0.
Авторы:
(1) Чжихан Рен, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);
(2) Джефферсон Ортега, Калифорнийский университет, Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);
(3) Ифань Ван, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);
(4) Чжимин Чен, Калифорнийский университет, Беркли (электронная почта: [email protected]);
(5) Юнхуэй Го, Техасский университет в Далласе (электронная почта: [email protected]);
(6) Стелла X. Ю, Калифорнийский университет, Беркли и Мичиганский университет, Анн-Арбор (электронная почта: [email protected]);
(7) Дэвид Уитни, Калифорнийский университет, Беркли (электронная почта: [email protected]).
В этом разделе мы представляем набор данных отслеживания эмоций и аффектов на основе видео ( VEATIC ). Сначала мы опишем, как мы получили все видеоклипы. Далее мы проиллюстрируем процедуры аннотации данных и процесс предварительной обработки. Наконец, мы сообщаем важную статистику набора данных и визуализируем результаты анализа данных.
Все видеоклипы, использованные в наборе данных, были получены с веб-сайта онлайн-обмена видео (YouTube), и видеоклипы были выбраны на основе того, что эмоции/влияние персонажей в клипах должны меняться со временем. Всего набор данных VEATIC содержит 124 видеоклипа, 104 ролика из голливудских фильмов, 15 фрагментов домашнего видео и 5 фрагментов документальных фильмов или реалити-шоу. Примеры кадров из набора данных VEATIC показаны на (рис. 2). Эти видео содержат от нуля до нескольких взаимодействующих персонажей. Из видео был удален весь звук, поэтому наблюдатели имели доступ только к визуальной информации при отслеживании эмоций целевого персонажа.
Всего у нас было 192 наблюдателя, которые участвовали в аннотировании видео в наборе данных. Все участники предоставили подписанное согласие в соответствии с руководящими принципами и правилами Институционального наблюдательного совета Калифорнийского университета в Беркли, и все экспериментальные процедуры были одобрены.
Участники просмотрели и оценили в общей сложности 124 видео из набора данных. Чтобы наблюдатели не утомлялись, мы разделили процедуру аннотирования на два сеанса аннотирования продолжительностью 1 час и 30 минут. Прежде чем участники смогли комментировать какие-либо видео, им показали печатную версию рейтинговой таблицы валентно-возбуждения с примерами эмоций, помеченных в разных местах сетки в соответствии с рейтингами, предоставленными Брэдли и Лэнгом (1999) [6]. Аннотаторам было поручено ознакомиться с размерами и расположением образцов слов, которые они позже будут использовать в процессе аннотирования. После того, как участники ознакомились с сеткой оценки аффектов, они завершили двухминутную тренировочную аннотацию, в ходе которой постоянно отслеживали валентность и возбуждение целевого персонажа в видео (рис. 3b). Аннотаторам было поручено отслеживать валентность и возбуждение целевого персонажа в видео, постоянно перемещая указатель мыши в реальном времени внутри двумерной сетки валентно-возбуждения. Сетка будет отображать их рейтинги валентности и возбуждения в диапазоне [-1, 1]. Чтобы контролировать потенциальные двигательные отклонения, мы уравновесили измерения валентности-возбуждения между участниками, где у половины аннотаторов валентность была на оси X, а возбуждение - на оси Y, а у другой половины измерения были перевернуты, так что возбуждение находилось на оси X. -ось, а валентность находилась на оси Y. Как только наблюдатели завершили практический сеанс аннотирования, они начали комментировать видео в наборе данных.
Прежде чем участники начали комментировать, им было показано изображение с обведенным целевым персонажем (рис. 3а), которое информирует участников, за каким персонажем они будут следить, когда видео начнется. Затем они аннотировали видеоклипы в режиме реального времени. В конце каждой аннотации к видео участники сообщали о своем знакомстве с видеоклипом, используя дискретную шкалу Лайкерта от 1 до 5, которая варьировалась от «Не знакомо», «Слегка знакомо», «Отчасти знакомо», «Умеренно знакомо» и «Очень знакомо». привычный". Участников также спросили об уровне удовольствия от просмотра клипа, который был оценен по дискретной шкале Лайкерта от 1 до 9 в диапазоне от 1 (неприятно) до 9 (чрезвычайно приятно). Кроме того, чтобы участникам не было скучно, все 124 видеоклипа были разделены на две сессии. Участники оценивали видеоклипы двух сессий отдельно.
В ходе каждого испытания мы оценивали, были ли участники невнимательны, отслеживая продолжительность, в течение которой они держали указатель мыши в каком-либо одном месте. Если продолжительность превышала 10 секунд, сетка рейтинга аффекта начинала колебаться, что напоминало участникам о необходимости продолжать отслеживать эмоции целевого персонажа. Чтобы оценить, были ли в нашем наборе данных зашумленные аннотаторы, мы вычислили согласие каждого отдельного аннотатора с консенсусом, вычислив корреляцию Пирсона между каждым аннотатором и консенсусом с исключением одного (совокупность ответов, за исключением текущего аннотатора) для каждое видео. Мы обнаружили, что только один аннотатор имел корреляцию ниже 0,2 для всех видео с консенсусом об исключении одного. Поскольку только один аннотатор оказался ниже нашего порога, мы решили оставить его в наборе данных, чтобы не удалять какие-либо важные альтернативные аннотации к видео.
На рисунке 4 показаны примеры средних оценок и ключевых кадров в двух разных видеоклипах. Очевидно, что и валентность, и возбуждение здесь имеют широкий диапазон оценок. Более того, это показывает, что контекстная информация, пространственная и/или временная, играет важную роль в задачах распознавания эмоций. В примере с валентностью (верхний рисунок) без информации о временном и/или пространственном контексте боя было бы трудно распознать, счастлив ли персонаж (женщина) в последнем кадре (желтый) на удивление или удивлен. В примере с возбуждением (нижний рисунок), даже без лица выбранного персонажа, наблюдатели могут легко и последовательно сделать вывод о возбуждении персонажа по напряженному контексту.
На рисунке 5 показаны примеры оценок валентности и возбуждения всех участников для одного видео в нашем наборе данных. Оценки отдельных субъектов (серые линии) соответствовали консенсусным оценкам участников (зеленая линия) как по рейтингу валентности, так и по рейтингу возбуждения. Плотная серая линия, перекрывающая зеленую линию консенсуса, указывает на согласие между широким кругом наблюдателей. Кроме того, мы исследовали, как ответы наблюдателей различались в зависимости от видео, рассчитав стандартное отклонение наблюдателей для каждого видео. Мы обнаружили, что разница между наблюдателями как по валентности, так и по параметрам возбуждения была небольшой: валентность имела среднее стандартное отклонение ц = 0,248 и медиану 0,222, а возбуждение имело среднее стандартное отклонение ц = 0,248 и медиану 0,244, что сопоставимо с дисперсией валентности и рейтинга возбуждения от EMOTIC [32].
Распределение оценок валентности и возбуждения по всем нашим видео показано на рисунке 6. Мы обнаружили, что оценки отдельных участников были полностью распределены как по валентности, так и по измерениям возбуждения, что подчеркивает разнообразие набора данных VEATIC. Мы также собрали оценки знакомства и удовольствия от каждого видео среди участников (показано на рисунке 7). Мы обнаружили, что наблюдатели были незнакомы с видео, использованными в наборе данных, поскольку средний рейтинг знакомства составлял 1,61 для идентификаторов видео 0–97. Кроме того, наблюдатели оценили свое удовольствие от просмотра видео в среднем на 4,98 для идентификаторов видео от 0 до 97, что указывает на то, что наблюдателям умеренно нравилось смотреть и комментировать видеоклипы. Рейтинги знакомства и удовольствия не собирались для видео с идентификаторами 98–123, поскольку аннотации к этим видео были собраны на более раннем этапе сбора данных, который не включал эти оценки.
В таблице 2 ниже приведены основные статистические данные набора данных VEATIC. Короче говоря, VEATIC имеет большую общую продолжительность видеоклипов и множество видеоисточников, которые охватывают широкий спектр контекстов и эмоциональных состояний. Более того, по сравнению с предыдущими наборами данных, мы набрали гораздо больше участников для аннотирования рейтингов.
Этот документ доступен на arxiv под лицензией CC 4.0.