paint-brush
VEATIC: Отслеживание эмоций и аффектов на основе видео в наборе контекстных данных: Набор данных VEATICк@kinetograph
161 чтения

VEATIC: Отслеживание эмоций и аффектов на основе видео в наборе контекстных данных: Набор данных VEATIC

Слишком долго; Читать

В этой статье исследователи представляют набор данных VEATIC для распознавания человеческих эмоций, устраняя ограничения в существующих наборах данных и позволяя делать выводы на основе контекста.
featured image - VEATIC: Отслеживание эмоций и аффектов на основе видео в наборе контекстных данных: Набор данных VEATIC
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Этот документ доступен на arxiv под лицензией CC 4.0.

Авторы:

(1) Чжихан Рен, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);

(2) Джефферсон Ортега, Калифорнийский университет, Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);

(3) Ифань Ван, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);

(4) Чжимин Чен, Калифорнийский университет, Беркли (электронная почта: [email protected]);

(5) Юнхуэй Го, Техасский университет в Далласе (электронная почта: [email protected]);

(6) Стелла X. Ю, Калифорнийский университет, Беркли и Мичиганский университет, Анн-Арбор (электронная почта: [email protected]);

(7) Дэвид Уитни, Калифорнийский университет, Беркли (электронная почта: [email protected]).

Таблица ссылок

3. Набор данных VEATIC

В этом разделе мы представляем набор данных отслеживания эмоций и аффектов на основе видео ( VEATIC ). Сначала мы опишем, как мы получили все видеоклипы. Далее мы проиллюстрируем процедуры аннотации данных и процесс предварительной обработки. Наконец, мы сообщаем важную статистику набора данных и визуализируем результаты анализа данных.

3.1. Приобретение видеоклипов

Все видеоклипы, использованные в наборе данных, были получены с веб-сайта онлайн-обмена видео (YouTube), и видеоклипы были выбраны на основе того, что эмоции/влияние персонажей в клипах должны меняться со временем. Всего набор данных VEATIC содержит 124 видеоклипа, 104 ролика из голливудских фильмов, 15 фрагментов домашнего видео и 5 фрагментов документальных фильмов или реалити-шоу. Примеры кадров из набора данных VEATIC показаны на (рис. 2). Эти видео содержат от нуля до нескольких взаимодействующих персонажей. Из видео был удален весь звук, поэтому наблюдатели имели доступ только к визуальной информации при отслеживании эмоций целевого персонажа.


Рисунок 2. Обзор видеокадров в VEATIC. Мы выбрали 4 ключевых кадра из 5 видео в нашем наборе данных. В отличие от других наборов данных, где источник видеоклипов уникален, видеоклипы VEATIC поступают из разных источников. В их число входят голливудские фильмы, документальные фильмы и домашние видеоролики. Таким образом, модель, обученная на нашем наборе данных, будет обладать большей способностью к обобщению. Для визуального ввода VEATIC содержит различную контекстную информацию, включая различные фоны, условия освещения, взаимодействие персонажей и т. д. Это делает набор данных более репрезентативным для нашей повседневной жизни. Наконец, эмоции/эффект выбранного персонажа сильно различаются в каждом видеоклипе, что усложняет моделирование аффекта персонажа в VEATIC.

3.2. Аннотация данных и предварительная обработка

Всего у нас было 192 наблюдателя, которые участвовали в аннотировании видео в наборе данных. Все участники предоставили подписанное согласие в соответствии с руководящими принципами и правилами Институционального наблюдательного совета Калифорнийского университета в Беркли, и все экспериментальные процедуры были одобрены.


Участники просмотрели и оценили в общей сложности 124 видео из набора данных. Чтобы наблюдатели не утомлялись, мы разделили процедуру аннотирования на два сеанса аннотирования продолжительностью 1 час и 30 минут. Прежде чем участники смогли комментировать какие-либо видео, им показали печатную версию рейтинговой таблицы валентно-возбуждения с примерами эмоций, помеченных в разных местах сетки в соответствии с рейтингами, предоставленными Брэдли и Лэнгом (1999) [6]. Аннотаторам было поручено ознакомиться с размерами и расположением образцов слов, которые они позже будут использовать в процессе аннотирования. После того, как участники ознакомились с сеткой оценки аффектов, они завершили двухминутную тренировочную аннотацию, в ходе которой постоянно отслеживали валентность и возбуждение целевого персонажа в видео (рис. 3b). Аннотаторам было поручено отслеживать валентность и возбуждение целевого персонажа в видео, постоянно перемещая указатель мыши в реальном времени внутри двумерной сетки валентно-возбуждения. Сетка будет отображать их рейтинги валентности и возбуждения в диапазоне [-1, 1]. Чтобы контролировать потенциальные двигательные отклонения, мы уравновесили измерения валентности-возбуждения между участниками, где у половины аннотаторов валентность была на оси X, а возбуждение - на оси Y, а у другой половины измерения были перевернуты, так что возбуждение находилось на оси X. -ось, а валентность находилась на оси Y. Как только наблюдатели завершили практический сеанс аннотирования, они начали комментировать видео в наборе данных.


Рисунок 3. Пользовательский интерфейс, используемый для аннотации к видео. а) Участникам сначала показывали целевого персонажа и напоминали инструкции по выполнению задания перед началом каждого видеоролика. б) Наложенная сетка валентности и возбуждения, которая присутствовала, когда наблюдатели комментировали видео. Наблюдателям было поручено постоянно оценивать эмоции целевого персонажа видео в режиме реального времени. Если наблюдатели не двигали мышью более 10 секунд, сетка оценок ответов мигала, напоминая наблюдателю о необходимости постоянно оценивать эмоции.


Прежде чем участники начали комментировать, им было показано изображение с обведенным целевым персонажем (рис. 3а), которое информирует участников, за каким персонажем они будут следить, когда видео начнется. Затем они аннотировали видеоклипы в режиме реального времени. В конце каждой аннотации к видео участники сообщали о своем знакомстве с видеоклипом, используя дискретную шкалу Лайкерта от 1 до 5, которая варьировалась от «Не знакомо», «Слегка знакомо», «Отчасти знакомо», «Умеренно знакомо» и «Очень знакомо». привычный". Участников также спросили об уровне удовольствия от просмотра клипа, который был оценен по дискретной шкале Лайкерта от 1 до 9 в диапазоне от 1 (неприятно) до 9 (чрезвычайно приятно). Кроме того, чтобы участникам не было скучно, все 124 видеоклипа были разделены на две сессии. Участники оценивали видеоклипы двух сессий отдельно.


В ходе каждого испытания мы оценивали, были ли участники невнимательны, отслеживая продолжительность, в течение которой они держали указатель мыши в каком-либо одном месте. Если продолжительность превышала 10 секунд, сетка рейтинга аффекта начинала колебаться, что напоминало участникам о необходимости продолжать отслеживать эмоции целевого персонажа. Чтобы оценить, были ли в нашем наборе данных зашумленные аннотаторы, мы вычислили согласие каждого отдельного аннотатора с консенсусом, вычислив корреляцию Пирсона между каждым аннотатором и консенсусом с исключением одного (совокупность ответов, за исключением текущего аннотатора) для каждое видео. Мы обнаружили, что только один аннотатор имел корреляцию ниже 0,2 для всех видео с консенсусом об исключении одного. Поскольку только один аннотатор оказался ниже нашего порога, мы решили оставить его в наборе данных, чтобы не удалять какие-либо важные альтернативные аннотации к видео.


Рисунок 4. Визуализация выборочных средних оценок валентности и возбуждения для конкретных видеоклипов с увеличением выбранного персонажа. Мы показываем ключевые кадры, связанные с конкретными средними оценками валентности и возбуждения. Соответствующие рамки и рейтинги отмечены одним цветом.

3.3. Визуализация и анализ данных

На рисунке 4 показаны примеры средних оценок и ключевых кадров в двух разных видеоклипах. Очевидно, что и валентность, и возбуждение здесь имеют широкий диапазон оценок. Более того, это показывает, что контекстная информация, пространственная и/или временная, играет важную роль в задачах распознавания эмоций. В примере с валентностью (верхний рисунок) без информации о временном и/или пространственном контексте боя было бы трудно распознать, счастлив ли персонаж (женщина) в последнем кадре (желтый) на удивление или удивлен. В примере с возбуждением (нижний рисунок), даже без лица выбранного персонажа, наблюдатели могут легко и последовательно сделать вывод о возбуждении персонажа по напряженному контексту.


Рисунок 5. Пример оценок валентности и возбуждения для одного видео (видео 47). Прозрачные серые линии обозначают индивидуальные оценки субъектов, а зеленая линия — средний рейтинг участников.


На рисунке 5 показаны примеры оценок валентности и возбуждения всех участников для одного видео в нашем наборе данных. Оценки отдельных субъектов (серые линии) соответствовали консенсусным оценкам участников (зеленая линия) как по рейтингу валентности, так и по рейтингу возбуждения. Плотная серая линия, перекрывающая зеленую линию консенсуса, указывает на согласие между широким кругом наблюдателей. Кроме того, мы исследовали, как ответы наблюдателей различались в зависимости от видео, рассчитав стандартное отклонение наблюдателей для каждого видео. Мы обнаружили, что разница между наблюдателями как по валентности, так и по параметрам возбуждения была небольшой: валентность имела среднее стандартное отклонение ц = 0,248 и медиану 0,222, а возбуждение имело среднее стандартное отклонение ц = 0,248 и медиану 0,244, что сопоставимо с дисперсией валентности и рейтинга возбуждения от EMOTIC [32].


Распределение оценок валентности и возбуждения по всем нашим видео показано на рисунке 6. Мы обнаружили, что оценки отдельных участников были полностью распределены как по валентности, так и по измерениям возбуждения, что подчеркивает разнообразие набора данных VEATIC. Мы также собрали оценки знакомства и удовольствия от каждого видео среди участников (показано на рисунке 7). Мы обнаружили, что наблюдатели были незнакомы с видео, использованными в наборе данных, поскольку средний рейтинг знакомства составлял 1,61 для идентификаторов видео 0–97. Кроме того, наблюдатели оценили свое удовольствие от просмотра видео в среднем на 4,98 для идентификаторов видео от 0 до 97, что указывает на то, что наблюдателям умеренно нравилось смотреть и комментировать видеоклипы. Рейтинги знакомства и удовольствия не собирались для видео с идентификаторами 98–123, поскольку аннотации к этим видео были собраны на более раннем этапе сбора данных, который не включал эти оценки.


Рисунок 6. Распределение рейтингов валентности и возбуждения среди участников. Отдельные белые точки представляют собой среднюю валентность и привлекательность постоянных рейтингов для каждого видеоклипа голливудских фильмов. Синие квадраты и зеленые треугольники обозначают среднюю валентность и возбуждение для документальных и домашних видео соответственно. Оценки были разбиты на интервалы 0,02, и общее количество точек данных подсчитывалось в каждом интервале.


Рисунок 7. Рейтинги знакомства и удовольствия от видео для видео с идентификаторами 0–97. Вертикальные черные линии обозначают 1 SD.


В таблице 2 ниже приведены основные статистические данные набора данных VEATIC. Короче говоря, VEATIC имеет большую общую продолжительность видеоклипов и множество видеоисточников, которые охватывают широкий спектр контекстов и эмоциональных состояний. Более того, по сравнению с предыдущими наборами данных, мы набрали гораздо больше участников для аннотирования рейтингов.


Таблица 2. Статистика набора данных VEATIC.



Этот документ доступен на arxiv под лицензией CC 4.0.