Этот документ доступен на arxiv под лицензией CC 4.0.
Авторы:
(1) Чжихан Рен, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);
(2) Джефферсон Ортега, Калифорнийский университет, Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);
(3) Ифань Ван, Калифорнийский университет в Беркли, и эти авторы внесли равный вклад в эту работу (электронная почта: [email protected]);
(4) Чжимин Чен, Калифорнийский университет, Беркли (электронная почта: [email protected]);
(5) Юнхуэй Го, Техасский университет в Далласе (электронная почта: [email protected]);
(6) Стелла X. Ю, Калифорнийский университет, Беркли и Мичиганский университет, Анн-Арбор (электронная почта: [email protected]);
(7) Дэвид Уитни, Калифорнийский университет, Беркли (электронная почта: [email protected]).
Преимущество набора данных VEATIC заключается в том, что он имеет несколько аннотаторов для каждого видео, причем минимальное количество аннотаторов для любого данного видео составляет 25, а максимальное — 73. Восприятие эмоций субъективно, и суждения наблюдателей могут различаться у разных людей. Многие из ранее опубликованных наборов данных об эмоциях имеют очень небольшое количество аннотаторов, часто только однозначное (n < 10). Иметь так мало аннотаторов проблематично из-за увеличения различий между наблюдателями. Чтобы продемонстрировать это, мы рассчитали, как менялась средняя оценка каждого видео в нашем наборе данных, если мы случайным образом выбирали с заменой пять комментаторов по сравнению со всеми. Мы повторили этот процесс 1000 раз для каждого видео и вычислили стандартное отклонение пересчитанного среднего рейтинга. На рисунке 12а показано, как меняется стандартное отклонение консенсусного рейтинга видео, если мы используем пять или все аннотаторы для каждого видео. Этот анализ показывает, что наличие большего количества комментаторов приводит к гораздо меньшим стандартным отклонениям в консенсусном рейтинге, что может привести к более точному представлению основных эмоций в видео.
Кроме того, мы исследовали, как ответы наблюдателей различались в зависимости от видео, рассчитав стандартное отклонение наблюдателей для каждого видео. На рисунке 12b показаны стандартные отклонения для разных видео. Мы обнаружили, что стандартные отклонения как для валентности, так и для измерения возбуждения были небольшими: валентность имела среднее стандартное отклонение µ = 0,248 и медиану 0,222, а возбуждение имело среднее стандартное отклонение µ = 0,248 и медиану 0,244, что сопоставимо. с дисперсией валентности и рейтинга возбуждения от EMOTIC [32].
Этот документ доступен на arxiv под лицензией CC 4.0.