Авторы:
(1) Пинелопи Папалампиди, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет;
(2) Фрэнк Келлер, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет;
(3) Мирелла Лапата, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет.
Наборы данных Наша модель была обучена на TRIPODL, расширенной версии набора данных TRIPOD [41, 42], который содержит 122 сценария с аннотациями TP серебряного стандарта (уровень сцены) [3] и соответствующими видео [4]. Для каждого фильма мы дополнительно собрали как можно больше трейлеров с YouTube, включая официальные и (серьезные) фанатские, а также современные трейлеры к старым фильмам. Для оценки трейлеров, созданных нашим алгоритмом, мы также собрали новый набор из 41 фильма. Эти фильмы были выбраны из набора данных Moviescope[5] [11], который содержит официальные трейлеры к фильмам. Отложенный комплект не содержит никакой дополнительной информации, такой как сценарии или аннотации к ТП. Статистика TRIPODL представлена в таблице 1.
Обработка фильмов и трейлеров Подход к моделированию, предложенный в предыдущих разделах, предполагает, что мы знаем соответствие между сценами сценария и кадрами фильма. Мы получаем это отображение, автоматически выравнивая диалоги в сценариях с субтитрами с помощью динамического искажения времени (DTW; [36, 42]). Сначала мы сегментируем видео на сцены на основе этого сопоставления, а затем сегментируем каждую сцену на кадры с помощью PySceneDetect[6]. Кадры с общим количеством кадров менее 100 слишком коротки для обработки и отображения в составе трейлера и поэтому отбрасываются.
Более того, для каждого кадра мы извлекаем визуальные и звуковые особенности. Мы рассматриваем три различных типа визуальных особенностей:
(1) Мы отбираем один ключевой кадр для каждого кадра и извлекаем характеристики с помощью ResNeXt-101 [56], предварительно обученного распознаванию объектов в ImageNet [14]. (2) Мы отбираем кадры с частотой 1 из каждых 10 кадров (мы увеличиваем этот временной интервал для кадров с большей длительностью, так как сталкиваемся с проблемами с памятью) и извлекаем признаки движения с помощью двухпотоковой сети I3D, предварительно обученной на Kinetics [ 10]. (3) Мы используем Faster-RCNN [18], реализованный в Detectron2 [54], для обнаружения экземпляров людей в каждом ключевом кадре и сохранения четырех верхних ограничивающих рамок для каждого кадра, которые имеют наибольшую достоверность наряду с соответствующими региональными представлениями. Сначала мы проецируем все отдельные представления в одно и то же нижнее измерение и выполняем L2-нормализацию. Далее мы рассматриваем визуальное представление кадра как сумму отдельных векторов. Для аудиомодальности мы используем YAMNet, предварительно обученный на корпусе AudioSet-YouTube [16] для классификации аудиосегментов на 521 аудиокласс (например, инструменты, музыка, взрыв); для каждого аудиосегмента, содержащегося в сцене, мы извлекаем признаки из предпоследнего слоя. Наконец, мы извлекаем текстовые особенности [42] из субтитров и сцен сценария с помощью универсального кодировщика предложений (USE; [12]).
Для оценки нам нужно знать, какие кадры в фильме достойны трейлера, а какие нет. Мы делаем это, разбивая соответствующий трейлер на кадры и вычисляя для каждого кадра его визуальное сходство со всеми кадрами фильма. Кадры с наибольшим значением сходства получают положительные метки (т. е. они должны быть в трейлере). Однако, поскольку трейлеры также содержат кадры, которых нет в фильме (например, черные экраны с текстом или просто материал, не вошедший в финальный фильм), мы также устанавливаем порог, ниже которого мы не сопоставляем кадры трейлера с фильмом. выстрелы. Таким образом мы создаем двоичные метки серебряного стандарта для видеокадров.
Метки настроений Поскольку TRIPOD не содержит аннотаций настроений, вместо этого мы получаем метки серебряного стандарта через COSMIC [17], основанную на здравом смысле структуру с современной производительностью для классификации настроений и эмоций в разговорах на естественном языке. В частности, мы обучаем COSMIC на MELD [43], который содержит диалоги из эпизодов сериала «Друзья» и больше подходит для нашей предметной области, чем другие наборы данных классификации настроений (например, [9, 29]). После обучения мы используем COSMIC для прогнозирования настроений на уровне предложений для сценариев TRIPOD. Настроение сцены соответствует настроению большинства ее предложений. Мы проецируем метки настроений на основе сцен на кадры, используя то же отображение «один ко многим», что и для TP.
Этот документ доступен на arxiv под лицензией CC BY-SA 4.0 DEED.
[3] https://github.com/ppapalampidi/TRIPOD
[4] https://datashare.ed.ac.uk/handle/10283/3819
[5] http://www.cs.virginia.edu/pc9za/research/moviescope.html.
[6] https://github.com/Breakthrough/PySceneDetect.