Авторы:
(1) Пинелопи Папалампиди, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет;
(2) Фрэнк Келлер, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет;
(3) Мирелла Лапата, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет.
Трейлеры к фильму выполняют множество функций: знакомят зрителей с сюжетом, передают настроение и художественный стиль фильма, побуждают зрителей посмотреть фильм. Эти разнообразные функции делают автоматическое создание прицепов сложной задачей. Мы разбиваем ее на две подзадачи: идентификация повествовательной структуры и прогнозирование настроений. Мы моделируем фильмы как графы, где узлы — это кадры, а ребра обозначают семантические отношения между ними. Мы изучаем эти отношения, используя совместное контрастивное обучение, которое использует особую текстовую информацию (например, персонажей, действия, ситуации) из сценариев. Затем неконтролируемый алгоритм обходит граф и генерирует трейлеры, которые судьи-люди предпочитают трейлерам, созданным конкурентными контролируемыми подходами.
Трейлеры — это короткие видеоролики, используемые для продвижения фильмов и часто имеющие решающее значение для коммерческого успеха. Хотя их основной функцией является продвижение фильма среди широкой аудитории, трейлеры также являются формой убедительного искусства и рекламного повествования, призванного вызвать у зрителей желание посмотреть фильм. Несмотря на то, что создание трейлеров считается художественным занятием, киноиндустрия разработала стратегии, регулирующие создание трейлеров. Согласно одной точке зрения, трейлеры должны демонстрировать повествовательную структуру, состоящую из трех актов[1]. В первом акте раскрываются персонажи и сюжет истории, второй акт представляет основной конфликт, а третий акт повышает ставки и дает тизеры финала. Другая школа мысли больше озабочена настроением трейлера, определяемым взлетами и падениями истории[2]. Согласно этому подходу, трейлеры должны сначала иметь среднюю интенсивность, чтобы увлечь зрителей, затем следует низкую интенсивность для предоставления ключевой информации о истории, а затем постепенно увеличивать интенсивность до достижения кульминации в конце трейлера.
Чтобы автоматически создавать трейлеры, нам необходимо выполнять задачи низкого уровня, такие как идентификация человека, распознавание действий и прогнозирование настроений, а также задачи более высокого уровня, такие как понимание связей между событиями и их причинно-следственной связью, а также делать выводы о персонажах и их причинно-следственных связях. действия. Учитывая сложность задачи, непосредственное изучение всех этих знаний из пар «фильм-трейлер» потребует многих тысяч примеров, обработка и аннотирование которых будут сложной задачей. Поэтому неудивительно, что предыдущие подходы к автоматической генерации трейлеров [24,46,53] фокусировались исключительно на аудиовизуальных функциях.
Вдохновленные творческим процессом редакторов-людей, мы применяем восходящий подход к созданию трейлеров, который мы разбиваем на две ортогональные, более простые и четко определенные подзадачи. Первый — это идентификация повествовательной структуры, то есть извлечение наиболее важных событий фильма. Общепринятая теория сценарного мастерства [13,22,51] предполагает, что в сюжете фильма существует пять типов ключевых событий, известных как поворотные моменты (ПТ; их определения см. на рис. 1). Вторая подзадача — прогнозирование настроений, которое мы рассматриваем как приближение потока интенсивности между кадрами и вызванных эмоций.
Мы создаем трейлеры предложений, используя неконтролируемый графический подход. Мы моделируем фильмы как графы, узлами которых являются кадры, а ребра обозначают важные семантические связи между кадрами (см. рисунок 2). Кроме того, узлы имеют метки, обозначающие, являются ли они ключевыми событиями (т. е. TP), и оценки, сигнализирующие об интенсивности настроений (положительных или отрицательных). Наш алгоритм обходит этот граф фильма для создания последовательностей трейлеров. Их можно использовать в качестве предложений, которые будут рассмотрены и изменены редактором-человеком.
Как задачи идентификации ТП, так и прогнозирования настроений выиграют от понимания содержания фильма на более низком уровне. Действительно, мы могли бы использовать готовые модули для идентификации персонажей и мест, распознавания действий и локализации семантических единиц. Однако такие подходы существенно увеличивают время предварительной обработки и требования к памяти во время обучения и вывода, а также страдают от распространения ошибок. Вместо этого мы предлагаем контрастирующий режим обучения, в котором мы используем сценарии как конфиденциальную информацию, то есть информацию, доступную только во время обучения. Сценарии показывают, как фильм разбит на сцены, кто являются персонажами, когда и с кем они разговаривают, где они находятся и что делают (т. е. «заголовки сцен» объясняют, где происходит действие, а «линии действия» описывают что видит камера). В частности, мы строим две отдельные сети: текстовую сеть на основе сценариев и мультимодальную на основе видео, и обучаем их совместно, используя вспомогательные контрастирующие потери. Текстовую сеть можно дополнительно предварительно обучить на больших коллекциях сценариев посредством самостоятельного обучения без необходимости собирать и обрабатывать соответствующие фильмы. Результаты экспериментов показывают, что этот контрастирующий подход к обучению полезен, что приводит к созданию трейлеров, которые люди положительно оценивают с точки зрения их содержания и привлекательности.
Этот документ доступен на arxiv под лицензией CC BY-SA 4.0 DEED.
[1] https://www.studiobinder.com/blog/how-to-make-a-movie-trailer
[2] https://www.derek-lieu.com/blog/2017/9/10/the-matrix-is-a-trailereditors-dream