Авторы:
(1) Пинелопи Папалампиди, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет;
(2) Фрэнк Келлер, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет;
(3) Мирелла Лапата, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет.
Для генерации трейлера необходимо выбрать L кадров из полнометражного фильма из M кадров (LM). В фильмах представлены сложные истории, которые могут содержать отдельные сюжетные линии или события, которые разворачиваются нелинейно, в то время как повторяющиеся события, называемые «наполнителями», обогащают основную историю. Следовательно, мы не можем предполагать, что последовательные кадры обязательно семантически связаны. Чтобы лучше исследовать связи между событиями, мы представляем фильмы в виде графиков [42]. Пусть G = (V, E) обозначает граф, в котором вершины V являются выстрелами, а ребра E представляют их семантическое подобие. Далее мы рассматриваем исходный временной порядок кадров в G, допуская только направленные края от предыдущих кадров к будущим. G описывается верхней треугольной матрицей перехода T, которая записывает вероятность перехода от кадра i к каждому будущему кадру j.
В рамках G мы предполагаем, что некоторые кадры описывают ключевые события фильма (толстые кружки на рисунке 2), в то время как все кадры содержат настроение (положительное или отрицательное), интенсивность которого обозначается оценкой (оттенки зеленого/красного на рисунке 2). . Мы предлагаем алгоритм обхода G и выбора последовательностей кадров трейлера. Далее мы сначала опишем этот алгоритм (раздел 3.1), а затем обсудим, как изучается граф G и обнаруживаются ключевые события посредством идентификации TP [41] (раздел 3.2). Наконец, мы также объясняем, как прогнозируются оценки настроений на основе выстрелов (раздел 3.5).
Всего мы выбираем L кадров (в зависимости от целевой длины трейлера) и получаем последовательность трейлеров предложения, как показано на рисунке 2 (жирная линия). На каждом этапе мы отслеживаем созданный поток настроений и идентифицированные на данный момент TP (строки 10 и 13–14 в алгоритме 1 соответственно). Событие TP было выбрано для представления в трейлере, если к пути был добавлен кадр или его ближайшие соседи.
Модель на основе видео предполагает доступ к меткам TP на уровне кадров. Однако единственный известный нам набор данных для идентификации TP — это TRIPOD [41], который содержит метки уровня сцены, основанные на сценариях. Чтобы получить более детальные метки, мы проецируем на кадры аннотации на основе сцен, следуя простому сопоставлению «один ко многим» (подробности см. в разделе 4). Поскольку наш обучающий сигнал неизбежно зашумлен, мы предполагаем, что доступ к сценариям побудит видеомодель выбирать кадры, которые более репрезентативны для каждого TP. Другими словами, сценарии представляют собой привилегированные знания и неявный сигнал контроля, одновременно устраняя необходимость в дополнительной предварительной обработке во время вывода. Более того, сценарии предоставляют массу дополнительной информации, например, о персонажах и их ролях в сцене или об их действиях и эмоциях (передаваемых строками, описывающими то, что видит камера). В противном случае эту информацию было бы трудно точно локализовать на видео. Кроме того, немаркированные текстовые корпуса сценариев относительно легко получить, и их можно использовать для предварительного обучения нашей сети.
Теперь мы опишем наш совместный режим обучения для двух сетей, которые инкапсулируют различные виды фильма с точки зрения потоков данных (мультимодальные или только текстовые) и их сегментацию на семантические единицы (кадры или сцены).
Потеря согласованности представления Мы предлагаем использовать вторую потерю регуляризации между двумя сетями, чтобы также обеспечить согласованность между двумя графическими представлениями (т. е. по видеокадрам и сценам сценария). Цель этой потери двоякая: улучшить прогнозы TP для двух сетей, как было показано в предыдущей работе по обучению контрастивному представлению [38, 39, 48], а также помочь изучить более точные связи между кадрами (напомним, что выстрел- основанный граф служит входными данными для нашего алгоритма создания трейлера (раздел 3.1); По сравнению со сценами из сценария, которые описывают отдельные события в фильме, видеокадры длятся всего несколько секунд и их значение зависит от окружающего контекста. Мы предполагаем, что, применяя соседство графа для кадра, чтобы сохранить семантику, аналогичную соответствующей сцене сценария, мы будем стимулировать выбор подходящих соседей в графе кадра.
Предварительное обучение направлено на изучение лучшего представления сцен из сценариев, которые более доступны, чем видеофильмы (например, меньше проблем с авторскими правами и меньше вычислительных затрат) в надежде, что эти знания будут переданы в видеосеть через наши потери согласованности.
Наконец, наша модель учитывает, как настроения перетекают от одного кадра к другому. Мы прогнозируем оценку настроений за выстрел, используя ту же архитектуру суставов (раздел 3.3) и режим обучения, которые мы используем для идентификации TP. Сеть на основе видео обучается на кадрах с метками настроений (т. е. позитивные, негативные, нейтральные), тогда как сеть на основе сценариев обучается на сценах с метками настроений (в разделе 4 объясняется, как получаются метки). После обучения мы прогнозируем распределение вероятностей по меткам настроений для каждого кадра, чтобы уловить поток настроений и различать кадры высокой и низкой интенсивности (подробности см. в Приложении).
Этот документ доступен на arxiv под лицензией CC BY-SA 4.0 DEED.