paint-brush
Генерация трейлера к фильму посредством декомпозиции задач: результаты и анализк@kinetograph
115 чтения

Генерация трейлера к фильму посредством декомпозиции задач: результаты и анализ

Слишком долго; Читать

В этой статье исследователи моделируют фильмы в виде графиков для создания трейлеров, определения структуры повествования и прогнозирования настроений, превосходя контролируемые методы.
featured image - Генерация трейлера к фильму посредством декомпозиции задач: результаты и анализ
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Авторы:

(1) Пинелопи Папалампиди, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет;

(2) Фрэнк Келлер, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет;

(3) Мирелла Лапата, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет.

Таблица ссылок

5. Результаты и анализ

Полезность дистилляции знаний Сначала мы исследуем, улучшим ли мы идентификацию TP, поскольку это имеет решающее значение для задачи создания трейлера. Мы разделяем набор фильмов с метками TP на уровне сцены на экспериментальный и тестовый наборы и выбираем 5 лучших (@5) и 10 лучших (@10) кадров для каждого TP в фильме. В качестве показателя оценки мы рассматриваем Частичное согласие (PA; [41]), которое измеряет процент TP, для которых модель правильно идентифицирует хотя бы один достоверный кадр из 5 или 10 кадров, выбранных из фильма (подробности см. в Приложении). ).


Таблица 2. Эффективность модели при идентификации ТП (тестовый набор). ГРАФТРЕЙЛЕР показан с различными режимами тренировки. Показатель оценки: Частичное согласие (PA) с лучшими 5 (@5) и 10 лучшими (@10) выбранными кадрами по TP и фильму.


В таблице 2 суммированы наши результаты на тестовом наборе. Мы рассматриваем следующие системы сравнения: Случайный выбор кадров из равномерно распределенных участков (в среднем 10 запусков); Теория присваивает кадрам ТП согласно теории сценарного мастерства (например, «Возможность» встречается в 10% фильма, «Смена планов» в 25% и т. д.); Распределение выбирает кадры на основе их ожидаемого положения в обучающих данных; GRAPHTP — это оригинальная модель [42], обученная на сценариях (мы проецируем прогнозы TP на уровне сцены на кадры); Трансформер — это базовая модель без графической информации. Мы используем нашу собственную модель GRAPHTRAILER в нескольких вариантах для идентификации TP: без доступа к сценариям и с доступом к ним, обученную только с потерей согласованности прогноза (P), потерями прогнозирования и представления (P + R), а также наш контрастный режим совместного обучения. .


Мы видим, что GRAPHTRAILER превосходит все базовые показатели, а также модель Transformer. Хотя последний кодирует дальние зависимости между кадрами, GRAPHTRAILER дополнительно выигрывает от прямого кодирования редких связей, изученных в графе. Более того, асинхронная фильтрация знаний посредством потери согласованности прогнозов (P) еще больше повышает производительность, предполагая, что знания, содержащиеся в сценариях, дополняют то, что можно извлечь из видео. Обратите внимание, что когда мы добавляем потерю согласованности представления (P + R), производительность значительно ухудшается, тогда как предлагаемый подход к обучению (контрастное соединение) работает лучше всего. Наконец, предварительное обучение дает дополнительные преимущества, хотя и небольшие, что подчеркивает преимущества сети, основанной на сценариях.


Качество трейлера Теперь мы оценим алгоритм создания трейлера GRAPHTRAILER на имеющемся наборе из 41 фильма (см. Таблицу 1). В качестве показателя оценки мы используем точность, то есть процент правильно идентифицированных кадров трейлера, и учитываем общий бюджет из 10 кадров для трейлеров, чтобы достичь желаемой продолжительности (~ 2 минуты).


Таблица 3. Производительность неконтролируемых (верхняя часть) и слабоконтролируемых (нижняя часть) моделей при генерации трейлера: точность правильно идентифицированных кадров трейлера. Все системы имеют одинаковый бюджет на создание трейлера.


Мы сравниваем GRAPHTRAILER с несколькими неконтролируемыми подходами (первый блок в таблице 3), включая: случайный выбор среди всех снимков и среди TP, идентифицированных GRAPHTRAILER; мы также реализуем две системы на основе графов, основанные на полностью связном графе, где узлы — это кадры, а ребра обозначают степень сходства между ними. Этот граф не знает TP, он построен путем расчета сходства между общими мультимодальными представлениями. TEXTRANK [35] работает с этим графиком, выбирая кадры на основе их централизации, в то время как GRAPHTRAILER без TP пересекает график с удаленными TP и критериями настроения (уравнение 2). Для неконтролируемых систем, включающих стохастичность и выдающих предложения (Random, GRAPHTRAILER), мы рассматриваем лучший трейлер предложения. Во втором блоке Таблицы 3 представлены контролируемые подходы, в которых для обучения используются шумные метки-трейлеры. К ним относятся CCANet [53], который учитывает только визуальную информацию и вычисляет перекрестное внимание между кадрами фильма и трейлера, а также ванильный Transformer, обученный бинарной задаче определения того, должен ли кадр быть в трейлере, без учета сценариев, настроений или TP. . Контролируемый GRAPHTRAILER состоит из нашей видеосети, обученной на тех же данных, что и Transformer.


GRAPHTRAILER работает лучше всего среди неконтролируемых методов. Интересно, что TEXTRANK хуже, чем случайный, иллюстрируя, что такие задачи, как создание трейлеров, нельзя рассматривать как стандартные задачи обобщения. GRAPHTRAILER без TP по-прежнему работает лучше, чем TEXTRANK и случайный выбор TP.[7] Что касается контролируемых подходов, мы обнаружили, что использование всех модальностей со стандартной архитектурой (Transformer) приводит к более высокой производительности, чем сложные модели, использующие визуальное сходство (CCANet). Добавляя информацию, связанную с графиком (контролируемый GRAPHTRAILER), мы получаем дальнейшие улучшения.


Таблица 5. ГРАФТРЕЙЛЕР с различными критериями выполнения случайных блужданий в графе фильма (алгоритм 1, уравнение (2)).


Мы проводим два исследования абляции на наборе для разработки GRAPHTRAILER. Первое исследование направлено на оценку того, как различные режимы обучения двойной сети влияют на производительность генерации прицепов в дальнейшем. В Таблице 4 мы видим, что асинхронное обучение не дает каких-либо заметных улучшений по сравнению с базовой моделью. Однако когда мы совместно обучаем две сети (на основе видео и сценария), используя потери согласованности прогнозирования и представления, производительность увеличивается почти на 3%. Дальнейшее небольшое увеличение наблюдается, когда сеть, основанная на сценарии, предварительно обучается на большем количестве данных.


Второе исследование абляции касается критериев, используемых для выполнения случайных блужданий по графу G. Как показано в таблице 5, когда мы заставляем узлы на выбранном пути быть близкими к ключевым событиям (сходство + TP), производительность улучшается. Когда мы полагаемся исключительно на настроения (сходство + настроение), производительность немного падает. Это говорит о том, что в отличие от предыдущих подходов, которые в основном фокусируются на поверхностной визуальной привлекательности [53, 57] или аудиовизуальном анализе настроений [47], информации о настроениях самой по себе недостаточно, и она может способствовать появлению выбросов, которые плохо вписываются в трейлер. С другой стороны, когда информация о настроениях сочетается со знаниями о структуре повествования (сходство + ТП + настроения), мы наблюдаем наивысшую точность. Это еще раз подтверждает нашу гипотезу о том, что две теории создания трейлеров (т. е. основанные на повествовательной структуре и эмоциях) дополняют друг друга и могут быть объединены.


Наконец, поскольку у нас есть несколько трейлеров к фильму (для набора разработчиков), мы можем измерить перекрытие между их кадрами (верхняя граница). Среднее перекрытие составляет 86,14%, что демонстрирует хорошее согласие между производителями прицепов и большой разрыв между производительностью человека и автоматическими моделями.


Наконец, поскольку у нас есть несколько трейлеров к фильму (для набора разработчиков), мы можем измерить перекрытие между их кадрами (верхняя граница). Среднее перекрытие составляет 86,14%, что демонстрирует хорошее согласие между производителями прицепов и большой разрыв между производительностью человека и автоматическими моделями.


Таблица 6. Человеческая оценка на выдержке. Процент утвердительных ответов на вопросы: содержит ли трейлер достаточную информацию (вопрос 1) и является ли он привлекательным (вопрос 2). Процент случаев, когда каждая система была выбрана как лучшая или худшая, а также стандартизированная оценка по шкале от лучшего к худшему.


Человеческая оценка Мы также провели человеческое исследование для оценки качества создаваемых трейлеров. Для человеческой оценки мы включаем случайный выбор без TP в качестве нижней границы, две наиболее эффективные неконтролируемые модели (т. е. GRAPHTRAILER с TP и без них) и две контролируемые модели: CCANet, которая является предыдущим уровнем техники для создания трейлеров, и контролируемая версия нашей модели, которая является наиболее эффективной моделью по автоматическим показателям.[8] Мы сгенерировали трейлеры ко всем фильмам из отложенного набора. Затем мы попросили работников Amazon Mechanical Turk (AMT) посмотреть все трейлеры к фильму, ответить на вопросы, касающиеся предоставленной информации (Q1) и привлекательности (Q2) трейлера, а также выбрать лучший и худший трейлер. Мы собрали оценки от пяти разных судей на каждый фильм.


Таблица 6 показывает, что GRAPHTRAILER с TP обеспечивает в среднем более информативные (Q1) и привлекательные (Q2) трейлеры, чем все другие системы. Хотя GRAPHTRAILER без ТП и Supervised GRAPHTRAILER чаще выбираются как лучшие, они также одинаково часто выбираются как худшие. Когда мы вычисляем стандартизированные оценки (z-показатели) с использованием масштабирования «лучший-худший» [31], GRAPHTRAILER с TP достигает наилучшей производительности (обратите внимание, что он также редко выбирается как худший), за которым следует контролируемый GRAPHTRAILER. Интересно, что GRAPHTRAILER без TP чаще всего выбирается как лучший (24,40%), что говорит о том, что общий подход моделирования фильмов в виде графиков и выполнения случайных блужданий вместо индивидуального подбора кадров помогает создавать связные трейлеры. Однако одну и ту же модель чаще всего выбирают как худшую, что показывает, что этот наивный подход сам по себе не может гарантировать хорошее качество прицепов.


В дополнительные материалы мы включаем видеопримеры трейлеров, созданных на основе нашего подхода. Более того, в Приложении мы приводим пошаговый графический пример нашего алгоритма обхода графа.


Осторожно, спойлеры! Наша модель явно не избегает спойлеров в сгенерированных трейлерах. Мы экспериментировали с критерием, связанным со спойлерами, при обходе графа фильма в алгоритме 1. В частности, мы добавили штраф при выборе кадров, которые находятся в «чувствительных к спойлерам» окрестностях графа. Мы определили такие окрестности, измерив кратчайший путь от двух последних TP, которые по определению являются самыми большими спойлерами в фильме. Однако этот вариант нашего алгоритма привел к меньшей производительности, и поэтому мы не стали его развивать дальше. Мы считаем, что такой критерий невыгоден для предложения трейлеров, поскольку отбивает у модели желание выбирать захватывающие кадры из последних частей фильма. Эти напряженные кадры важны для создания интересных трейлеров и действительно включаются в реальные трейлеры. Более трети профессиональных трейлеров в нашем наборе данных содержат кадры из двух последних ТП («Главная неудача», «Кульминация»). Подробнее об этом мы поговорим в Приложении.


Мы также вручную проверили сгенерированные трейлеры и обнаружили, что спойлеры встречаются не очень часто (т. е. мы выявили один крупный спойлер в случайной выборке из 12 трейлеров из тестового набора), возможно, потому, что вероятность выбора крупного спойлера обычно низка. И даже если в фильм включен кадр, чувствительный к спойлерам, если его вырвать из контекста, этого может быть недостаточно, чтобы раскрыть финал фильма. Однако мы оставляем на будущее исследование более сложных методов идентификации спойлеров, которые можно легко интегрировать в наш алгоритм в качестве дополнительных критериев.


Этот документ доступен на arxiv под лицензией CC BY-SA 4.0 DEED.


[7] Производительность на тестовом наборе ниже, поскольку мы учитываем только метки трейлеров из официального трейлера, а набор для разработки содержит несколько трейлеров.


[8] Мы не включаем достоверные трейлеры в человеческую оценку, поскольку они подвергаются постобработке (т. е. монтажу, озвучке, музыке) и, следовательно, не могут быть напрямую сопоставимы с автоматическими трейлерами.