paint-brush
Генерация трейлера к фильму посредством декомпозиции задач: детали реализациик@kinetograph

Генерация трейлера к фильму посредством декомпозиции задач: детали реализации

Слишком долго; Читать

В этой статье исследователи моделируют фильмы в виде графиков для создания трейлеров, определения структуры повествования и прогнозирования настроений, превосходя контролируемые методы.
featured image - Генерация трейлера к фильму посредством декомпозиции задач: детали реализации
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Авторы:

(1) Пинелопи Папалампиди, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет;

(2) Фрэнк Келлер, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет;

(3) Мирелла Лапата, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет.

Таблица ссылок

Б. Детали реализации

Метрики оценки. Предыдущая работа [41] оценивает производительность моделей идентификации ТП по трем метрикам: Общее согласие (TA), т. е. процент правильно идентифицированных сцен ТП, Частичное согласие (PA), т. е. процент сцен ТП. события, для которых определена хотя бы одна сцена золотого стандарта, и Расстояние (D), т. е. минимальное расстояние по количеству сцен между прогнозируемым и стандартным набором сцен для данного TP, нормализованное по длине сценария. Мы сообщаем результаты с метрикой частичного согласия. Мы больше не можем использовать полное согласие, поскольку мы оцениваем кадры (а не сцены) по серебряному стандарту (а не по золотому) и в результате считаем все кадры в сцене одинаково важными. Мы также не используем метрику расстояния, поскольку она дает очень похожие результаты и не помогает различать варианты модели.


Гиперпараметры Следуя предыдущей работе [42], мы проецируем все типы функций (т.е. текстовые, визуальные и аудио) на одно и то же нижнее измерение, равное 128. Мы обнаружили, что большие измерения значительно увеличивают количество параметров и дают худшие результаты, возможно, из-за небольшой размер набора данных.


Контекстуализируем сцены (по сценарию) и кадры (по видео) с помощью кодировщиков-трансформеров. Мы экспериментировали с 2, 3, 4, 5 и 6 слоями в кодере и получили наилучшие результаты с 3 слоями. Что касается размера прямой связи (FF), мы экспериментировали как со стандартным размером 2048, так и с меньшим размером 1024, и обнаружили, что первый работает лучше. Мы используем другой кодировщик-трансформер для вычисления представления сцены из последовательности представлений входных предложений. Этот кодер имеет 4 слоя и размерность 1024 FF. Оба энкодера используют 8 головок внимания и 0,3 дропаута.


Во время разрежения графа (т. е. выбора топ-k соседей) мы рассматриваем разные варианты соседства для сетей на основе сцен и кадров из-за их различной детализации и размера. Следуя [42], мы рассматриваем [1–6] соседей для сети сцен и увеличиваем размер окрестности до [6–12] для сети кадров.



Рисунок 4. Распределение кадров трейлера, соответствующих разным разделам фильма (разработка), определяемое ТП. Кадры трейлера происходят из всех частей фильма, даже из конца, хотя большинство из них — из начала и середины.


Таблица 7. Процент (%) трейлеров, в которых есть хотя бы один кадр, помеченный как определенный тип TP в наборе разработки. Первые два ТП (представляющие собой вступление к истории) чаще появляются в трейлерах, особенно по сравнению с двумя последними, которые часто содержат серьезные спойлеры.


Таблица 8. Средняя абсолютная интенсивность настроений на секцию прицепа, когда мы разделяем прицепы на три четные части (разработочный набор).



Этот документ доступен на arxiv под лицензией CC BY-SA 4.0 DEED.