Авторы:
(1) Пинелопи Папалампиди, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет;
(2) Фрэнк Келлер, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет;
(3) Мирелла Лапата, Институт языка, познания и вычислений, Школа информатики, Эдинбургский университет.
Предыдущие подходы к пониманию фильмов в основном были сосредоточены на изолированных видеоклипах и таких задачах, как согласование между сценами фильма и главами книг [49], ответы на вопросы [50], создание титров для видеокадров [44] и преобразование текста в видео. поиск [5]. В недавних работах [40–42] предпринята попытка определить структуру повествования высокого уровня и обобщить целые телевизионные эпизоды и фильмы, уделяя особое внимание текстовой модальности (т. е. сценариям).
Существующие подходы к созданию трейлеров используют поверхностные аудиовизуальные особенности, такие как фоновая музыка или визуальные изменения между последовательными кадрами [24, 46]. Другая работа создает «привлекательные» трейлеры с помощью графической модели выбора кадров [57] или использует в цикле человека в сочетании с моделью, обученной на фильмах ужасов посредством аудиовизуального анализа настроений [47]. Набор данных для определения моментов трейлеров [53] состоит из полнометражных фильмов в сочетании с официальными трейлерами и аннотациями к ключевым моментам, но он не является общедоступным и не включает сценарии.
Дистилляция знаний [3, 23] изначально была предложена для перегонки информации из более крупной модели учителя в меньшую модель ученика. Обобщенная дистилляция [30] обеспечивает основу для использования привилегированной информации, т. е. информации, которая доступна только во время обучения. Больше всего с нашей работой связано использование различных модальностей или представлений одного и того же контента [33, 34], например, транскрибированных повествований для изучения визуальных представлений в обучающих видеороликах. Мы используем сценарии как источник конфиденциальной информации и извлекаем знания о событиях, персонажах и сценах в фильме, которые впоследствии используем для определения достойных трейлеров кадров в видео.
Этот документ доступен на arxiv под лицензией CC BY-SA 4.0 DEED.