Этот документ доступен на arxiv под лицензией CC 4.0.
Авторы:
(1) Дживан Чунг, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ );
(2) Ёнджэ Ю, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ ).
Краткое описание фильма Фильмы являются типичными примерами длинных видеороликов с четкой повествовательной структурой. Горинский и др. [7] сгенерировали более короткую версию сценария как задачу поиска оптимальной цепочки графов сцены фильма. TRIPOD [23] — это набор данных сценария, содержащий аннотации поворотных моментов. В этой же работе предлагается автоматическая модель определения переломного момента по кинонарративам. Папалампиди и др. [24] позже использует телесериал «CSI», чтобы продемонстрировать полезность поворотных моментов в автоматическом обобщении фильмов. Ли и др. [15] еще больше улучшает идентификацию поворотных моментов с помощью функций диалога и архитектуры преобразователя.
QA длинного видео. Задача ответа на видеовопросы широко изучалась в литературе как в форме открытого QA [9], так и задач с множественным выбором [28, 29]. Для решения этой задачи было предложено несколько подходов, начиная от сетей внимания на основе RNN [9, 30, 36, 38] и заканчивая сетями памяти [12, 22, 27] и преобразователями [4, 6]. Недавно мультимодальные модели, предварительно обученные на крупномасштабных наборах видеоданных (VideoQA [31], VIOLET [5], MERLOT [33] и MERLOT-Reserve [34]), также демонстрируют многообещающую эффективность при ответах на видеовопросы.
Однако контролю качества длинных видео уделяется относительно меньше внимания, несмотря на их важность. MovieQA [27] формулирует контроль качества для всего фильма, который обычно занимает два долгих часа. DramaQA [3] использует один сериал в качестве визуального контекста и ставит перед решателем задачу понять видеоклипы продолжительностью от одной до двадцати минут.