paint-brush
Метод суммирования, а затем поиска для ответов на длинные видео-вопросы: соответствующая работак@kinetograph

Метод суммирования, а затем поиска для ответов на длинные видео-вопросы: соответствующая работа

Слишком долго; Читать

В этой статье исследователи исследуют контроль качества видео с нулевым кадром с использованием GPT-3, который превосходит контролируемые модели, используя повествовательные резюме и визуальное сопоставление.
featured image - Метод суммирования, а затем поиска для ответов на длинные видео-вопросы: соответствующая работа
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Этот документ доступен на arxiv под лицензией CC 4.0.

Авторы:

(1) Дживан Чунг, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ );

(2) Ёнджэ Ю, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ ).

Таблица ссылок

4. Сопутствующая работа

Краткое описание фильма Фильмы являются типичными примерами длинных видеороликов с четкой повествовательной структурой. Горинский и др. [7] сгенерировали более короткую версию сценария как задачу поиска оптимальной цепочки графов сцены фильма. TRIPOD [23] — это набор данных сценария, содержащий аннотации поворотных моментов. В этой же работе предлагается автоматическая модель определения переломного момента по кинонарративам. Папалампиди и др. [24] позже использует телесериал «CSI», чтобы продемонстрировать полезность поворотных моментов в автоматическом обобщении фильмов. Ли и др. [15] еще больше улучшает идентификацию поворотных моментов с помощью функций диалога и архитектуры преобразователя.


QA длинного видео. Задача ответа на видеовопросы широко изучалась в литературе как в форме открытого QA [9], так и задач с множественным выбором [28, 29]. Для решения этой задачи было предложено несколько подходов, начиная от сетей внимания на основе RNN [9, 30, 36, 38] и заканчивая сетями памяти [12, 22, 27] и преобразователями [4, 6]. Недавно мультимодальные модели, предварительно обученные на крупномасштабных наборах видеоданных (VideoQA [31], VIOLET [5], MERLOT [33] и MERLOT-Reserve [34]), также демонстрируют многообещающую эффективность при ответах на видеовопросы.


Однако контролю качества длинных видео уделяется относительно меньше внимания, несмотря на их важность. MovieQA [27] формулирует контроль качества для всего фильма, который обычно занимает два долгих часа. DramaQA [3] использует один сериал в качестве визуального контекста и ставит перед решателем задачу понять видеоклипы продолжительностью от одной до двадцати минут.