Этот документ доступен на arxiv под лицензией CC 4.0.
Авторы:
(1) Дживан Чунг, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ );
(2) Ёнджэ Ю, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ ).
Большие языковые модели, такие как GPT-3, продемонстрировали впечатляющую способность адаптироваться к новым задачам, не требуя данных обучения для конкретной задачи. Эта возможность оказалась особенно эффективной в таких условиях, как ответы на описательные вопросы, где разнообразие задач огромно, но доступные данные наблюдения невелики. В этой работе мы исследуем, могут ли такие языковые модели расширить свои возможности нулевого рассуждения на длинные мультимодальные повествования в мультимедийном контенте, таком как драма, фильмы и анимация, где история играет важную роль. Мы предлагаем Long Story Short — систему контроля качества повествовательного видео, которая сначала обобщает повествование видео до короткого сюжета, а затем ищет части видео, имеющие отношение к вопросу. Мы также предлагаем улучшить визуальное сопоставление с помощью CLICheck. Наша модель значительно превосходит современные контролируемые модели, подчеркивая потенциал нулевого контроля качества для длинных видео.
Последние модели контроля качества видео сталкиваются с трудностями при выполнении задач по обеспечению качества длинных видеоповествований [2, 13, 27] (т. е. фильмов, драм и веб-видео на YouTube) из-за ограничений в данных и аннотациях. Это приводит к неспособности понимать длинные видеоповествования, помимо ответа на преимущественно визуальные вопросы в коротком видеоклипе [16, 17, 30]. Размеры таких длинных тестов видео недостаточны для обучения моделей полному пониманию сложных повествовательных структур видео, что приводит к неоптимальной производительности. [10] демонстрируют, что контролируемые модели больше полагаются на языковые предубеждения в вопросе, чем на повествовательный контекст: они могут добиться аналогичных результатов, даже не видя никакого видеоконтекста. Это подчеркивает необходимость мультимодального мышления, выходящего за рамки контроля над небольшими конкретными задачами.
Для решения проблемы, вызванной низкой степенью обобщения, эффективной альтернативой для решения сложных задач контроля качества [32] и обобщения текстового контекста [8, 37] может стать подход с нулевым выстрелом с использованием предварительно обученных моделей большого языка (LLM). Тем не менее, можно ли перенести возможности повествовательного контроля качества таких LLM в сферу видео?
Мы предлагаем Long Story Short (LSS), показанный на рисунке 1, который переводит видеоклипы в формат текстового сценария, вдохновленный сократовской моделью [35]. Используя GPT-3 [1], мы сначала суммируем длинное видео в список графиков, а затем перемещаемся как по сгенерированному резюме, так и по необработанному контексту видео, чтобы решить заданный вопрос. Наш метод нулевого выстрела показывает лучшие результаты, чем современные контролируемые методы в наборах данных MovieQA и DramaQA. Кроме того, мы предлагаем CLIPCeck, метод сопоставления визуального текста для улучшения визуального согласования результатов рассуждений, предоставляемых GPT-3. Подводя итог, наш основной вклад состоит из трех частей:
Мы представляем LSS, структуру, которая суммирует длинное видеоповествование в список сюжетов и извлекает подсюжет, соответствующий вопросу.
Мы демонстрируем важность учета силы визуального выравнивания с помощью сопоставления на основе CLIP в визуальных подсказках.
Наш подход с нулевым выстрелом обеспечивает высочайшую производительность в MovieQA [27] и DramaQA [2], превосходя базовые контролируемые показатели.