Этот документ доступен на arxiv под лицензией CC 4.0.   Авторы:  (1) Дживан Чунг, лаборатория МИР Университета Йонсей (   ); https://jiwanchung.github.io/  (2) Ёнджэ Ю, лаборатория МИР Университета Йонсей (   ). https://jiwanchung.github.io/  Таблица ссылок   Аннотация и введение   Метод   Эксперименты   Связанных с работой   Заключение   Ограничения и ссылки   А. Детали эксперимента   Б. Образцы подсказки  Абстрактный  Большие языковые модели, такие как GPT-3, продемонстрировали впечатляющую способность адаптироваться к новым задачам, не требуя данных обучения для конкретной задачи. Эта возможность оказалась особенно эффективной в таких условиях, как ответы на описательные вопросы, где разнообразие задач огромно, но доступные данные наблюдения невелики. В этой работе мы исследуем, могут ли такие языковые модели расширить свои возможности нулевого рассуждения на длинные мультимодальные повествования в мультимедийном контенте, таком как драма, фильмы и анимация, где история играет важную роль. Мы предлагаем Long Story Short — систему контроля качества повествовательного видео, которая сначала обобщает повествование видео до короткого сюжета, а затем ищет части видео, имеющие отношение к вопросу. Мы также предлагаем улучшить визуальное сопоставление с помощью CLICheck. Наша модель значительно превосходит современные контролируемые модели, подчеркивая потенциал нулевого контроля качества для длинных видео.  1. Введение  Последние модели контроля качества видео сталкиваются с трудностями при выполнении задач по обеспечению качества длинных видеоповествований [2, 13, 27] (т. е. фильмов, драм и веб-видео на YouTube) из-за ограничений в данных и аннотациях. Это приводит к неспособности понимать длинные видеоповествования, помимо ответа на преимущественно визуальные вопросы в коротком видеоклипе [16, 17, 30]. Размеры таких длинных тестов видео недостаточны для обучения моделей полному пониманию сложных повествовательных структур видео, что приводит к неоптимальной производительности. [10] демонстрируют, что контролируемые модели больше полагаются на языковые предубеждения в вопросе, чем на повествовательный контекст: они могут добиться аналогичных результатов, даже не видя никакого видеоконтекста. Это подчеркивает необходимость мультимодального мышления, выходящего за рамки контроля над небольшими конкретными задачами.  Для решения проблемы, вызванной низкой степенью обобщения, эффективной альтернативой для решения сложных задач контроля качества [32] и обобщения текстового контекста [8, 37] может стать подход с нулевым выстрелом с использованием предварительно обученных моделей большого языка (LLM). Тем не менее, можно ли перенести возможности повествовательного контроля качества таких LLM в сферу видео?   Мы предлагаем Long Story Short (LSS), показанный на рисунке 1, который переводит видеоклипы в формат текстового сценария, вдохновленный сократовской моделью [35]. Используя GPT-3 [1], мы сначала суммируем длинное видео в список графиков, а затем перемещаемся как по сгенерированному резюме, так и по необработанному контексту видео, чтобы решить заданный вопрос. Наш метод нулевого выстрела показывает лучшие результаты, чем современные контролируемые методы в наборах данных MovieQA и DramaQA. Кроме того, мы предлагаем CLIPCeck, метод сопоставления визуального текста для улучшения визуального согласования результатов рассуждений, предоставляемых GPT-3. Подводя итог, наш основной вклад состоит из трех частей:  Мы представляем LSS, структуру, которая суммирует длинное видеоповествование в список сюжетов и извлекает подсюжет, соответствующий вопросу.  Мы демонстрируем важность учета силы визуального выравнивания с помощью сопоставления на основе CLIP в визуальных подсказках.  Наш подход с нулевым выстрелом обеспечивает высочайшую производительность в MovieQA [27] и DramaQA [2], превосходя базовые контролируемые показатели.

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

Этот звук создан на языке оригинала истории!

Метод суммирования и последующего поиска для ответов на длинные видеовопросы: краткое содержание и введение

About Author

КОММЕНТАРИИ

БИРКИ

ЭТА СТАТЬЯ БЫЛА ПРЕДСТАВЛЕНА В

Related Stories

Руководство архитектора по созданию эталонной архитектуры для озера данных AI/ML

Как улучшить ваш рабочий процесс в 10 раз: 17 основных приложений

От форумов до лент новостей: как алгоритмы социальных сетей формируют цифровое взаимодействие

Повысьте свою производительность с помощью этих 18 инструментов разработчика 🚀🔥

Руководство архитектора по созданию эталонной архитектуры для озера данных AI/ML

Как улучшить ваш рабочий процесс в 10 раз: 17 основных приложений

От форумов до лент новостей: как алгоритмы социальных сетей формируют цифровое взаимодействие

Повысьте свою производительность с помощью этих 18 инструментов разработчика 🚀🔥

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps