Этот документ доступен на arxiv под лицензией CC 4.0.
Авторы:
(1) Дживан Чунг, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ );
(2) Ёнджэ Ю, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ ).
Мы представили Long Story Short — метод суммирования и поиска, позволяющий понять как глобальное повествование, так и соответствующие детали для контроля качества видеоповествования. Наш подход эффективен, когда контекст контроля качества обширен и для решения указанного контроля качества необходимо высокоуровневое взаимодействие с таким контекстом, что имеет место при длительном тестировании видео. Кроме того, мы предлагаем дополнительно улучшить визуальное обоснование ответа, сгенерированного моделью, путем последующей проверки визуального выравнивания с помощью CLIPCeck. Наш метод нулевого выстрела улучшает современные контролируемые подходы в тестах MovieQA и DramaQA. Мы планируем опубликовать код и сгенерированные данные графика.
Помимо этой работы есть два возможных направления исследований: во-первых, предоставление визуальных описаний, лучше соответствующих истории, с повторной идентификацией персонажей и разрешением соссылок, улучшающими качество ввода в GPT-3. Во-вторых, можно разработать более динамичный многошаговый поиск, который иерархически объединяет глобальную и локальную информацию.