paint-brush
Метод суммирования, а затем поиска для ответа на длинные видео-вопросы: заключениек@kinetograph
260 чтения

Метод суммирования, а затем поиска для ответа на длинные видео-вопросы: заключение

Слишком долго; Читать

В этой статье исследователи исследуют контроль качества видео с нулевым кадром с использованием GPT-3, превосходящего контролируемые модели, используя повествовательные резюме и визуальное сопоставление.
featured image - Метод суммирования, а затем поиска для ответа на длинные видео-вопросы: заключение
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Этот документ доступен на arxiv под лицензией CC 4.0.

Авторы:

(1) Дживан Чунг, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ );

(2) Ёнджэ Ю, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ ).

Таблица ссылок

5. Вывод

Мы представили Long Story Short — метод суммирования и поиска, позволяющий понять как глобальное повествование, так и соответствующие детали для контроля качества видеоповествования. Наш подход эффективен, когда контекст контроля качества обширен и для решения указанного контроля качества необходимо высокоуровневое взаимодействие с таким контекстом, что имеет место при длительном тестировании видео. Кроме того, мы предлагаем дополнительно улучшить визуальное обоснование ответа, сгенерированного моделью, путем последующей проверки визуального выравнивания с помощью CLIPCeck. Наш метод нулевого выстрела улучшает современные контролируемые подходы в тестах MovieQA и DramaQA. Мы планируем опубликовать код и сгенерированные данные графика.


Помимо этой работы есть два возможных направления исследований: во-первых, предоставление визуальных описаний, лучше соответствующих истории, с повторной идентификацией персонажей и разрешением соссылок, улучшающими качество ввода в GPT-3. Во-вторых, можно разработать более динамичный многошаговый поиск, который иерархически объединяет глобальную и локальную информацию.