paint-brush
Метод суммирования и поиска для ответов на длинные видеовопросы: методк@kinetograph
107 чтения

Метод суммирования и поиска для ответов на длинные видеовопросы: метод

Слишком долго; Читать

В этой статье исследователи исследуют контроль качества видео с нулевым кадром с использованием GPT-3, который превосходит контролируемые модели, используя повествовательные резюме и визуальное сопоставление.
featured image - Метод суммирования и поиска для ответов на длинные видеовопросы: метод
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Этот документ доступен на arxiv под лицензией CC 4.0.

Авторы:

(1) Дживан Чунг, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ );

(2) Ёнджэ Ю, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ ).

Таблица ссылок

2. Метод


Рисунок 2. Качественный результат, показывающий предложенную нами модель Long Story Short (LSS), которая генерирует и извлекает индекс необработанного видеоматериала. Когда модель прогнозирует окончательный ответ на основе (i) сгенерированного резюме и (ii) полученного текстового контекста, CLICheck проверяет ответы каждого кандидата, чтобы пересмотреть окончательный ответ на вопрос.

2.1. Создание графика

2.2. Повествовательный поиск

Учитывая краткое повествование и вопрос, мы хотим извлечь из длинного видео относительно короткий отрывок, относящийся к вопросу. Языковые модели генерируют открытый текст, который нерегулярен и часто зашумлен. Чтобы получить точную часть видео, мы заставляем модель выводить индексы сюжета, а не текстовую форму.



Сгенерированные индексы могут по-прежнему быть зашумленными из-за открытого характера языковых моделей. Когда модель выводит ответ в текстовой форме, мы используем показатель rouge-l [19] для поиска кандидатов на фрагменты сюжета, сходство которых с сгенерированным предложением превышает указанный порог α ≥ 0,5.


2.3. Визуальная проверка