Этот документ доступен на arxiv под лицензией CC 4.0.
Авторы:
(1) Дживан Чунг, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ );
(2) Ёнджэ Ю, лаборатория МИР Университета Йонсей ( https://jiwanchung.github.io/ ).
Учитывая краткое повествование и вопрос, мы хотим извлечь из длинного видео относительно короткий отрывок, относящийся к вопросу. Языковые модели генерируют открытый текст, который нерегулярен и часто зашумлен. Чтобы получить точную часть видео, мы заставляем модель выводить индексы сюжета, а не текстовую форму.
Сгенерированные индексы могут по-прежнему быть зашумленными из-за открытого характера языковых моделей. Когда модель выводит ответ в текстовой форме, мы используем показатель rouge-l [19] для поиска кандидатов на фрагменты сюжета, сходство которых с сгенерированным предложением превышает указанный порог α ≥ 0,5.