Este documento está disponible en arxiv bajo licencia CC 4.0.
Autores:
(1) Jiwan Chung, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Universidad Yonsei ( https://jiwanchung.github.io/ ).
Dada la narrativa resumida y la pregunta, deseamos recuperar el clip relativamente corto relevante a la pregunta del video largo. Los modelos de lenguaje generan texto abierto, irregular y a menudo ruidoso. Para recuperar la parte exacta del video, hacemos que el modelo genere índices de la trama en lugar de la forma de texto.
Es posible que los índices generados aún sean ruidosos debido a la naturaleza abierta de los modelos de lenguaje. Cuando el modelo genera una respuesta en forma de texto, utilizamos la puntuación rouge-l [19] para encontrar candidatos a piezas de la trama cuya similitud con la oración generada esté por encima del umbral especificado α ≥ 0,5.