Este artigo está disponível no arxiv sob licença CC 4.0.
Autores:
(1) Jiwan Chung, MIR Lab Yonsei University ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Yonsei University ( https://jiwanchung.github.io/ ).
Dada a narrativa resumida e a questão, desejamos recuperar o clipe relativamente curto relevante para a questão do vídeo longo. Os modelos de linguagem geram texto aberto, irregular e frequentemente barulhento. Para recuperar a parte exata do vídeo, direcionamos o modelo para gerar índices do gráfico em vez da forma de texto.
Os índices gerados ainda podem apresentar ruído devido à natureza aberta dos modelos de linguagem. Quando o modelo gera uma resposta em forma de texto, usamos a pontuação rouge-l [19] para encontrar candidatos a peças de enredo cuja similaridade com a sentença gerada esteja acima do limite especificado α ≥ 0,5.