Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.
tác giả:
(1) Jiwan Chung, MIR Lab Đại học Yonsei ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Đại học Yonsei ( https://jiwanchung.github.io/ ).
Với câu chuyện tóm tắt và câu hỏi, chúng tôi muốn lấy đoạn clip tương đối ngắn có liên quan đến câu hỏi từ video dài. Các mô hình ngôn ngữ tạo ra văn bản mở không đều và thường ồn ào. Để truy xuất phần chính xác của video, chúng tôi điều khiển mô hình xuất ra các chỉ mục của cốt truyện thay vì dạng văn bản.
Các chỉ mục được tạo có thể vẫn bị nhiễu do tính chất mở của các mô hình ngôn ngữ. Khi mô hình đưa ra câu trả lời ở dạng văn bản, chúng tôi sử dụng điểm rouge-l [19] để tìm các ứng viên có độ tương tự với câu được tạo cao hơn ngưỡng chỉ định α ≥ 0,5.