Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.
tác giả:
(1) Jiwan Chung, MIR Lab Đại học Yonsei ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR Lab Đại học Yonsei ( https://jiwanchung.github.io/ ).
Tóm Tắt Phim Phim là ví dụ điển hình của những video dài có cấu trúc tường thuật rõ ràng. Gorinski và cộng sự. [7]tạo phiên bản ngắn hơn của kịch bản phim với nhiệm vụ tìm chuỗi biểu đồ tối ưu của một cảnh phim. TRIPOD [23] là tập dữ liệu kịch bản phim chứa các chú thích về các bước ngoặt. Trong tác phẩm tương tự, một mô hình tự động xác định bước ngoặt từ các câu chuyện trong phim được đề xuất. Papalampidi và cộng sự. [24] sau đó sử dụng CSI phim truyền hình để chứng minh tính hữu ích của các bước ngoặt trong việc tóm tắt phim tự động. Lee và cộng sự. [15] cải thiện hơn nữa việc xác định điểm bước ngoặt với các tính năng đối thoại và kiến trúc máy biến áp.
QA Video Dài Nhiệm vụ trả lời câu hỏi bằng video đã được nghiên cứu rộng rãi trong tài liệu dưới dạng cả QA Kết thúc Mở [9] và Bài toán Nhiều Lựa chọn [28, 29]. Một số phương pháp đã được đề xuất để giải quyết nhiệm vụ này, bắt đầu từ mạng chú ý dựa trên RNN [9, 30, 36, 38], đến mạng bộ nhớ [12, 22, 27] và máy biến áp [4, 6]. Gần đây, các mô hình đa phương thức được đào tạo trước trên các bộ dữ liệu video quy mô lớn (VideoQA [31], VIOLET [5], MERLOT [33] và MERLOT-Reserve [34]) cũng cho thấy hiệu suất đầy hứa hẹn trong việc trả lời câu hỏi bằng video.
Tuy nhiên, QA video dài nhận được tương đối ít sự chú ý hơn mặc dù tầm quan trọng của nó. MovieQA [27] xây dựng QA trên toàn bộ phim, thường kéo dài hai giờ dài. DramaQA [3] sử dụng một loạt phim truyền hình làm bối cảnh trực quan và giao nhiệm vụ cho người giải để hiểu các video clip có độ dài từ một đến hai mươi phút.