tác giả:
(1) Pinelopi Papalampidi, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;
(2) Frank Keller, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;
(3) Mirella Lapata, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh.
Các phương pháp tiếp cận trước đây để hiểu phim chủ yếu tập trung vào các video clip riêng biệt và các nhiệm vụ như căn chỉnh giữa cảnh phim và chương sách [49], trả lời câu hỏi [50], chú thích video cho cảnh quay phim [44] và chuyển văn bản thành video truy xuất [5]. Công trình gần đây [40–42] cố gắng xác định cấu trúc tường thuật cấp cao và tóm tắt toàn bộ các tập phim truyền hình và phim chỉ tập trung vào phương thức văn bản (tức là kịch bản phim).
Các phương pháp tiếp cận hiện tại để tạo trailer khai thác các tính năng nghe nhìn hời hợt, chẳng hạn như nhạc nền hoặc thay đổi hình ảnh giữa các cảnh quay liên tiếp [24, 46]. Công việc khác tạo ra các đoạn giới thiệu “hấp dẫn” với mô hình dựa trên biểu đồ để lựa chọn cảnh quay [57] hoặc sử dụng con người trong vòng lặp kết hợp với mô hình được đào tạo về phim kinh dị thông qua phân tích cảm xúc nghe nhìn [47]. Bộ dữ liệu phát hiện khoảnh khắc trong đoạn giới thiệu [53] bao gồm các bộ phim có thời lượng đầy đủ được ghép nối với các đoạn giới thiệu và chú thích chính thức cho những khoảnh khắc quan trọng, nhưng nó không được cung cấp công khai và không bao gồm các kịch bản phim.
Chắt lọc kiến thức [3, 23] ban đầu được đề xuất để chắt lọc thông tin từ mô hình giáo viên lớn hơn sang mô hình học sinh nhỏ hơn. Chưng cất tổng quát [30] cung cấp một khuôn khổ để sử dụng thông tin đặc quyền, tức là thông tin chỉ có sẵn tại thời điểm đào tạo. Liên quan nhiều nhất đến công việc của chúng tôi là việc sử dụng các phương thức hoặc cách nhìn khác nhau của cùng một nội dung [33, 34], ví dụ: các bài tường thuật được chép lại để tìm hiểu cách trình bày trực quan trong các video hướng dẫn. Chúng tôi tận dụng các kịch bản phim như một nguồn thông tin đặc quyền và chắt lọc kiến thức về các sự kiện, nhân vật và cảnh trong một bộ phim mà sau đó chúng tôi khai thác để xác định các cảnh quay xứng đáng trong đoạn giới thiệu trong video.
Bài viết này có sẵn trên arxiv theo giấy phép CC BY-SA 4.0 DEED.