paint-brush
Tạo đoạn giới thiệu phim thông qua phân tách tác vụ: Tóm tắt và giới thiệutừ tác giả@kinetograph

Tạo đoạn giới thiệu phim thông qua phân tách tác vụ: Tóm tắt và giới thiệu

dài quá đọc không nổi

Trong bài báo này, các nhà nghiên cứu mô hình hóa phim dưới dạng biểu đồ để tạo ra các đoạn giới thiệu, xác định cấu trúc tường thuật và dự đoán tình cảm, vượt qua các phương pháp được giám sát.
featured image - Tạo đoạn giới thiệu phim thông qua phân tách tác vụ: Tóm tắt và giới thiệu
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

tác giả:

(1) Pinelopi Papalampidi, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;

(2) Frank Keller, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;

(3) Mirella Lapata, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh.

Bảng liên kết

trừu tượng

Đoạn giới thiệu phim thực hiện nhiều chức năng: giới thiệu câu chuyện cho người xem, truyền tải tâm trạng và phong cách nghệ thuật của bộ phim, đồng thời khuyến khích khán giả xem phim. Những chức năng đa dạng này khiến việc tạo trailer tự động trở thành một nỗ lực đầy thách thức. Chúng tôi chia nó thành hai nhiệm vụ phụ: xác định cấu trúc tường thuật và dự đoán cảm xúc. Chúng tôi mô hình hóa phim dưới dạng đồ thị, trong đó các nút là các cảnh quay và các cạnh biểu thị mối quan hệ ngữ nghĩa giữa chúng. Chúng ta tìm hiểu những mối quan hệ này bằng cách sử dụng phương pháp đào tạo tương phản chung nhằm tận dụng thông tin văn bản đặc quyền (ví dụ: nhân vật, hành động, tình huống) từ kịch bản phim. Sau đó, một thuật toán không giám sát sẽ duyệt qua biểu đồ và tạo ra các đoạn giới thiệu mà con người đánh giá thích hơn các đoạn giới thiệu được tạo ra bởi các phương pháp tiếp cận có giám sát cạnh tranh.

1. Giới thiệu

Đoạn giới thiệu là những video ngắn dùng để quảng cáo phim và thường đóng vai trò quan trọng đối với thành công về mặt thương mại. Mặc dù chức năng cốt lõi của chúng là tiếp thị phim tới nhiều đối tượng khán giả, nhưng đoạn giới thiệu cũng là một hình thức nghệ thuật thuyết phục và tường thuật quảng cáo, được thiết kế để khiến người xem muốn xem phim. Mặc dù việc tạo ra xe kéo được coi là một nỗ lực mang tính nghệ thuật nhưng ngành công nghiệp điện ảnh đã phát triển các chiến lược hướng dẫn việc xây dựng xe kéo. Theo một trường phái tư tưởng, đoạn giới thiệu phải thể hiện cấu trúc kể chuyện, bao gồm ba màn[1]. Màn đầu tiên thiết lập các nhân vật và bối cảnh của câu chuyện, màn thứ hai giới thiệu xung đột chính và màn thứ ba nâng cao mức độ đặt cược và cung cấp các đoạn giới thiệu từ phần kết. Một trường phái tư tưởng khác quan tâm nhiều hơn đến tâm trạng của đoạn giới thiệu được xác định bởi những thăng trầm của câu chuyện[2]. Theo cách tiếp cận này, đoạn giới thiệu ban đầu phải có cường độ trung bình để thu hút người xem, sau đó là cường độ thấp để truyền tải thông tin chính về câu chuyện, sau đó tăng dần cường độ cho đến khi đạt cao trào ở cuối đoạn giới thiệu.


Hình 1. Các bước ngoặt và định nghĩa của chúng.


Để tạo đoạn giới thiệu một cách tự động, chúng ta cần thực hiện các nhiệm vụ cấp thấp như nhận dạng con người, nhận dạng hành động và dự đoán cảm xúc, cũng như các nhiệm vụ cấp cao hơn như hiểu mối liên hệ giữa các sự kiện và quan hệ nhân quả của chúng, cũng như rút ra suy luận về các nhân vật và mối quan hệ của họ. hành động. Do tính phức tạp của nhiệm vụ, việc học trực tiếp tất cả kiến thức này từ các cặp đoạn giới thiệu phim sẽ đòi hỏi hàng nghìn ví dụ mà việc xử lý và chú thích của chúng sẽ là một thách thức. Do đó, không có gì đáng ngạc nhiên khi các cách tiếp cận trước đây đối với việc tạo trailer tự động [24,46,53] chỉ tập trung vào các tính năng nghe nhìn.


Lấy cảm hứng từ quá trình sáng tạo của các biên tập viên con người, chúng tôi áp dụng cách tiếp cận từ dưới lên để tạo đoạn giới thiệu, chúng tôi phân tách thành hai nhiệm vụ phụ trực giao, đơn giản hơn và được xác định rõ ràng. Đầu tiên là việc xác định cấu trúc tường thuật, tức là lấy lại những sự kiện quan trọng nhất của bộ phim. Một lý thuyết thường được áp dụng trong viết kịch bản [13,22,51] gợi ý rằng có năm loại sự kiện chính trong cốt truyện của một bộ phim, được gọi là các bước ngoặt (TP; xem định nghĩa của chúng trong Hình 1). Nhiệm vụ phụ thứ hai là dự đoán cảm xúc, mà chúng tôi coi là sự xấp xỉ của dòng cường độ giữa các cảnh quay và cảm xúc được gợi lên.


Chúng tôi tạo các đoạn giới thiệu đề xuất theo cách tiếp cận dựa trên biểu đồ không được giám sát. Chúng tôi lập mô hình phim dưới dạng đồ thị có các nút là các cảnh quay và các cạnh biểu thị các kết nối ngữ nghĩa quan trọng giữa các cảnh quay (xem Hình 2). Ngoài ra, các nút mang nhãn biểu thị liệu chúng có phải là sự kiện quan trọng hay không (tức là TP) và cho điểm báo hiệu cường độ cảm xúc (tích cực hoặc tiêu cực). Thuật toán của chúng tôi duyệt qua biểu đồ phim này để tạo chuỗi đoạn giới thiệu. Chúng có thể được sử dụng làm đề xuất để được người biên tập xem xét và sửa đổi.


Cả nhiệm vụ xác định TP và dự đoán cảm xúc đều được hưởng lợi từ mức độ hiểu biết thấp hơn về nội dung phim. Thật vậy, chúng ta có thể sử dụng các mô-đun có sẵn để xác định các ký tự và địa điểm, nhận dạng hành động và bản địa hóa các đơn vị ngữ nghĩa. Tuy nhiên, những cách tiếp cận như vậy làm tăng đáng kể thời gian tiền xử lý và yêu cầu bộ nhớ trong quá trình đào tạo và suy luận, đồng thời dễ bị lan truyền lỗi. Thay vào đó, chúng tôi đề xuất một chế độ học tập tương phản, trong đó chúng tôi tận dụng các kịch bản phim như thông tin đặc quyền, tức là thông tin chỉ có trong thời gian đào tạo. Kịch bản phim tiết lộ cách bộ phim được chia thành các cảnh, nhân vật là ai, họ đang nói chuyện với ai và khi nào, họ ở đâu và họ đang làm gì (ví dụ: “tiêu đề cảnh” giải thích hành động diễn ra ở đâu trong khi “dòng hành động” mô tả những gì máy ảnh nhìn thấy). Cụ thể, chúng tôi xây dựng hai mạng riêng lẻ, một mạng văn bản dựa trên kịch bản phim và một mạng đa phương thức dựa trên video và huấn luyện chúng cùng nhau bằng cách sử dụng các tổn thất tương phản phụ trợ. Ngoài ra, mạng văn bản có thể được huấn luyện trước trên các bộ sưu tập kịch bản phim lớn thông qua việc học tự giám sát mà không cần phải thu thập và xử lý các phim tương ứng. Kết quả thực nghiệm cho thấy phương pháp đào tạo đối chiếu này mang lại lợi ích, khiến các trailer được con người đánh giá cao về nội dung cũng như độ hấp dẫn.


Bài viết này có sẵn trên arxiv theo giấy phép CC BY-SA 4.0 DEED.


[1] https://www.studiobinder.com/blog/how-to-make-a-movie-trailer


[2] https://www.derek-lieu.com/blog/2017/9/10/the-matrix-is-a-traileditors-dream