paint-brush
Tạo đoạn giới thiệu phim thông qua phân tách nhiệm vụ: Kết quả và phân tíchtừ tác giả@kinetograph

Tạo đoạn giới thiệu phim thông qua phân tách nhiệm vụ: Kết quả và phân tích

dài quá đọc không nổi

Trong bài báo này, các nhà nghiên cứu mô hình hóa phim dưới dạng biểu đồ để tạo ra các đoạn giới thiệu, xác định cấu trúc tường thuật và dự đoán tình cảm, vượt qua các phương pháp được giám sát.
featured image - Tạo đoạn giới thiệu phim thông qua phân tách nhiệm vụ: Kết quả và phân tích
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

tác giả:

(1) Pinelopi Papalampidi, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;

(2) Frank Keller, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;

(3) Mirella Lapata, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh.

Bảng liên kết

5. Kết quả và phân tích

Tính hữu ích của việc chắt lọc kiến thức Trước tiên, chúng tôi điều tra xem liệu chúng tôi có cải thiện việc nhận dạng TP hay không vì nó rất quan trọng đối với nhiệm vụ tạo xe moóc. Chúng tôi chia bộ phim có nhãn TP ở cấp độ cảnh thực tế thành bộ phát triển và thử nghiệm, đồng thời chọn 5 cảnh quay hàng đầu (@5) và 10 cảnh quay (@10) hàng đầu cho mỗi TP trong một bộ phim. Là thước đo đánh giá, chúng tôi xem xét Thỏa thuận một phần (PA; [41]), đo lường tỷ lệ phần trăm TP mà mô hình xác định chính xác ít nhất một cảnh quay chân thực từ 5 hoặc 10 cảnh quay được chọn từ phim (xem Phụ lục để biết chi tiết ).


Bảng 2. Hiệu suất mô hình về nhận dạng TP (bộ kiểm tra). GRAPHTRAILER được hiển thị với các chế độ đào tạo khác nhau. Chỉ số đánh giá: Thỏa thuận một phần (PA) so với 5 cảnh quay hàng đầu (@5) và 10 cảnh quay được chọn hàng đầu (@10) trên mỗi TP và phim.


Bảng 2 tóm tắt kết quả của chúng tôi trên bộ thử nghiệm. Chúng tôi xem xét các hệ thống so sánh sau: Chọn ngẫu nhiên các ảnh từ các phần được phân bổ đều (trung bình 10 lần chạy); Lý thuyết phân bổ TP cho các cảnh quay theo lý thuyết biên kịch (ví dụ: “Cơ hội” xảy ra ở 10% thời lượng phim, “Thay đổi kế hoạch” ở mức 25%, v.v.); Phân phối chọn các cú đánh dựa trên vị trí dự kiến của chúng trong dữ liệu huấn luyện; GRAPHTP là mô hình ban đầu của [42] được đào tạo về kịch bản phim (chúng tôi chiếu các dự đoán TP ở cấp độ cảnh vào các cảnh quay); Máy biến áp là mô hình cơ sở không có thông tin liên quan đến đồ thị. Chúng tôi sử dụng mô hình của riêng mình, GRAPHTRAILER, trong một số biến thể để nhận dạng TP: không có và có quyền truy cập vào các kịch bản phim, chỉ được đào tạo với mất tính nhất quán dự đoán (P), cả tổn thất dự đoán và biểu diễn (P + R) và chế độ đào tạo chung tương phản của chúng tôi .


Chúng tôi nhận thấy rằng GRAPHTRAILER vượt trội hơn tất cả các đường cơ sở, cũng như mô hình Transformer. Mặc dù cái sau mã hóa sự phụ thuộc tầm xa giữa các lần chụp, GRAPHTRAILER còn được hưởng lợi từ việc mã hóa trực tiếp các kết nối thưa thớt đã học được trong biểu đồ. Hơn nữa, việc chắt lọc kiến thức không đồng bộ thông qua việc mất tính nhất quán dự đoán (P) sẽ cải thiện hơn nữa hiệu suất, cho thấy rằng kiến thức có trong kịch bản phim là bổ sung cho những gì có thể được trích xuất từ video. Lưu ý rằng khi chúng ta thêm tổn thất nhất quán trong biểu diễn (P + R), hiệu suất sẽ giảm đi rất nhiều, trong khi phương pháp đào tạo được đề xuất (khớp tương phản) hoạt động tốt nhất. Cuối cùng, đào tạo trước mang lại nhiều lợi ích hơn nữa, mặc dù nhỏ, điều này nhấn mạnh lợi ích của mạng lưới dựa trên kịch bản.


Chất lượng đoạn giới thiệu Bây giờ, chúng tôi đánh giá thuật toán tạo đoạn giới thiệu của GRAPHTRAILER trên tập hợp 41 phim đã có sẵn (xem Bảng 1). Là thước đo đánh giá, chúng tôi sử dụng độ chính xác, tức là tỷ lệ phần trăm số cảnh quay trong đoạn giới thiệu được xác định chính xác và chúng tôi xem xét tổng ngân sách là 10 cảnh quay cho đoạn giới thiệu để đạt được độ dài mong muốn (∼2 phút).


Bảng 3. Hiệu suất của các mô hình không được giám sát (phần trên) và được giám sát yếu (phần dưới) khi tạo xe kéo: độ chính xác của các cảnh quay xe kéo được xác định chính xác. Tất cả các hệ thống đều có cùng ngân sách quay để tạo đoạn giới thiệu.


Chúng tôi so sánh GRAPHTRAILER với một số phương pháp tiếp cận không giám sát (khối đầu tiên trong Bảng 3), bao gồm: Lựa chọn ngẫu nhiên trong số tất cả các ảnh chụp và giữa các TP được xác định bởi GRAPHTRAILER; chúng tôi cũng triển khai hai hệ thống dựa trên biểu đồ dựa trên biểu đồ được kết nối đầy đủ, trong đó các nút là ảnh chụp và các cạnh biểu thị mức độ giống nhau giữa chúng. Biểu đồ này không có kiến thức về TP, nó được xây dựng bằng cách tính toán độ tương tự giữa các biểu diễn đa phương thức chung. TEXTRANK [35] hoạt động trên biểu đồ này để chọn các ảnh dựa trên mức độ trung tâm của chúng, trong khi GRAPHTRAILER không có TP đi qua biểu đồ với TP và tiêu chí cảm tính bị loại bỏ (Phương trình 2). Đối với các hệ thống không được giám sát bao gồm tính ngẫu nhiên và tạo ra các đề xuất (Ngẫu nhiên, GRAPHTRAILER), chúng tôi xem xét đoạn giới thiệu đề xuất tốt nhất. Khối thứ hai của Bảng 3 trình bày các phương pháp được giám sát sử dụng nhãn rơ-moóc ồn ào để huấn luyện. Chúng bao gồm CCANet [53], chỉ xem xét thông tin hình ảnh và tính toán mức độ chú ý chéo giữa phim và cảnh quay trong đoạn giới thiệu, và một Transformer vani được đào tạo cho nhiệm vụ nhị phân là xác định xem một cảnh quay có nên có trong đoạn giới thiệu hay không mà không xem xét kịch bản, cảm xúc hoặc TP . GRAPHTRAILER được giám sát bao gồm mạng dựa trên video của chúng tôi được đào tạo trên cùng dữ liệu với Transformer.


GRAPHTRAILER hoạt động tốt nhất trong số các phương pháp không giám sát. Điều thú vị là TEXTRANK tệ hơn ngẫu nhiên, minh họa rằng các nhiệm vụ như tạo đoạn giới thiệu không thể được coi là các vấn đề tóm tắt tiêu chuẩn. GRAPHTRAILER không có TP vẫn hoạt động tốt hơn TEXTRANK và lựa chọn TP ngẫu nhiên.[7] Đối với các phương pháp tiếp cận được giám sát, chúng tôi thấy rằng việc sử dụng tất cả các phương thức có kiến trúc tiêu chuẩn (Transformer) sẽ mang lại hiệu suất tốt hơn so với các mô hình phức tạp sử dụng tính tương tự trực quan (CCANet). Bằng cách thêm thông tin liên quan đến biểu đồ (GRAPHTRAILER được giám sát), chúng tôi có được những cải tiến hơn nữa.


Bảng 5. GRAPHTRAILER với các tiêu chí khác nhau để thực hiện các bước đi ngẫu nhiên trong biểu đồ phim (Thuật toán 1, Phương trình (2)).


Chúng tôi thực hiện hai nghiên cứu cắt bỏ trên bộ phát triển cho GRAPHTRAILER. Nghiên cứu đầu tiên nhằm mục đích đánh giá các chế độ huấn luyện khác nhau của mạng lưới kép ảnh hưởng như thế nào đến hiệu suất tạo xe moóc ở hạ lưu. Chúng tôi quan sát trong Bảng 4 rằng đào tạo không đồng bộ không mang lại bất kỳ cải tiến rõ rệt nào so với mô hình cơ sở. Tuy nhiên, khi chúng tôi cùng đào tạo hai mạng (dựa trên video và kịch bản) bằng cách sử dụng các tổn thất về tính nhất quán trong dự đoán và trình bày, hiệu suất sẽ tăng gần 3%. Một sự gia tăng nhỏ nữa được quan sát thấy khi mạng dựa trên kịch bản được đào tạo trước trên nhiều dữ liệu hơn.


Nghiên cứu cắt bỏ thứ hai liên quan đến các tiêu chí được sử dụng để thực hiện các bước đi ngẫu nhiên trên biểu đồ G. Như được hiển thị trong Bảng 5, khi chúng tôi thực thi các nút trong đường dẫn đã chọn gần với các sự kiện chính (độ tương tự + TP) thì hiệu suất sẽ cải thiện. Khi chúng tôi chỉ dựa vào cảm tính (sự tương đồng + cảm tính), hiệu suất sẽ giảm nhẹ. Điều này cho thấy rằng trái ngược với các phương pháp tiếp cận trước đây chủ yếu tập trung vào sự hấp dẫn bề ngoài về mặt hình ảnh [53, 57] hoặc phân tích cảm xúc nghe nhìn [47], bản thân thông tin cảm tính là không đủ và có thể thúc đẩy các ngoại lệ không phù hợp với đoạn giới thiệu. Mặt khác, khi thông tin tình cảm được kết hợp với kiến thức về cấu trúc tường thuật (sự tương đồng + TP + tình cảm), chúng ta quan sát được độ chính xác cao nhất. Điều này càng xác nhận giả thuyết của chúng tôi rằng hai lý thuyết về việc tạo đoạn giới thiệu (tức là dựa trên cấu trúc tường thuật và cảm xúc) là bổ sung cho nhau và có thể kết hợp được.


Cuối cùng, vì chúng tôi có nhiều đoạn giới thiệu cho mỗi phim (đối với nhóm nhà phát triển), nên chúng tôi có thể đo mức độ trùng lặp giữa các cảnh quay của chúng (Giới hạn trên). Tỷ lệ trùng lặp trung bình là 86,14%, thể hiện sự đồng thuận tốt giữa các nhà sản xuất xe kéo và khoảng cách lớn giữa hiệu suất của con người và các mô hình tự động.


Cuối cùng, vì chúng tôi có nhiều đoạn giới thiệu cho mỗi phim (đối với nhóm nhà phát triển), nên chúng tôi có thể đo mức độ trùng lặp giữa các cảnh quay của chúng (Giới hạn trên). Tỷ lệ trùng lặp trung bình là 86,14%, thể hiện sự đồng thuận tốt giữa các nhà sản xuất xe kéo và khoảng cách lớn giữa hiệu suất của con người và các mô hình tự động.


Bảng 6. Đánh giá của con người trên tập hợp được tổ chức. Tỷ lệ câu trả lời Có cho: Đoạn giới thiệu có chứa đầy đủ thông tin (Q1) và có hấp dẫn không (Q2). Tỷ lệ phần trăm số lần mỗi hệ thống được chọn là Tốt nhất hoặc Tồi tệ nhất và được chuẩn hóa theo thang điểm tốt nhất-tệ nhất.


Đánh giá con người Chúng tôi cũng đã tiến hành nghiên cứu đánh giá con người để đánh giá chất lượng của xe moóc được tạo ra. Để đánh giá con người, chúng tôi đưa Lựa chọn ngẫu nhiên không có TP làm giới hạn dưới, hai mô hình không được giám sát hoạt động tốt nhất (tức là GRAPHTRAILER có và không có TP) và hai mô hình được giám sát: CCANet, là công nghệ tiên tiến trước đây dành cho việc tạo đoạn giới thiệu, và phiên bản được giám sát của mô hình của chúng tôi, đây là mô hình hoạt động tốt nhất theo số liệu tự động.[8] Chúng tôi đã tạo đoạn giới thiệu cho tất cả các phim trong tập hợp sẵn. Sau đó, chúng tôi yêu cầu nhân viên của Amazon Mechanical Turk (AMT) xem tất cả các đoạn giới thiệu của một bộ phim, trả lời các câu hỏi liên quan đến thông tin được cung cấp (Q1) và độ hấp dẫn (Q2) của đoạn giới thiệu, đồng thời chọn ra đoạn giới thiệu hay nhất và tệ nhất. Chúng tôi đã thu thập đánh giá từ năm giám khảo khác nhau cho mỗi bộ phim.


Bảng 6 cho thấy rằng GRAPHTRAILER có TP trung bình cung cấp nhiều đoạn giới thiệu nhiều thông tin (Q1) và hấp dẫn (Q2) hơn tất cả các hệ thống khác. Mặc dù GRAPHTRAILER không có TP và GRAPHTRAILER được giám sát thường được chọn là tốt nhất nhưng chúng cũng thường được chọn là tệ nhất. Khi chúng tôi tính toán điểm chuẩn (z-scores) bằng cách sử dụng tỷ lệ tốt nhất-tệ nhất [31], GRAPHTRAILER có TP đạt được hiệu suất tốt nhất (lưu ý rằng cũng hiếm khi được chọn là tệ nhất), sau đó là GRAPHTRAILER được giám sát. Điều thú vị là, GRAPHTRAILER không có TP thường được chọn là tốt nhất (24,40%), điều này cho thấy rằng cách tiếp cận tổng thể của việc lập mô hình phim dưới dạng biểu đồ và thực hiện các bước đi ngẫu nhiên thay vì chọn từng cảnh quay sẽ giúp tạo ra các đoạn giới thiệu mạch lạc. Tuy nhiên, mẫu xe tương tự cũng thường được chọn là tệ nhất, điều này cho thấy bản thân cách tiếp cận ngây thơ này không thể đảm bảo chất lượng tốt cho xe kéo.


Chúng tôi đưa vào các ví dụ video về các đoạn giới thiệu được tạo dựa trên cách tiếp cận của chúng tôi trong Tài liệu bổ sung. Hơn nữa, chúng tôi cung cấp ví dụ đồ họa từng bước về thuật toán truyền tải đồ thị của chúng tôi trong Phụ lục.


Cảnh báo spoiler! Mô hình của chúng tôi không tránh rõ ràng những phần tiết lộ nội dung trong đoạn giới thiệu được tạo. Chúng tôi đã thử nghiệm tiêu chí liên quan đến phần tiết lộ nội dung khi duyệt qua biểu đồ phim trong Thuật toán 1. Cụ thể, chúng tôi đã thêm một hình phạt khi chọn các cảnh quay nằm trong vùng lân cận biểu đồ “nhạy cảm với phần tiết lộ nội dung”. Chúng tôi đã xác định những vùng lân cận như vậy bằng cách đo đường đi ngắn nhất từ hai TP cuối cùng, theo định nghĩa, đây là những điểm tiết lộ nội dung lớn nhất trong một bộ phim. Tuy nhiên, biến thể thuật toán này của chúng tôi dẫn đến hiệu suất kém hơn và do đó chúng tôi không theo đuổi nó thêm nữa. Chúng tôi tin rằng tiêu chí như vậy không có lợi cho việc đề xuất trình tự đoạn giới thiệu vì nó không khuyến khích người mẫu chọn những cảnh quay thú vị từ những phần mới nhất của bộ phim. Những cảnh quay căng thẳng này rất quan trọng để tạo ra các đoạn giới thiệu thú vị và thực sự được đưa vào các đoạn giới thiệu ngoài đời thực. Hơn một phần ba đoạn giới thiệu chuyên nghiệp trong tập dữ liệu của chúng tôi chứa các cảnh quay từ hai TP cuối cùng (“Thất bại lớn”, “Climax”). Chúng tôi thảo luận thêm về vấn đề này trong Phụ lục.


Chúng tôi cũng đã kiểm tra các đoạn giới thiệu được tạo theo cách thủ công và nhận thấy rằng các phần tiết lộ nội dung không phổ biến lắm (tức là chúng tôi đã xác định được một cảnh quay tiết lộ nội dung chính trong một mẫu ngẫu nhiên gồm 12 đoạn giới thiệu từ bộ thử nghiệm), có thể do xác suất chọn được một phần tiết lộ nội dung chính nhìn chung là thấp. Và ngay cả khi có thêm một cảnh quay nhạy cảm, khi đưa ra khỏi bối cảnh, nó có thể không đủ để tiết lộ cái kết của bộ phim. Tuy nhiên, chúng tôi để công việc này trong tương lai nghiên cứu các kỹ thuật nhận dạng spoiler phức tạp hơn, có thể dễ dàng tích hợp vào thuật toán của chúng tôi làm tiêu chí bổ sung.


Bài viết này có sẵn trên arxiv theo giấy phép CC BY-SA 4.0 DEED.


[7] Hiệu suất trên tập thử nghiệm thấp hơn vì chúng tôi chỉ xem xét nhãn đoạn giới thiệu từ đoạn giới thiệu chính thức, trong khi tập phát triển chứa nhiều đoạn giới thiệu.


[8] Chúng tôi không đưa đoạn giới thiệu chân thực vào đánh giá của con người vì chúng được xử lý hậu kỳ (tức là dựng phim, lồng tiếng, âm nhạc) và do đó không thể so sánh trực tiếp với đoạn giới thiệu tự động.