paint-brush
Tạo đoạn giới thiệu phim thông qua phân tách nhiệm vụ: Xây dựng vấn đềtừ tác giả@kinetograph

Tạo đoạn giới thiệu phim thông qua phân tách nhiệm vụ: Xây dựng vấn đề

dài quá đọc không nổi

Trong bài báo này, các nhà nghiên cứu mô hình hóa phim dưới dạng biểu đồ để tạo ra các đoạn giới thiệu, xác định cấu trúc tường thuật và dự đoán tình cảm, vượt qua các phương pháp được giám sát.
featured image - Tạo đoạn giới thiệu phim thông qua phân tách nhiệm vụ: Xây dựng vấn đề
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

tác giả:

(1) Pinelopi Papalampidi, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;

(2) Frank Keller, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;

(3) Mirella Lapata, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh.

Bảng liên kết

3. Xây dựng vấn đề

Việc tạo đoạn giới thiệu yêu cầu lựa chọn các cảnh quay L từ một bộ phim có thời lượng đầy đủ gồm các cảnh quay M (LM). Phim trình bày những câu chuyện phức tạp có thể chứa các tình tiết phụ hoặc sự kiện riêng biệt diễn ra phi tuyến tính, trong khi các sự kiện dư thừa, được gọi là “sự bổ sung” làm phong phú thêm câu chuyện chính. Do đó, chúng ta không thể cho rằng các cú đánh liên tiếp nhất thiết phải có liên quan về mặt ngữ nghĩa. Để khám phá tốt hơn mối quan hệ giữa các sự kiện, chúng tôi biểu diễn phim dưới dạng đồ thị [42]. Đặt G = (V, E) biểu thị một đồ thị trong đó các đỉnh V là các ảnh và các cạnh E biểu thị sự giống nhau về ngữ nghĩa của chúng. Chúng tôi xem xét thêm thứ tự thời gian ban đầu của các cảnh quay trong G bằng cách chỉ cho phép các cạnh được định hướng từ các cảnh quay trước đó đến các cảnh quay trong tương lai. G được mô tả bằng ma trận chuyển tiếp tam giác trên T , ma trận này ghi lại xác suất chuyển từ cảnh quay i sang mọi cảnh quay j trong tương lai.


Trong G, chúng tôi giả định rằng một số cảnh quay mô tả các sự kiện quan trọng trong phim (vòng tròn dày trong Hình 2) trong khi tất cả các cảnh quay đều mang cảm xúc (tích cực hoặc tiêu cực), có cường độ được biểu thị bằng điểm (sắc thái xanh lục/đỏ trong Hình 2) . Chúng tôi đề xuất một thuật toán duyệt G và chọn chuỗi các cảnh quay trailer. Trong phần sau đây, trước tiên chúng tôi mô tả thuật toán này (Phần 3.1) và sau đó thảo luận cách học đồ thị G và các sự kiện chính được phát hiện thông qua nhận dạng TP [41] (Phần 3.2). Cuối cùng, chúng tôi cũng giải thích cách dự đoán điểm cảm tính dựa trên cú sút (Phần 3.5).

3.1. Truyền tải đồ thị phim




Chúng tôi chọn tổng cộng L cảnh quay (tùy thuộc vào độ dài đoạn giới thiệu mục tiêu) và truy xuất chuỗi đoạn giới thiệu đề xuất như được mô tả trong Hình 2 (dòng đậm). Ở mỗi bước, chúng tôi theo dõi luồng cảm tính được tạo và các TP được xác định cho đến nay (lần lượt là dòng 10 và 13–14 trong Thuật toán 1). Một sự kiện TP đã được chọn để trình chiếu trong đoạn giới thiệu nếu một cảnh quay hoặc các cảnh quay lân cận của nó đã được thêm vào đường dẫn.

3.2. Nhận dạng TP





Mô hình dựa trên video giả định quyền truy cập vào nhãn TP ở cấp độ cảnh quay. Tuy nhiên, tập dữ liệu duy nhất để nhận dạng TP mà chúng tôi biết là TRIPOD [41], chứa các nhãn cấp cảnh dựa trên kịch bản phim. Để có được các nhãn chi tiết hơn, chúng tôi chiếu các chú thích dựa trên cảnh vào các ảnh theo ánh xạ một-nhiều đơn giản (xem Phần 4 để biết chi tiết). Vì tín hiệu huấn luyện của chúng tôi không thể tránh khỏi bị nhiễu nên chúng tôi đưa ra giả thuyết rằng việc truy cập vào các kịch bản phim sẽ khuyến khích mô hình dựa trên video chọn các cảnh quay mang tính đại diện hơn cho mỗi TP. Nói cách khác, kịch bản phim thể hiện kiến thức đặc quyền và tín hiệu giám sát tiềm ẩn, đồng thời giảm bớt nhu cầu xử lý trước bổ sung trong quá trình suy luận. Hơn nữa, kịch bản phim cung cấp rất nhiều thông tin bổ sung, ví dụ như về các nhân vật và vai trò của họ trong một cảnh, hoặc hành động và cảm xúc của họ (được truyền tải bằng những dòng mô tả những gì máy quay nhìn thấy). Thông tin này có thể khó bản địa hóa chính xác trong video. Ngoài ra, tập hợp văn bản không gắn nhãn của kịch bản phim tương đối dễ lấy và có thể được sử dụng để đào tạo trước mạng của chúng tôi.


Hình 2. GRAPHTRAILER: phim là một biểu đồ có các nút là các cảnh quay và các cạnh biểu thị mối quan hệ giữa chúng. Mỗi cảnh quay được đặc trưng bởi điểm cảm xúc (các sắc thái xanh/đỏ cho giá trị dương/âm) và nhãn mô tả các sự kiện quan trọng (vòng tròn dày). Thuật toán của chúng tôi thực hiện các bước đi trong biểu đồ (đường in đậm) để tạo chuỗi đoạn giới thiệu đề xuất.

3.3. Chắt lọc kiến thức

Bây giờ, chúng tôi mô tả chế độ đào tạo chung của mình cho hai mạng gói gọn các chế độ xem khác nhau của phim về luồng dữ liệu (đa phương thức so với chỉ văn bản) và phân đoạn chúng thành các đơn vị ngữ nghĩa (cảnh quay so với cảnh).



Hình 3. Hai mạng xử lý các chế độ xem phim khác nhau với mức độ chi tiết khác nhau. Mạng dựa trên video lấy các biểu diễn cảnh quay chi tiết đa phương thức đầu vào dựa trên luồng video của phim. Mạng dựa trên kịch bản phim xử lý các biểu diễn cảnh bằng văn bản ở mức độ thô và dựa trên kịch bản của phim. Các mạng được đào tạo chung về nhận dạng TP với tổn thất thực thi dự đoán và tính nhất quán trong biểu diễn giữa chúng.


Mất tính nhất quán của biểu diễn Chúng tôi đề xuất sử dụng mất mát chính quy hóa thứ hai giữa hai mạng để cũng thực thi tính nhất quán giữa hai biểu diễn dựa trên biểu đồ (tức là qua các cảnh quay video và cảnh kịch bản). Mục đích của sự mất mát này gồm hai phần: để cải thiện dự đoán TP cho hai mạng, như đã trình bày trong nghiên cứu trước đây về học biểu diễn tương phản [38, 39, 48] và cũng để giúp tìm hiểu các kết nối chính xác hơn giữa các lần bắn (hãy nhớ lại rằng cú đánh- biểu đồ dựa trên đóng vai trò là đầu vào cho thuật toán tạo đoạn giới thiệu của chúng tôi; Phần 3.1). So với các cảnh kịch bản mô tả các sự kiện khép kín trong phim, các cảnh quay video chỉ dài vài giây và dựa vào bối cảnh xung quanh để hiểu ý nghĩa của chúng. Chúng tôi đưa ra giả thuyết rằng bằng cách áp đặt vùng lân cận biểu đồ cho một cảnh quay để duy trì ngữ nghĩa tương tự như cảnh kịch bản tương ứng, chúng tôi sẽ khuyến khích việc lựa chọn các vùng lân cận thích hợp trong biểu đồ dựa trên cảnh quay.



3.4. Tự giám sát đào tạo trước

Quá trình đào tạo trước nhằm mục đích tìm hiểu cách trình bày cảnh tốt hơn từ các kịch bản phim dễ tiếp cận hơn so với video phim (ví dụ: ít vấn đề về bản quyền hơn và ít chi phí tính toán hơn) với hy vọng rằng kiến thức này sẽ được chuyển sang mạng dựa trên video thông qua việc mất tính nhất quán của chúng tôi.


3.5. Dự đoán tình cảm

Cuối cùng, mô hình của chúng tôi tính đến cách cảm xúc chuyển từ cảnh này sang cảnh khác. Chúng tôi dự đoán điểm số cảm tính trên mỗi cảnh quay có cùng kiến trúc chung (Phần 3.3) và chế độ huấn luyện mà chúng tôi sử dụng để xác định TP. Mạng dựa trên video được đào tạo về các cảnh quay có nhãn tình cảm (tức là tích cực, tiêu cực, trung tính), trong khi mạng dựa trên kịch bản phim được đào tạo về các cảnh có nhãn tình cảm (Phần 4 giải thích cách lấy nhãn). Sau khi huấn luyện, chúng tôi dự đoán mức phân bổ xác suất trên các nhãn cảm xúc trên mỗi cảnh quay để nắm bắt luồng cảm xúc và phân biệt giữa các cảnh quay cường độ cao và cường độ thấp (xem Phụ lục để biết chi tiết).



Bài viết này có sẵn trên arxiv theo giấy phép CC BY-SA 4.0 DEED.