paint-brush
Tạo đoạn giới thiệu phim thông qua phân tách nhiệm vụ: Chi tiết triển khaitừ tác giả@kinetograph

Tạo đoạn giới thiệu phim thông qua phân tách nhiệm vụ: Chi tiết triển khai

dài quá đọc không nổi

Trong bài báo này, các nhà nghiên cứu mô hình hóa phim dưới dạng biểu đồ để tạo ra các đoạn giới thiệu, xác định cấu trúc tường thuật và dự đoán tình cảm, vượt qua các phương pháp được giám sát.
featured image - Tạo đoạn giới thiệu phim thông qua phân tách nhiệm vụ: Chi tiết triển khai
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

tác giả:

(1) Pinelopi Papalampidi, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;

(2) Frank Keller, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;

(3) Mirella Lapata, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh.

Bảng liên kết

B. Chi tiết thực hiện

Số liệu đánh giá Công việc trước đây [41] đánh giá hiệu suất của các mô hình nhận dạng TP theo ba số liệu: Thỏa thuận tổng thể (TA), tức là tỷ lệ phần trăm cảnh TP được xác định chính xác, Thỏa thuận một phần (PA), tức là tỷ lệ TP các sự kiện trong đó ít nhất một cảnh tiêu chuẩn vàng được xác định và Khoảng cách (D), tức là khoảng cách tối thiểu về số lượng cảnh giữa nhóm cảnh được dự đoán và tiêu chuẩn vàng cho một TP nhất định, được chuẩn hóa theo độ dài kịch bản. Chúng tôi báo cáo kết quả bằng số liệu thỏa thuận một phần. Chúng tôi không thể sử dụng sự đồng ý hoàn toàn nữa vì chúng tôi đánh giá dựa trên nhãn tiêu chuẩn bạc (chứ không phải vàng) cho các cảnh quay (chứ không phải cảnh) và do đó coi tất cả các cảnh quay trong một cảnh đều quan trọng như nhau. Chúng tôi cũng không sử dụng thước đo khoảng cách vì nó mang lại kết quả rất giống nhau và không giúp phân biệt giữa các biến thể mô hình.


Siêu tham số Tiếp theo công việc trước đó [42], chúng tôi chiếu tất cả các loại tính năng (ví dụ: văn bản, hình ảnh và âm thanh) vào cùng một chiều thấp hơn là 128. Chúng tôi nhận thấy rằng các chiều lớn hơn làm tăng đáng kể số lượng tham số và mang lại kết quả kém hơn có thể do kích thước tập dữ liệu nhỏ.


Chúng tôi bối cảnh hóa các cảnh (liên quan đến kịch bản) và cảnh quay (liên quan đến video) bằng cách sử dụng bộ mã hóa biến áp. Chúng tôi đã thử nghiệm với 2, 3, 4, 5 và 6 lớp trong bộ mã hóa và thu được kết quả tốt nhất với 3 lớp. Đối với kích thước chuyển tiếp nguồn cấp dữ liệu (FF), chúng tôi đã thử nghiệm với cả kích thước tiêu chuẩn là 2.048 và kích thước nhỏ hơn là 1.024 và nhận thấy kích thước trước đây hoạt động tốt hơn. Chúng tôi sử dụng một bộ mã hóa biến áp khác để tính toán cách trình bày cảnh từ một chuỗi các cách trình bày câu đầu vào. Bộ mã hóa này có 4 lớp và 1.024 chiều FF. Cả hai bộ mã hóa đều sử dụng 8 đầu chú ý và 0,3 đầu ra.


Trong quá trình phân tán biểu đồ (tức là lựa chọn các hàng xóm top-k), chúng tôi xem xét các tùy chọn vùng lân cận khác nhau cho các mạng dựa trên cảnh và cảnh quay do độ chi tiết và kích thước khác nhau của chúng. Theo [42], chúng tôi xem xét [1–6] lân cận cho mạng cảnh và chúng tôi tăng kích thước lân cận lên [6–12] cho mạng bắn.



Hình 4. Phân phối các cảnh quay đoạn giới thiệu tương ứng với các phần khác nhau của một bộ phim (bộ phát triển) được xác định bởi TP. Các cảnh quay đoạn giới thiệu đến từ tất cả các phần của phim, thậm chí từ phần cuối, mặc dù phần lớn là từ phần đầu và phần giữa.


Bảng 7. Tỷ lệ phần trăm (%) số đoạn giới thiệu bao gồm ít nhất một cảnh quay được gắn nhãn là một loại TP cụ thể trên tập phát triển. Hai TP đầu tiên (trình bày phần giới thiệu câu chuyện) xuất hiện thường xuyên hơn trong các đoạn giới thiệu, đặc biệt là so với hai TP cuối cùng, vốn thường chứa những nội dung tiết lộ lớn.


Bảng 8. Cường độ cảm xúc tuyệt đối trung bình trên mỗi đoạn giới thiệu, khi chúng tôi chia các đoạn giới thiệu thành ba phần chẵn (bộ phát triển).



Bài viết này có sẵn trên arxiv theo giấy phép CC BY-SA 4.0 DEED.