paint-brush
Tạo đoạn giới thiệu phim thông qua phân tách tác vụ: Thiết lập thử nghiệmtừ tác giả@kinetograph

Tạo đoạn giới thiệu phim thông qua phân tách tác vụ: Thiết lập thử nghiệm

dài quá đọc không nổi

Trong bài báo này, các nhà nghiên cứu mô hình hóa phim dưới dạng biểu đồ để tạo ra các đoạn giới thiệu, xác định cấu trúc tường thuật và dự đoán tình cảm, vượt qua các phương pháp được giám sát.
featured image - Tạo đoạn giới thiệu phim thông qua phân tách tác vụ: Thiết lập thử nghiệm
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

tác giả:

(1) Pinelopi Papalampidi, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;

(2) Frank Keller, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;

(3) Mirella Lapata, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh.

Bảng liên kết

4. Thiết lập thử nghiệm

Bộ dữ liệu Mô hình của chúng tôi được đào tạo trên TRIPODL, một phiên bản mở rộng của bộ dữ liệu TRIPOD [41, 42] chứa 122 kịch bản phim với chú thích TP tiêu chuẩn bạc (cấp độ cảnh)[3] và các video tương ứng.[4] Đối với mỗi bộ phim, chúng tôi còn thu thập thêm nhiều đoạn giới thiệu nhất có thể từ YouTube, bao gồm cả những đoạn giới thiệu chính thức và dành cho người hâm mộ (nghiêm túc) hoặc các đoạn giới thiệu hiện đại cho các bộ phim cũ hơn. Để đánh giá các đoạn giới thiệu do thuật toán của chúng tôi tạo ra, chúng tôi cũng đã thu thập một bộ 41 phim mới được phát hành. Những phim này được chọn từ tập dữ liệu Moviescope[5] [11], chứa các đoạn giới thiệu phim chính thức. Bộ được giữ lại không chứa bất kỳ thông tin bổ sung nào, chẳng hạn như kịch bản phim hoặc chú thích TP. Số liệu thống kê của TRIPODL được trình bày trong Bảng 1.


Xử lý phim và đoạn giới thiệu Cách tiếp cận mô hình hóa được đưa ra trong các phần trước giả định rằng chúng ta biết sự tương ứng giữa các cảnh trong kịch bản và các cảnh quay trong phim. Chúng tôi có được ánh xạ này bằng cách tự động căn chỉnh đoạn hội thoại trong kịch bản phim có phụ đề bằng cách sử dụng Dynamic Time Warping (DTW; [36, 42]). Trước tiên, chúng tôi phân đoạn video thành các cảnh dựa trên ánh xạ này, sau đó phân đoạn từng cảnh thành các cảnh quay bằng PySceneDetect[6]. Các cảnh quay có tổng cộng ít hơn 100 khung hình sẽ quá ngắn để xử lý và hiển thị như một phần của đoạn giới thiệu và do đó sẽ bị loại bỏ.


Hơn nữa, đối với mỗi cảnh quay, chúng tôi trích xuất các đặc điểm hình ảnh và âm thanh. Chúng tôi xem xét ba loại đặc điểm hình ảnh khác nhau:


(1) Chúng tôi lấy mẫu một khung hình chính cho mỗi lần chụp và trích xuất các tính năng bằng cách sử dụng ResNeXt-101 [56] được đào tạo trước để nhận dạng đối tượng trên ImageNet [14]. (2) Chúng tôi lấy mẫu các khung hình với tần số 1 trên 10 khung hình (chúng tôi tăng khoảng thời gian này cho các ảnh có thời lượng lớn hơn do chúng tôi gặp phải vấn đề về bộ nhớ) và trích xuất các tính năng chuyển động bằng cách sử dụng mạng I3D hai luồng được đào tạo trước trên Kinetics [ 10]. (3) Chúng tôi sử dụng Faster-RCNN [18] được triển khai trong Detectron2 [54] để phát hiện các phiên bản người trong mọi khung hình chính và giữ bốn hộp giới hạn trên cùng cho mỗi cảnh quay có độ tin cậy cao nhất cùng với các đại diện khu vực tương ứng. Trước tiên, chúng tôi chiếu tất cả các biểu diễn riêng lẻ vào cùng một chiều thấp hơn và thực hiện chuẩn hóa L2. Tiếp theo, chúng tôi coi biểu diễn ảnh trực quan là tổng của các vectơ riêng lẻ. Đối với phương thức âm thanh, chúng tôi sử dụng YAMNet được đào tạo trước trên kho dữ liệu AudioSet-YouTube [16] để phân loại các phân đoạn âm thanh thành 521 lớp âm thanh (ví dụ: công cụ, âm nhạc, vụ nổ); đối với mỗi phân đoạn âm thanh có trong cảnh, chúng tôi trích xuất các đặc điểm từ lớp áp chót. Cuối cùng, chúng tôi trích xuất các đặc điểm văn bản [42] từ phụ đề và cảnh kịch bản bằng cách sử dụng Bộ mã hóa câu phổ quát (USE; [12]).


Để đánh giá, chúng ta cần biết cảnh quay nào trong phim có xứng đáng với trailer hay không. Chúng tôi thực hiện điều này bằng cách phân đoạn đoạn giới thiệu tương ứng thành các cảnh quay và tính toán mức độ tương tự về mặt hình ảnh của mỗi cảnh quay với tất cả các cảnh quay trong phim. Những cảnh quay có giá trị tương tự cao nhất sẽ nhận được nhãn tích cực (tức là chúng phải có trong đoạn giới thiệu). Tuy nhiên, vì đoạn giới thiệu cũng chứa những cảnh quay không có trong phim (ví dụ: màn hình đen có văn bản hoặc đơn giản là nội dung không có trong phim cuối cùng), chúng tôi cũng đặt một ngưỡng dưới mức mà chúng tôi không ánh xạ cảnh quay đoạn giới thiệu vào phim. cú đánh. Bằng cách này, chúng tôi tạo ra các nhãn nhị phân tiêu chuẩn bạc cho cảnh quay phim.


Nhãn tình cảm Vì TRIPOD không chứa chú thích tình cảm nên thay vào đó, chúng tôi nhận được nhãn tiêu chuẩn bạc thông qua COSMIC [17], một khung hướng dẫn thông thường với hiệu suất tiên tiến để phân loại tình cảm và cảm xúc trong các cuộc hội thoại bằng ngôn ngữ tự nhiên. Cụ thể, chúng tôi đào tạo COSMIC trên MELD [43], chứa các đoạn hội thoại từ các tập của loạt phim truyền hình Friends và phù hợp với miền của chúng tôi hơn các bộ dữ liệu phân loại tình cảm khác (ví dụ: [9, 29]). Sau khi đào tạo, chúng tôi sử dụng COSMIC để tạo dự đoán cảm xúc ở cấp độ câu cho kịch bản TRIPOD. Tình cảm của một cảnh tương ứng với tình cảm đa số trong câu của nó. Chúng tôi chiếu nhãn cảm xúc dựa trên cảnh lên các cảnh quay bằng cách sử dụng cùng một ánh xạ một ngày được sử dụng cho TP.


Bài viết này có sẵn trên arxiv theo giấy phép CC BY-SA 4.0 DEED.


[3] https://github.com/ppapalampidi/TRIPOD


[4] https://datashare.ed.ac.uk/handle/10283/3819


[5] http://www.cs.virginia.edu/ pc9za/research/moviescope.html


[6] https://github.com/Breakthrough/PySceneDetect