tác giả:  (1) Pinelopi Papalampidi, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;  (2) Frank Keller, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh;  (3) Mirella Lapata, Viện Ngôn ngữ, Nhận thức và Tính toán, Trường Tin học, Đại học Edinburgh.  Bảng liên kết   Tóm tắt và giới thiệu   Công việc có liên quan   Xây dựng vấn đề   Thiết lập thử nghiệm   Kết quả và phân tích   Kết luận và tài liệu tham khảo   A. Chi tiết mẫu   B. Chi tiết thực hiện   C. Kết quả: Nghiên cứu cắt bỏ  4. Thiết lập thử nghiệm    Mô hình của chúng tôi được đào tạo trên TRIPODL, một phiên bản mở rộng của bộ dữ liệu TRIPOD [41, 42] chứa 122 kịch bản phim với chú thích TP tiêu chuẩn bạc (cấp độ cảnh)[3] và các video tương ứng.[4] Đối với mỗi bộ phim, chúng tôi còn thu thập thêm nhiều đoạn giới thiệu nhất có thể từ YouTube, bao gồm cả những đoạn giới thiệu chính thức và dành cho người hâm mộ (nghiêm túc) hoặc các đoạn giới thiệu hiện đại cho các bộ phim cũ hơn. Để đánh giá các đoạn giới thiệu do thuật toán của chúng tôi tạo ra, chúng tôi cũng đã thu thập một bộ 41 phim mới được phát hành. Những phim này được chọn từ tập dữ liệu Moviescope[5] [11], chứa các đoạn giới thiệu phim chính thức. Bộ được giữ lại không chứa bất kỳ thông tin bổ sung nào, chẳng hạn như kịch bản phim hoặc chú thích TP. Số liệu thống kê của TRIPODL được trình bày trong Bảng 1. Bộ dữ liệu  Xử lý phim và đoạn giới thiệu Cách tiếp cận mô hình hóa được đưa ra trong các phần trước giả định rằng chúng ta biết sự tương ứng giữa các cảnh trong kịch bản và các cảnh quay trong phim. Chúng tôi có được ánh xạ này bằng cách tự động căn chỉnh đoạn hội thoại trong kịch bản phim có phụ đề bằng cách sử dụng Dynamic Time Warping (DTW; [36, 42]). Trước tiên, chúng tôi phân đoạn video thành các cảnh dựa trên ánh xạ này, sau đó phân đoạn từng cảnh thành các cảnh quay bằng PySceneDetect[6]. Các cảnh quay có tổng cộng ít hơn 100 khung hình sẽ quá ngắn để xử lý và hiển thị như một phần của đoạn giới thiệu và do đó sẽ bị loại bỏ.  Hơn nữa, đối với mỗi cảnh quay, chúng tôi trích xuất các đặc điểm hình ảnh và âm thanh. Chúng tôi xem xét ba loại đặc điểm hình ảnh khác nhau:  (1) Chúng tôi lấy mẫu một khung hình chính cho mỗi lần chụp và trích xuất các tính năng bằng cách sử dụng ResNeXt-101 [56] được đào tạo trước để nhận dạng đối tượng trên ImageNet [14]. (2) Chúng tôi lấy mẫu các khung hình với tần số 1 trên 10 khung hình (chúng tôi tăng khoảng thời gian này cho các ảnh có thời lượng lớn hơn do chúng tôi gặp phải vấn đề về bộ nhớ) và trích xuất các tính năng chuyển động bằng cách sử dụng mạng I3D hai luồng được đào tạo trước trên Kinetics [ 10]. (3) Chúng tôi sử dụng Faster-RCNN [18] được triển khai trong Detectron2 [54] để phát hiện các phiên bản người trong mọi khung hình chính và giữ bốn hộp giới hạn trên cùng cho mỗi cảnh quay có độ tin cậy cao nhất cùng với các đại diện khu vực tương ứng. Trước tiên, chúng tôi chiếu tất cả các biểu diễn riêng lẻ vào cùng một chiều thấp hơn và thực hiện chuẩn hóa L2. Tiếp theo, chúng tôi coi biểu diễn ảnh trực quan là tổng của các vectơ riêng lẻ. Đối với phương thức âm thanh, chúng tôi sử dụng YAMNet được đào tạo trước trên kho dữ liệu AudioSet-YouTube [16] để phân loại các phân đoạn âm thanh thành 521 lớp âm thanh (ví dụ: công cụ, âm nhạc, vụ nổ); đối với mỗi phân đoạn âm thanh có trong cảnh, chúng tôi trích xuất các đặc điểm từ lớp áp chót. Cuối cùng, chúng tôi trích xuất các đặc điểm văn bản [42] từ phụ đề và cảnh kịch bản bằng cách sử dụng Bộ mã hóa câu phổ quát (USE; [12]).  Để đánh giá, chúng ta cần biết cảnh quay nào trong phim có xứng đáng với trailer hay không. Chúng tôi thực hiện điều này bằng cách phân đoạn đoạn giới thiệu tương ứng thành các cảnh quay và tính toán mức độ tương tự về mặt hình ảnh của mỗi cảnh quay với tất cả các cảnh quay trong phim. Những cảnh quay có giá trị tương tự cao nhất sẽ nhận được nhãn tích cực (tức là chúng phải có trong đoạn giới thiệu). Tuy nhiên, vì đoạn giới thiệu cũng chứa những cảnh quay không có trong phim (ví dụ: màn hình đen có văn bản hoặc đơn giản là nội dung không có trong phim cuối cùng), chúng tôi cũng đặt một ngưỡng dưới mức mà chúng tôi không ánh xạ cảnh quay đoạn giới thiệu vào phim. cú đánh. Bằng cách này, chúng tôi tạo ra các nhãn nhị phân tiêu chuẩn bạc cho cảnh quay phim.    Vì TRIPOD không chứa chú thích tình cảm nên thay vào đó, chúng tôi nhận được nhãn tiêu chuẩn bạc thông qua COSMIC [17], một khung hướng dẫn thông thường với hiệu suất tiên tiến để phân loại tình cảm và cảm xúc trong các cuộc hội thoại bằng ngôn ngữ tự nhiên. Cụ thể, chúng tôi đào tạo COSMIC trên MELD [43], chứa các đoạn hội thoại từ các tập của loạt phim truyền hình Friends và phù hợp với miền của chúng tôi hơn các bộ dữ liệu phân loại tình cảm khác (ví dụ: [9, 29]). Sau khi đào tạo, chúng tôi sử dụng COSMIC để tạo dự đoán cảm xúc ở cấp độ câu cho kịch bản TRIPOD. Tình cảm của một cảnh tương ứng với tình cảm đa số trong câu của nó. Chúng tôi chiếu nhãn cảm xúc dựa trên cảnh lên các cảnh quay bằng cách sử dụng cùng một ánh xạ một ngày được sử dụng cho TP. Nhãn tình cảm  Bài viết này   theo giấy phép CC BY-SA 4.0 DEED. có sẵn trên arxiv  [3] https://github.com/ppapalampidi/TRIPOD  [4] https://datashare.ed.ac.uk/handle/10283/3819  [5] http://www.cs.virginia.edu/ pc9za/research/moviescope.html  [6] https://github.com/Breakthrough/PySceneDetect

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

Nghe bài viết này bằng Tiếng Anh, đọc bởi robot thông minh của HackerNoon

Tạo đoạn giới thiệu phim thông qua phân tách tác vụ: Thiết lập thử nghiệm

About Author

BÌNH LUẬN

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI

Related Stories

178 Stories To Learn About Essay

147 Stories To Learn About Reading Books Online

85 Stories To Learn About Productivity Hacks

85 Stories To Learn About Travel

178 Stories To Learn About Essay

147 Stories To Learn About Reading Books Online

85 Stories To Learn About Productivity Hacks

85 Stories To Learn About Travel

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps