tác giả:
(1) Dinesh Kumar Vishwakarma, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ;
(2) Mayank Jindal, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ
(3) Ayush Mittal, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ
(4) Aditya Sharma, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ.
Trong phần này, chúng ta sẽ xem xét các kiến trúc mô hình khác nhau trên các phương thức khác nhau và các mô hình hợp nhất tiền tính năng. Sau đó, chúng tôi xác minh công việc của mình bằng cách xác thực nó trên tập dữ liệu LMTD-9 tiêu chuẩn cũng như trên tập dữ liệu được đề xuất của chúng tôi. Cuối cùng, một nghiên cứu so sánh sẽ được thảo luận để khám phá tính chắc chắn của mô hình của chúng tôi. Tất cả các thử nghiệm được thực hiện trên máy trạm GPU có RAM DDR4 128 GB và cấu hình GPU Nvidia Titan RTX (24 GB).
Để xác minh khung của chúng tôi, chúng tôi sử dụng tập dữ liệu được đề xuất và tập dữ liệu LMTD-9 [2] tiêu chuẩn. Chi tiết đầy đủ được đề cập như sau:
EMTD: Tập dữ liệu được đề xuất của chúng tôi chứa một tập huấn luyện riêng gồm 1700 đoạn giới thiệu duy nhất và một bộ xác thực gồm 300 đoạn giới thiệu duy nhất, tất cả đều được lấy từ IMDB, như đã đề cập trong Phần 3.
LMTD [16], [20] là tập dữ liệu đoạn giới thiệu phim quy mô lớn gồm nhiều nhãn bao gồm liên kết đoạn giới thiệu, siêu dữ liệu đoạn giới thiệu, cốt truyện/tóm tắt, id đoạn giới thiệu duy nhất bao gồm khoảng 9k đoạn giới thiệu phim thuộc 22 nhãn/thể loại riêng biệt. Vì mục đích xác minh, bộ xác thực (phần phụ) của LMTD-9 [2] được sử dụng chỉ bao gồm các đoạn giới thiệu Hollywood được phát hành sau năm 1980 và các đoạn giới thiệu dành riêng cho danh sách thể loại của chúng tôi. Tập dữ liệu chứa các đoạn giới thiệu có độ dài khác nhau với chất lượng video và tỷ lệ khung hình khác nhau.
Trong phần này, chúng tôi sẽ thảo luận về các thử nghiệm của chúng tôi với các biến thể khung khác nhau. Chúng tôi đã thử nghiệm 3 khung khác nhau dựa trên các phương thức riêng biệt và các tính năng được hợp nhất trước.
MS (Phân tích khung hình video): Mô hình xem xét các tính năng duy nhất dựa trên Tình huống từ khung hình video.
MD (Phân tích siêu dữ liệu đối thoại): Mô hình coi các cuộc đối thoại từ âm thanh và mô tả từ siêu dữ liệu là các tính năng.
MSD (Phân tích đa phương thức): Mô hình xem xét các tính năng dựa trên tình huống từ khung hình video, hội thoại từ âm thanh và mô tả từ siêu dữ liệu dưới dạng tính năng.
Kiến trúc được đề xuất trong Phần 4.2.3 với các tính năng tiền hợp nhất được sử dụng cho MSD. Tuy nhiên, kho dữ liệu đầu vào được sửa đổi một chút. Kho dữ liệu được xác định trong Phần 4.4 được sử dụng cho MSD. Điểm chính xác, thu hồi và điểm F1 cho MSD trên LMTD-9 và EMTD được mô tả trong Bảng 5. Tuy nhiên, so sánh AU (PRC) của MSD với MS và MD sẽ được thảo luận trong phần sắp tới.
Có thể thấy một số biến thể trong cách trình diễn của các thể loại khác nhau. Hầu hết các trailer thuộc thể loại chính đều được phân loại chính xác (có điểm F1 từ 0,84 trở lên), điều này cho thấy mô hình đề xuất đang hoạt động tốt. Thể loại hành động là thể loại có thành tích tốt nhất trong số 5 thể loại với điểm F1 lần lượt là 0,88 và 0,89 trên EMTD và LMTD-9. Thể loại lãng mạn được coi là thể loại có thành tích kém nhất trong số tất cả các thể loại xét về điểm F1. Người ta quan sát thấy rằng nhiều đoạn giới thiệu thể loại lãng mạn đang bị phân loại sai thành hài kịch vì cả hai thể loại này đều bị chi phối bởi những từ tương tự như vui vẻ, cười, cười, v.v.
AU (PRC), tức là vùng dưới đường cong thu hồi chính xác, được tính toán để so sánh kết quả phân loại của chúng tôi, vì chúng tôi đang giải quyết vấn đề phân loại nhiều nhãn. Biện pháp AU (PRC) giúp so sánh hiệu suất thực tế của mô hình của chúng tôi, bù đắp hiệu ứng nhiễu do mất cân bằng lớp trong tập dữ liệu nhiều nhãn. Các đường cong AU (PRC) được tạo cho cả 3 mô hình trên cả hai tập dữ liệu như được mô tả trong Hình 5, Hình 6 và Hình 7. Trên bộ xác thực EMTD, chúng tôi nhận thấy các giá trị AU (PRC) gần như tương tự nhau đến 92%, lần lượt là 91%, 88% trên MSD, MD và MS. Tuy nhiên, chúng tôi nhận thấy rằng MSD của chúng tôi đưa ra các giá trị 82% AU (PRC) trên tập dữ liệu LMTD9, lớn hơn hai mô hình còn lại, tức là 72% và 80% AU (PRC) của MD và MS tương ứng như trong Bảng 6.
Tuy nhiên, để so sánh tổng thể với một số mô hình khác mà chúng tôi đã thử nghiệm trong nghiên cứu của mình, chúng tôi đề cập đến kết quả của chúng trong Bảng 6. Để chọn kiến trúc tốt nhất, các mô hình được so sánh theo AU (PRC) trên cả hai bộ dữ liệu xác thực. Việc triển khai Bộ dữ liệu mô hình tính năng EMTD LMTD-9 Đối thoại (MD) E-Bi LSTM 0,87 0,66 ECnet 0,91 0,72 Tình huống (MS) ECnet 0,86 0,75 TFAnet 0,88 0,80 Tính năng hợp nhất (MSD) ECnet 0,92 0,82 tất cả các mô hình được đề cập giúp chúng tôi quyết định mô hình tốt nhất cho các tính năng hợp nhất. Mặc dù MD có giá trị AU (PRC) tương đương với MSD trên EMTD nhưng trên LMTD-9, MSD lại vượt trội hơn MD. Tương tự như trường hợp của MS trên LMTD-9. Mặc dù MSD hoạt động tốt đồng thời trên cả hai tập dữ liệu, nhưng điều này không đúng trong trường hợp riêng lẻ của MS và MD. Vì vậy, bằng cách xác thực dữ liệu chéo, MSD chứng tỏ là một MSD mạnh mẽ hơn. Chúng tôi kết luận rằng MSD được đề xuất là mô hình hoạt động tốt nhất.
Trong phần này, chúng tôi xác thực hiệu suất của mô hình được đề xuất bằng cách thực hiện so sánh hiện đại với các phương pháp trước đây để phân loại thể loại phim bằng cách sử dụng số liệu AU (PRC) cho từng thể loại riêng biệt như được mô tả trong Bảng 7. Tất cả các kết quả được đề cập trong Bảng 7 được hiển thị tối đa hai chữ số thập phân và dựa trên bộ dữ liệu LMTD-9 tiêu chuẩn ngoại trừ Fish et. al. [22], kết quả của họ dựa trên tập dữ liệu MMX trailer-20. Nó không xem xét thể loại lãng mạn trong nghiên cứu của mình. Tuy nhiên, đối với các thể loại khác, sự khác biệt về giá trị AU (PRC) của Fish et. al [22] và MSD là điều đáng chú ý. MSD vượt trội hơn nó trung bình 20%. Phân loại dựa trên đặc điểm hình ảnh cấp thấp [23] dựa trên 24 đặc điểm hình ảnh cấp thấp, SAS-MC-v2 [24] chỉ sử dụng bản tóm tắt để phân loại xe kéo, Fish et. al. [22] và CTT-MMC-TN [25] dựa trên các tính năng cấp cao. So sánh với các phương pháp tiếp cận tính năng cấp thấp [23], [24], MSD trung bình vượt trội hơn 10% và bằng cách so sánh với các phương pháp sử dụng tính năng cấp cao [22], [25], MSD vượt trội trung bình 8% cho từng thể loại. Người ta cũng nhận thấy thể loại hài có thành tích tốt trong hầu hết các tác phẩm so với bốn thể loại còn lại trong khi thể loại khoa học viễn tưởng có giá trị AU (PRC) tương đối thấp hơn. Điều này có thể là do không có sự phân biệt rõ ràng trong thể loại khoa học viễn tưởng, vì các đặc điểm của nó trùng lặp với một số thể loại tương tự khác (như hành động).
Nghiên cứu so sánh chứng minh rằng mô hình đề xuất là mạnh mẽ vì nó vượt trội hơn các phương pháp hiện có và mang lại kết quả xuất sắc. Hiệu suất tốt hơn là do kiến trúc được đề xuất bao gồm cả tính năng nhận thức và tình cảm, giúp mô hình tìm hiểu các đặc điểm cơ bản của từng thể loại, từ đó dự đoán thể loại chính xác hơn.
Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.