tác giả:
(1) Dinesh Kumar Vishwakarma, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ;
(2) Mayank Jindal, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ
(3) Ayush Mittal, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ
(4) Aditya Sharma, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ.
Phần này thảo luận về các phương pháp phân loại thể loại phim trước đây và động lực đằng sau nghiên cứu của chúng tôi. Nội dung video chủ yếu được phân chia thành (1) Khung hình video (Hình ảnh) và (2) Âm thanh (Lời nói {đối thoại} + Không có lời nói {giọng hát}). Để phân tích nội dung video, nhiều nghiên cứu khác nhau đã được thực hiện trước đây, chủ yếu tập trung vào các cấp độ nhận thức [3]–[7] hoặc tình cảm [8] riêng lẻ. Để nghiên cứu hiệu quả hơn, cả hai cấp độ cần được tính đến để thực hiện tốt hơn nhiệm vụ phân loại thể loại.
Trong các nghiên cứu trước đây, nhiều phương pháp tiếp cận dựa trên nhận thức đã được đề xuất dựa trên các đặc điểm cấp thấp, bao gồm nhiễu loạn thị giác, thời lượng quay trung bình, thay đổi dần dần cường độ ánh sáng trong khung hình video và các đỉnh ở dạng sóng âm thanh [3], để ghi lại các thành phần cảnh [4]. Các đặc điểm khác được sử dụng để phân loại nhận thức bao gồm màu RGB trong khung hình [6], ảnh chụp phim [7], thời lượng cảnh quay [9], loại nền trong cảnh (tối/không tối) [6], v.v. Tương tự, một số cách tiếp cận là đề xuất chỉ để phân tích tình cảm [8].
Một bộ phim có thể có nhiều thể loại mô tả nhiều thông tin cho người xem, do đó cũng đóng vai trò giới thiệu phim cho người xem. Jain và cộng sự. [5] đã sử dụng 4 tính năng video (thời lượng cảnh quay, chuyển động, ưu thế màu sắc, phím ánh sáng) và 5 tính năng âm thanh để phân loại các đoạn phim chỉ sử dụng 200 mẫu đào tạo. Họ sử dụng các đoạn phim hoàn chỉnh để dự đoán thể loại. Tuy nhiên, nghiên cứu chỉ sử dụng 200 mẫu huấn luyện để huấn luyện mô hình của họ. Theo đó, độ chính xác mà họ báo cáo có thể là do quá khớp. Ngoài ra, nghiên cứu chỉ tập trung vào phân loại nhãn đơn. Hoàng và cộng sự. [4] đã đề xuất thuật toán Tìm kiếm hài hòa tự thích ứng với 7 SVM xếp chồng sử dụng cả tính năng âm thanh và hình ảnh (tổng cộng khoảng 277 tính năng) trên tập dữ liệu có kích thước 223. Ertugrul và cộng sự. [10] đã sử dụng các tính năng cấp thấp, bao gồm cả cốt truyện của phim, bằng cách chia cốt truyện thành các câu và phân loại các câu thành các thể loại và lấy thể loại cuối cùng làm thể loại có mức độ xuất hiện tối đa. Pais và cộng sự. [11] đề xuất kết hợp các đặc điểm hình ảnh-văn bản bằng cách dựa vào một số từ quan trọng trong bản tóm tắt tổng thể và thực hiện phân loại thể loại phim dựa trên các đặc điểm đó. Mô hình đã được thử nghiệm trên bộ 107 đoạn giới thiệu phim. Shahin và cộng sự. [12] đã sử dụng cốt truyện và trích dẫn phim cũng như đề xuất mạng lưới chú ý Phân cấp để phân loại thể loại. Tương tự, Kumar và cộng sự. [13] đề xuất sử dụng cốt truyện phim để phân loại thể loại bằng cách sử dụng vectơ băm bằng cách tập trung vào việc giảm độ phức tạp về thời gian tổng thể. Các nghiên cứu nêu trên dựa vào các đặc điểm cấp thấp và không nắm bắt được bất kỳ đặc điểm cấp cao nào từ các đoạn giới thiệu phim, do đó không thể dựa vào đó để có một hệ thống nhận dạng cấp độ tốt.
Từ những nghiên cứu gần đây hơn, nhiều nhà nghiên cứu đã sử dụng mạng sâu cho nhiệm vụ phân loại thể loại phim. Shambharkar và cộng sự. [14] đã đề xuất một nhãn kiến trúc dựa trên CNN 3D duy nhất để nắm bắt các đặc điểm không gian và thời gian. Mặc dù các đặc điểm về không gian và thời gian được ghi lại trong mô hình này nhưng mô hình này không mạnh mẽ do phân loại một nhãn. Một số nhà nghiên cứu đã nghiên cứu áp phích phim để phân loại thể loại phim. Chu và cộng sự. [15] đã xây dựng một mạng lưới thần kinh sâu để tạo điều kiện thuận lợi cho việc phát hiện đối tượng và xuất hiện trực quan. Mặc dù tác phẩm thu thập được rất nhiều thông tin từ áp phích nhưng bản thân áp phích vẫn chưa đủ để mô tả trọn vẹn một bộ phim. Simoes và cộng sự. [16] đã đề xuất CNN-Motion bao gồm biểu đồ cảnh được cung cấp bởi thuật toán phân cụm không giám sát, dự đoán thể loại có trọng số cho mỗi đoạn giới thiệu, cùng với một số tính năng video cấp thấp. Điều này cung cấp một nhóm tính năng chính của video nhưng thiếu một số tính năng dựa trên cảm xúc và nhận thức để phân loại thể loại.
Vì vậy, từ các tài liệu trước đây, rõ ràng là những thông tin chính cần được trích xuất từ các đoạn giới thiệu video để nghiên cứu về nhận thức cũng như tình cảm. Vì vậy, động lực của chúng tôi đằng sau công việc này là thiết kế một cách tiếp cận dựa trên cả hai cấp độ phân tích nội dung video như trong [1]. Chúng tôi tin rằng kiến trúc và mô hình được đề xuất là mới lạ, mạnh mẽ và có thể được sử dụng trong tương lai cho các quan điểm nghiên cứu khác nhau.
Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.