paint-brush
Lập hồ sơ đa cấp về các mạng sâu dựa trên tình huống và đối thoại: Phương pháp được đề xuấttừ tác giả@kinetograph
125 lượt đọc

Lập hồ sơ đa cấp về các mạng sâu dựa trên tình huống và đối thoại: Phương pháp được đề xuất

dài quá đọc không nổi

Trong bài viết này, các nhà nghiên cứu đề xuất một khung đa phương thức để phân loại thể loại phim, sử dụng các tính năng tình huống, hội thoại và siêu dữ liệu.
featured image - Lập hồ sơ đa cấp về các mạng sâu dựa trên tình huống và đối thoại: Phương pháp được đề xuất
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

tác giả:

(1) Dinesh Kumar Vishwakarma, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ;

(2) Mayank Jindal, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ

(3) Ayush Mittal, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ

(4) Aditya Sharma, Phòng thí nghiệm nghiên cứu sinh trắc học, Khoa Công nghệ thông tin, Đại học Công nghệ Delhi, Delhi, Ấn Độ.

Bảng liên kết

4. Phương pháp đề xuất

4.1. Mô tả

Cốt truyện/mô tả phim là một đặc điểm quan trọng để mô tả một bộ phim. Trong hầu hết các trường hợp, cốt truyện được đề cập cho một bộ phim đang được phát hành quá ngắn hoặc không được đề cập trong một số trường hợp. Xem xét điều này, chúng tôi chọn sử dụng các mô tả được nối với các đoạn hội thoại được trích từ đoạn giới thiệu phim để cuối cùng dự đoán thể loại phim, như được thảo luận chi tiết trong Phần 4.2. Các mô tả được tìm nạp từ trang web IMDB dưới dạng siêu dữ liệu như đã đề cập trong Phần 3.


Hình 1: Đường ống của khung

4.2. Hội thoại

Trong phần này, chúng tôi đề xuất một kiến trúc xử lý danh sách các đoạn hội thoại từ âm thanh của đoạn giới thiệu (nối mô tả/cốt truyện với các đoạn hội thoại) để dự đoán thể loại phim. Các bước quan trọng cho luồng này bao gồm: (1) Trích xuất lời nói (đối thoại) từ đoạn giới thiệu phim và (2) Thiết kế mô hình để dự đoán thể loại trên cơ sở lời nói và siêu dữ liệu.

4.2.1. Xử lý trước dữ liệu

Các tệp âm thanh ở định dạng (.wav) được trích xuất từ đoạn giới thiệu video (.mp4). Tiếp theo, tệp âm thanh được chia thành các đoạn âm thanh nhỏ và chuyển đổi thành các đoạn hội thoại như đề xuất trong [17]. Tất cả văn bản được thu thập để tạo thành một kho văn bản đầu vào. Mô tả/cốt truyện (nếu có trong siêu dữ liệu) cũng được hợp nhất vào kho dữ liệu này. Nghiên cứu của chúng tôi chỉ nhắm mục tiêu đến các đoạn giới thiệu bằng tiếng Anh. Cũng giống như cốt truyện trong phim, lời nói được trích từ đoạn giới thiệu có thể đóng vai trò bổ sung cho kho văn bản của chúng ta, điều này có thể giúp hiểu rõ hơn về mối quan hệ giữa ngữ cảnh văn bản và thể loại của phim. Sau khi tạo kho văn bản bao gồm một bản ghi duy nhất cho mỗi đoạn giới thiệu trong giai đoạn đào tạo/thử nghiệm của chúng tôi, các bước xử lý trước sau đây đã được tiến hành: chuyển đổi tất cả văn bản sang chữ thường, loại bỏ các chữ số, dấu chấm câu, từ dừng và liên kết web. Văn bản thu được ở trên được sử dụng làm đầu vào cho mô hình/mô hình được đào tạo trước để đào tạo/thử nghiệm.


Bảng 2: Các từ viết tắt và ý nghĩa của chúng

4.2.2. Trích xuất tính năng (Đối thoại)


4.2.3. ECnet (Nhúng – Mạng tích hợp)

Để xây dựng kiến trúc phát hiện thể loại dựa trên nhận thức, các tính năng quan trọng của đoạn giới thiệu ở dạng kho văn bản cần phải được mô hình học. Điều này có thể đạt được bằng cách sử dụng kết hợp các lớp Nhúng và CNN (Mạng thần kinh chuyển đổi). Các lớp của mạng phân loại đa nhãn được mô tả trong Bảng 3. Nhúng là một trong những kỹ thuật phổ biến được sử dụng trong các bài toán NLP để chuyển đổi các từ thành biểu diễn toán học dưới dạng vectơ số.


Hình 2: Kiến trúc ECnet


Trước khi thực sự gửi đầu vào đến kiến trúc, từ vựng cần phải được thiết kế và kích thước của kho dữ liệu cho mỗi điểm dữ liệu cần phải được cố định. Một từ vựng có kích thước 10.395 từ được thiết kế và độ dài tối đa của số từ trong mỗi kho ngữ liệu được đặt là độ dài của câu dài nhất trong kho ngữ liệu huấn luyện của chúng tôi, trong trường hợp của chúng tôi là 330. Nếu số lượng từ trong kho văn bản nhỏ hơn độ dài tối đa thì kho văn bản được đệm bằng số 0. Đối với một đoạn giới thiệu phim dài 2-3 phút, 330 từ được coi là đủ vì một số phần của đoạn giới thiệu có thể không có lời nói (có thể chỉ có giọng hát).


Bây giờ đối với mỗi kho dữ liệu trong dữ liệu đầu vào, chúng ta có một đầu vào có hình dạng (330,) (330 là số từ trong mỗi điểm dữ liệu), được đưa đến lớp đầu tiên của kiến trúc của chúng ta như trong Hình 2, tức là , lớp nhúng. Lớp nhúng cung cấp đầu ra có kích thước (330, 64,) vì độ dài nhúng cho mỗi từ được lấy là 64 trong kiến trúc đề xuất của chúng tôi.


Bảng 3: Thông số kiến trúc ECnet


Sau lớp nhúng, lớp tích chập 1-D được cung cấp đầu ra của lớp nhúng. Một lần nữa, lớp tích chập cho hình dạng đầu ra là (330, 64,). Để có được đầu ra giống nhau, chúng tôi áp dụng phần đệm đồng nhất cho đầu vào của lớp chập. Tiếp theo, lớp gộp tối đa được sử dụng để giảm kích thước của dữ liệu từ (330, 64,) xuống (165, 64,). Tiếp theo kiến trúc là một lớp làm phẳng để chuyển đổi dữ liệu hai chiều thành dữ liệu một chiều, để tiếp tục gửi đầu ra đến một lớp dày đặc.


Như được mô tả trong Bảng 3, lớp làm phẳng cho đầu ra có hình dạng (10560,) được đưa đến lớp dày đặc làm đầu vào và tạo ra hình dạng đầu ra là (32,). Cuối cùng, lớp dày đặc cuối cùng được áp dụng cho kiến trúc trả về hình dạng đầu ra của (5) biểu thị năm thể loại của chúng ta. Trong lớp dày đặc cuối cùng của kiến trúc, chúng tôi sử dụng “sigmoid” làm hàm kích hoạt phù hợp nhất cho vấn đề phân loại nhiều nhãn của chúng tôi.

4.3. Tình huống

Phần này bao gồm công việc chúng tôi đề xuất về các tính năng hình ảnh từ đoạn giới thiệu phim. Các bước chính cho luồng này bao gồm: (1) tìm nạp các khung hình video từ đoạn giới thiệu, (2) trích xuất các tình huống từ các khung hình và (3) xây dựng kiến trúc để cuối cùng phân loại đoạn giới thiệu thành các thể loại.


Một mô hình phân tích video dựa trên tình huống mới được đề xuất bằng cách trích xuất các tình huống và sự kiện dựa trên từng khung hình được trích xuất từ video để tìm các đặc điểm hình ảnh. Do đó, một kho văn bản được tạo ra để huấn luyện/kiểm tra mô hình bằng cách tập hợp chúng lại với nhau.


Theo hiểu biết tốt nhất của chúng tôi, chúng tôi đang đề xuất một khuôn khổ mới bằng cách kết hợp phân tích tình huống, sự kiện và đối thoại để phân loại thể loại. Thông tin chi tiết hơn về khung này được mô tả trong các phần dưới đây.

4.3.1. Trích xuất khung hình từ video


Sau nhiều thử nghiệm khác nhau bằng cách sử dụng một số tập hợp con đoạn giới thiệu phim, người ta nhận thấy rằng việc lấy mỗi 10𝑡ℎ khung hình sẽ có lợi để tránh tình trạng dư thừa trong các khung hình (các khung hình liên tiếp từ một video có vẻ giống nhau). Do đó, sau khi loại bỏ các khung dư thừa, các khung hình video cuối cùng được xem xét có thể được biểu thị dưới dạng biểu thức. (9):



Trong các phần tiếp theo, chúng tôi xem xét các khung hình này cho mỗi đoạn giới thiệu.

4.3.2. Trích xuất đặc điểm (Tình huống)


Hình 3: Các tình huống cho các khung trên: (a) các bộ đội hành quân ngoài trời. (b) người phụ nữ bị ma ám với vết máu trên mặt đứng dọc theo thân cây (c) mọi người tổ chức sinh nhật tại một căn phòng. (d) một người đàn ông chạy nước rút ở đường đua



Và xác suất để tình huống S thuộc về ảnh I có thể được ký hiệu như trong biểu thức. (11).




𝛼 biểu thị tham số cho nơron của chúng ta; mạng. Bây giờ, chúng ta có thể xác định các vai trò ngữ nghĩa trong một hình ảnh theo một thứ tự cụ thể. Như vậy hơn nữa, phương trình. (12) được giảm xuống phương trình. (13).



phương trình. (13) có thể được đơn giản hóa hơn nữa như phương trình. (14).



Đối với một hình ảnh/khung hình cụ thể nhất định, tình huống có xác suất giá trị tối đa được xác định trong biểu thức. (14) sẽ được xem xét cho hình ảnh đó.



Bây giờ tác vụ được chuyển đổi thành tác vụ phân loại văn bản mà chúng tôi đề xuất kiến trúc mô hình như được thảo luận trong các phần sắp tới. Trước khi chuyển sang bước tiếp theo, quá trình tiền xử lý văn bản được tiến hành: chuyển đổi tất cả văn bản sang chữ thường, loại bỏ các chữ số, dấu câu và từ dừng, như đã đề cập trong Phần 4.2.1. Các bước tương tự này được thực hiện trong quy trình thử nghiệm để dự đoán thể loại đoạn giới thiệu phim.

4.3.3. TFAnet (Mạng thần kinh nhân tạo tần số kỳ hạn)

Sau khi trích xuất các đặc điểm hình ảnh, cần có một kiến trúc mạnh mẽ để phân loại các thể loại cuối cùng cho đoạn giới thiệu. Mô hình này khác với mô hình chúng tôi đề xuất trong luồng đối thoại. Ở đây, TFAnet (Mạng thần kinh nhân tạo tần số kỳ hạn) được đề xuất bao gồm một mạng sâu gồm các lớp dày đặc và lớp bỏ học như mô tả trong Hình 4.


Trước khi đến với kiến trúc đề xuất, chúng ta sẽ thảo luận về cách biểu diễn văn bản bằng TF-IDF trong [19]. Đối với kiến trúc này, nó được đề xuất sử dụng trong việc đếm từ trong kho văn bản của từng điểm dữ liệu. Do đó, chúng tôi sử dụng số từ trong kho văn bản làm đặc điểm để phân loại thể loại đoạn giới thiệu phim. Để có được một số lượng lớn các từ được đưa vào làm tính năng trong bộ từ vựng của chúng tôi, các đoạn giới thiệu từ nhiều ngày phát hành khác nhau sẽ được sử dụng trong EMTD của chúng tôi để cung cấp cho chúng tôi một kho ngữ liệu khổng lồ trong khi đào tạo mô hình. Một sự kết hợp của unigram, bigram và trigram được sử dụng từ kho văn bản của chúng tôi làm các tính năng và thuật toán TF-IDF (thuật ngữ tần số nghịch đảo tần số tài liệu) biểu thị văn bản của chúng tôi ở dạng số. Tổng số tính năng n-gram được lấy là khoảng 34.684. Giờ đây, các tính năng dựa trên văn bản của chúng tôi được chuyển thành dạng toán học, vì vậy, mạng lưới thần kinh nhân tạo tiếp theo sẽ được đào tạo để phân loại các thể loại của đoạn giới thiệu.


Bảng 4: Thông số của TFAnet


Kiến trúc của TFAnet (Mạng thần kinh nhân tạo tần số thuật ngữ) được mô tả trong Bảng 4. Hình dạng đầu vào, như đã thảo luận ở trên, là (34684,). Đầu vào này được cấp cho một lớp dày đặc, tạo ra đầu ra có hình dạng (64,). Sau đó, một lớp bỏ học được áp dụng để giảm việc trang bị quá mức với tỷ lệ 0,4. Một lần nữa, một lớp dày đặc được áp dụng và chúng ta thu được đầu ra có hình dạng (32,), tiếp theo là lớp bỏ học với tỷ lệ 0,2. Cuối cùng, một lớp dày đặc được áp dụng, tạo ra đầu ra có hình dạng (5,) để cuối cùng dự đoán năm thể loại, với sigmoid là hàm kích hoạt.


Hình 4: Kiến trúc TFAnet


Thuật toán giai đoạn huấn luyện của mô hình MSD được viết dưới dạng Thuật toán 1.


Quá trình của giai đoạn thử nghiệm có thể được hiểu bằng Thuật toán 2.






Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-SA 4.0 DEED.