paint-brush
Phát hiện bạo lực trong video: Kết luận và công việc trong tương laitừ tác giả@kinetograph

Phát hiện bạo lực trong video: Kết luận và công việc trong tương lai

dài quá đọc không nổi

Trong bài báo này, các nhà nghiên cứu đề xuất một hệ thống tự động phát hiện bạo lực trong video, sử dụng tín hiệu âm thanh và hình ảnh để phân loại.
featured image - Phát hiện bạo lực trong video: Kết luận và công việc trong tương lai
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


tác giả:

(1) Praveen Tirupattur, Đại học Trung tâm Florida.

Bảng liên kết

5. Kết luận và công việc trong tương lai

Trong chương này, các kết luận và hướng mở rộng công việc hiện tại sẽ được thảo luận lần lượt ở Phần 5.1 và Phần 5.2.

5.1. Kết luận

Trong công việc này, chúng tôi đã nỗ lực phát triển một hệ thống phát hiện nội dung bạo lực trong video bằng cả tính năng hình ảnh và âm thanh. Mặc dù cách tiếp cận được sử dụng trong công việc này được lấy cảm hứng từ các công trình trước đó trong lĩnh vực này, nhưng sau đây là những khía cạnh độc đáo của nó: (i) Phát hiện các loại bạo lực khác nhau, (ii) việc sử dụng tính năng SentiBank để mô tả nội dung trực quan của một video, (iii) máy dò máu và mẫu máu được phát triển bằng cách sử dụng hình ảnh từ web và (iv) sử dụng thông tin từ codec video để tạo ra các tính năng chuyển động. Dưới đây là tổng quan ngắn gọn về quy trình được sử dụng để phát triển hệ thống này.


Vì bạo lực không phải là một thực thể vật lý nên việc phát hiện bạo lực trong video không phải là một nhiệm vụ tầm thường. Bạo lực là một khái niệm trực quan và để phát hiện ra nó cần phải sử dụng nhiều tính năng. Trong tác phẩm này, các tính năng MFCC được sử dụng để mô tả nội dung âm thanh và các tính năng Máu, Chuyển động và SentiBank được sử dụng để mô tả nội dung hình ảnh. Các trình phân loại SVM được huấn luyện cho từng đặc điểm đã chọn và điểm của từng phân loại được kết hợp theo tổng trọng số để có được điểm phân loại cuối cùng cho từng loại bạo lực. Trọng số cho mỗi lớp được tìm thấy bằng cách sử dụng phương pháp tìm kiếm dạng lưới với tiêu chí tối ưu hóa là EER tối thiểu. Các bộ dữ liệu khác nhau được sử dụng trong công việc này, nhưng bộ dữ liệu quan trọng nhất là bộ dữ liệu VSD, được sử dụng để huấn luyện các bộ phân loại, tính toán trọng số của bộ phân loại và để kiểm tra hệ thống.


Hiệu suất của hệ thống được đánh giá dựa trên hai nhiệm vụ phân loại khác nhau là MultiClass và phân loại nhị phân. Trong nhiệm vụ phân loại Nhiều lớp, hệ thống phải phát hiện loại bạo lực có trong một đoạn video. Đây là một nhiệm vụ khó khăn hơn nhiều so với việc chỉ phát hiện sự hiện diện của bạo lực và hệ thống được trình bày ở đây là một trong những hệ thống đầu tiên giải quyết vấn đề này. Nhiệm vụ phân loại nhị phân là nơi hệ thống chỉ phải phát hiện sự hiện diện của bạo lực mà không cần phải tìm loại bạo lực. Trong nhiệm vụ này, nếu điểm phân loại cuối cùng từ nhiệm vụ phân loại Nhiều lớp cho bất kỳ lớp bạo lực nào lớn hơn 0,5 thì phân đoạn video sẽ được phân loại là “Bạo lực”, còn lại thì phân đoạn đó được phân loại là “Không bạo lực”. Kết quả từ nhiệm vụ phân loại Nhiều lớp còn lâu mới hoàn hảo và vẫn còn chỗ để cải thiện, trong khi đó, kết quả của nhiệm vụ phân loại nhị phân lại tốt hơn kết quả điểm chuẩn hiện tại từ MediaEval-2014. Tuy nhiên, những kết quả này chắc chắn rất đáng khích lệ. Trong Phần 5.2, thảo luận chi tiết về các hướng khả thi mà công việc hiện tại có thể được mở rộng sẽ được trình bày.

5.2. Công việc tương lai

Có nhiều hướng khả thi để mở rộng công việc hiện tại. Một hướng sẽ là cải thiện hiệu suất của hệ thống hiện có. Vì vậy, hiệu suất của các bộ phân loại riêng lẻ phải được cải thiện. Chuyển động và Máu là hai tính năng mà hiệu suất phân loại của nó cần được cải thiện đáng kể. Như đã giải thích trong Phần 4.4, cách tiếp cận được sử dụng để trích xuất các đặc tính chuyển động phải được thay đổi để cải thiện hiệu suất của bộ phân loại chuyển động. Đối với Blood, vấn đề là ở tập dữ liệu được sử dụng để huấn luyện bộ phân loại chứ không phải ở bộ trích xuất đặc trưng. Nên sử dụng một tập dữ liệu thích hợp với số lượng khung hình chứa máu phù hợp để huấn luyện. Thực hiện những cải tiến này phải là bước đầu tiên hướng tới việc xây dựng một hệ thống tốt hơn. Một hướng khác cho công việc trong tương lai là điều chỉnh hệ thống này và phát triển các công cụ khác nhau cho các ứng dụng khác nhau. Ví dụ: (i) có thể phát triển một công cụ có thể trích xuất các đoạn video có nội dung bạo lực từ một video đầu vào nhất định. Điều này có thể hữu ích trong việc gắn thẻ video. (ii) Một công cụ tương tự có thể được phát triển để kiểm soát phụ huynh, trong đó hệ thống có thể được sử dụng để xếp hạng một bộ phim tùy thuộc vào lượng nội dung bạo lực trong đó. Một hướng khả thi khác cho công việc trong tương lai là cải thiện tốc độ của hệ thống để có thể sử dụng nó trong việc phát hiện bạo lực theo thời gian thực từ nguồn cấp dữ liệu video của camera an ninh. Những cải tiến cần thiết để phát triển một hệ thống như vậy sẽ không hề nhỏ.


Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.