paint-brush
Phát hiện bạo lực trong video: Công việc liên quan từ tác giả@kinetograph

Phát hiện bạo lực trong video: Công việc liên quan

dài quá đọc không nổi

Trong bài báo này, các nhà nghiên cứu đề xuất một hệ thống tự động phát hiện bạo lực trong video, sử dụng tín hiệu âm thanh và hình ảnh để phân loại.
featured image - Phát hiện bạo lực trong video: Công việc liên quan
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


tác giả:

(1) Praveen Tirupattur, Đại học Trung tâm Florida.

Bảng liên kết

2. Công việc liên quan

Phát hiện bạo lực là một nhiệm vụ phụ của nhận dạng hoạt động trong đó các hoạt động bạo lực sẽ được phát hiện từ video. Nó cũng có thể được coi là một loại phát hiện sự kiện đa phương tiện. Một số phương pháp đã được đề xuất để giải quyết vấn đề này. Các phương pháp đề xuất này có thể được phân thành ba loại: (i) Các phương pháp chỉ sử dụng các đặc điểm trực quan. (ii) Các phương pháp chỉ sử dụng tính năng âm thanh. (iii) Các phương pháp sử dụng cả tính năng âm thanh và hình ảnh. Danh mục được quan tâm ở đây là danh mục thứ ba, trong đó cả video và âm thanh đều được sử dụng. Chương này cung cấp cái nhìn tổng quan về một số cách tiếp cận trước đây thuộc từng loại này.

2.1. Sử dụng âm thanh và video

Nỗ lực ban đầu nhằm phát hiện bạo lực bằng cả tín hiệu âm thanh và hình ảnh là của Nam và cộng sự. [41]. Trong công việc của họ, cả tính năng âm thanh và hình ảnh đều được khai thác để phát hiện các cảnh bạo lực và tạo chỉ mục để cho phép tìm kiếm video dựa trên nội dung. Ở đây, dấu hiệu hoạt động động theo không gian-thời gian được trích xuất cho mỗi cảnh quay để phân loại cảnh đó là bạo lực hay không bạo lực. Tính năng hoạt động động theo không gian-thời gian này dựa trên lượng chuyển động động có trong ảnh.


Chuyển động không gian giữa các khung hình trong ảnh càng nhiều thì tính năng này càng quan trọng. Lý do đằng sau cách tiếp cận này là hầu hết các cảnh hành động đều liên quan đến chuyển động nhanh chóng và đáng kể của người hoặc đồ vật. Để tính toán đặc điểm hoạt động không gian-thời gian cho một cảnh quay, chuỗi chuyển động từ cảnh quay sẽ được thu thập và được chuẩn hóa theo độ dài của cảnh quay để đảm bảo rằng chỉ những cảnh quay có độ dài ngắn hơn và chuyển động không gian cao giữa các khung hình mới có giá trị cao hơn của tính năng hoạt động.


Ngoài ra, để phát hiện ngọn lửa từ tiếng súng hoặc vụ nổ, sự thay đổi đột ngột về giá trị cường độ của các pixel giữa các khung hình sẽ được kiểm tra. Để loại bỏ các kết quả dương tính giả, chẳng hạn như sự thay đổi cường độ do đèn pin của máy ảnh, một bảng màu được xác định trước có các giá trị màu gần với các màu ngọn lửa như vàng, cam và đỏ sẽ được sử dụng. Tương tự như vậy để phát hiện máu, thường thấy trong hầu hết các cảnh bạo lực, các màu pixel trong một khung hình được khớp với bảng màu được xác định trước có chứa các màu giống máu. Bản thân những đặc điểm hình ảnh này không đủ để phát hiện bạo lực một cách hiệu quả. Do đó, tính năng âm thanh cũng được xem xét.


Sự thay đổi đột ngột về mức năng lượng của tín hiệu âm thanh được sử dụng làm tín hiệu âm thanh. Entropy năng lượng được tính toán cho từng khung hình và sự thay đổi đột ngột về giá trị này được sử dụng để xác định các sự kiện bạo lực như vụ nổ hoặc tiếng súng. Các manh mối âm thanh và hình ảnh được đồng bộ hóa theo thời gian để có được những cảnh quay chứa bạo lực với độ chính xác cao hơn. Một trong những đóng góp chính của bài viết này là nêu bật sự cần thiết của cả tín hiệu âm thanh và hình ảnh để phát hiện bạo lực.


Công và cộng sự. [27] cũng sử dụng cả tín hiệu hình ảnh và âm thanh để phát hiện bạo lực trong phim. Một cách tiếp cận ba giai đoạn để phát hiện bạo lực được mô tả. Ở giai đoạn đầu tiên, các đặc điểm thính giác và thị giác ở mức độ thấp được trích xuất cho mỗi cảnh quay trong video. Các tính năng này được sử dụng để đào tạo bộ phân loại nhằm phát hiện các cảnh quay ứng cử viên có nội dung bạo lực tiềm ẩn. Trong giai đoạn tiếp theo, hiệu ứng âm thanh cấp cao được sử dụng để phát hiện các bức ảnh ứng cử viên. Trong giai đoạn này, để phát hiện các hiệu ứng âm thanh cấp cao, bộ phân loại SVM được huấn luyện cho từng loại hiệu ứng âm thanh bằng cách sử dụng các đặc điểm âm thanh cấp thấp như phổ công suất, cao độ, MFCC (Hệ số Cepstral Mel-Tần số) và độ nổi bật hài hòa (Cai và cộng sự [7]). Đầu ra của mỗi SVM có thể được hiểu là ánh xạ xác suất tới một sigmoid, là giá trị liên tục trong khoảng [0,1] (Platt et al. [46]). Ở giai đoạn cuối, kết quả đầu ra xác suất của hai giai đoạn đầu tiên được kết hợp bằng cách sử dụng tính năng tăng cường và điểm bạo lực cuối cùng cho một cảnh quay được tính bằng tổng trọng số của các điểm từ hai giai đoạn đầu tiên.


Các trọng số này được tính toán bằng cách sử dụng tập dữ liệu xác thực và dự kiến sẽ tối đa hóa độ chính xác trung bình. Công việc của Gong et al. [27] chỉ tập trung vào việc phát hiện bạo lực trong những bộ phim tuân theo các quy tắc làm phim phổ quát. Ví dụ: âm thanh nhịp độ nhanh trong các cảnh hành động. Nội dung bạo lực được xác định bằng cách phát hiện các cảnh có nhịp độ nhanh và sự kiện âm thanh liên quan đến bạo lực như vụ nổ và tiếng súng. Dữ liệu huấn luyện và kiểm tra được sử dụng là từ bộ sưu tập bốn bộ phim hành động của Hollywood có nhiều cảnh bạo lực. Mặc dù cách tiếp cận này mang lại kết quả tốt nhưng cần lưu ý rằng nó chỉ được tối ưu hóa để phát hiện bạo lực trong những bộ phim tuân theo một số quy tắc làm phim và nó sẽ không hoạt động với các video được người dùng tải lên các trang web như Facebook, Youtube. , vân vân.


Trong tác phẩm của Lin và Wang [38], một chuỗi video được chia thành các cảnh quay và đối với mỗi cảnh quay, cả tính năng âm thanh và video trong đó được phân loại là bạo lực hoặc không bạo lực và đầu ra được kết hợp bằng cách sử dụng đồng đào tạo. Thuật toán pLSA đã sửa đổi (Hofmann [30]) được sử dụng để phát hiện bạo lực từ phân đoạn âm thanh. Đoạn âm thanh được chia thành các clip âm thanh, mỗi đoạn một giây và được biểu thị bằng một vectơ đặc trưng chứa các đặc điểm mức thấp như phổ công suất, MFCC, cao độ, tỷ lệ Zero Cross Rate (ZCR) và độ nổi bật hài hòa (Cai et al. [7]) . Các vectơ này được nhóm lại để có được các tâm cụm biểu thị từ vựng âm thanh. Sau đó, mỗi đoạn âm thanh được trình bày bằng cách sử dụng từ vựng này làm tài liệu âm thanh. Thuật toán Tối đa hóa Kỳ vọng (Dempster và cộng sự [20]) được sử dụng để phù hợp với mô hình âm thanh mà sau này được sử dụng để phân loại các phân đoạn âm thanh. Để phát hiện bạo lực trong một đoạn video, ba sự kiện bạo lực trực quan phổ biến: chuyển động, ngọn lửa/vụ nổ và máu được sử dụng. Cường độ chuyển động được sử dụng để phát hiện các khu vực có chuyển động nhanh và trích xuất các đặc điểm chuyển động cho từng khung hình, sau đó được sử dụng để phân loại khung hình là bạo lực hoặc không bạo lực. Mô hình màu sắc và mô hình chuyển động được sử dụng để phát hiện ngọn lửa và vụ nổ trong khung và phân loại chúng. Tương tự, mô hình màu sắc và cường độ chuyển động được sử dụng để phát hiện vùng có máu và nếu nó lớn hơn giá trị được xác định trước cho khung hình thì vùng đó được phân loại là bạo lực. Điểm bạo lực cuối cùng cho phân đoạn video được tính bằng tổng trọng số của ba điểm riêng lẻ được đề cập ở trên. Các tính năng được sử dụng ở đây giống với các tính năng được Nam et al. [41]. Để kết hợp điểm phân loại từ video và luồng âm thanh, phương pháp đồng đào tạo được sử dụng. Để đào tạo và thử nghiệm, một tập dữ liệu bao gồm năm bộ phim Hollywood được sử dụng và độ chính xác khoảng 0,85 và khả năng thu hồi khoảng 0,90 thu được khi phát hiện các cảnh bạo lực. Ngay cả công việc này cũng chỉ nhắm mục tiêu phát hiện bạo lực trong phim chứ không phải trong các video có sẵn trên web. Nhưng kết quả cho thấy các đặc điểm hình ảnh như chuyển động và máu rất quan trọng để phát hiện bạo lực.

2.2. Sử dụng âm thanh hoặc video

Tất cả các phương pháp được đề cập cho đến nay đều sử dụng cả tín hiệu âm thanh và hình ảnh, nhưng có những phương pháp khác sử dụng video hoặc âm thanh để phát hiện bạo lực và một số phương pháp khác chỉ cố gắng phát hiện một loại bạo lực cụ thể, chẳng hạn như đánh nhau bằng nắm đấm. Tổng quan ngắn gọn về các phương pháp này sẽ được trình bày tiếp theo.


Một trong những tác phẩm duy nhất chỉ sử dụng âm thanh để phát hiện ngữ cảnh ngữ nghĩa trong video là của Cheng et al. [11], trong đó cách tiếp cận phân cấp dựa trên mô hình hỗn hợp Gaussian và mô hình Hidden Markov được sử dụng để nhận biết tiếng súng, vụ nổ và phanh xe. Datta và cộng sự. [14] đã cố gắng phát hiện bạo lực giữa người với người trong các video chỉ liên quan đến đánh đấm, đá, đánh bằng đồ vật, v.v., bằng cách phân tích bạo lực ở cấp độ đối tượng thay vì ở cấp độ hiện trường như hầu hết các phương pháp tiếp cận. Ở đây, các đối tượng chuyển động trong một cảnh được phát hiện và mô hình người được sử dụng để chỉ phát hiện các đối tượng đại diện cho con người. Từ đó, quỹ đạo chuyển động và thông tin định hướng của tay chân một người được sử dụng để phát hiện các cuộc đánh nhau giữa người với người.


Clarin và cộng sự. [12] đã phát triển một hệ thống tự động có tên DOVE để phát hiện bạo lực trong phim ảnh. Ở đây, chỉ có máu mới được sử dụng để phát hiện những cảnh bạo lực. Hệ thống trích xuất các khung hình chính từ mỗi cảnh và chuyển chúng đến Bản đồ tự tổ chức đã được huấn luyện để gắn nhãn cho các pixel bằng các nhãn: da, máu hoặc không phải da/không phải máu. Các pixel được gắn nhãn sau đó được nhóm lại với nhau thông qua các thành phần được kết nối và được quan sát để phát hiện hành vi bạo lực có thể xảy ra. Một cảnh được coi là bạo lực nếu có sự thay đổi lớn về vùng pixel với thành phần da và máu. Một công trình khác về phát hiện xung đột là của Nievas et al. [42] trong đó khung Bag-of-Words được sử dụng cùng với các bộ mô tả hành động Điểm quan tâm không gian-thời gian (STIP - Laptev [37]) và biến đổi tính năng bất biến quy mô chuyển động (MoSIFT - Chen và Hauptmann [10]). Các tác giả đã giới thiệu bộ dữ liệu video mới bao gồm 1.000 video, được chia thành hai nhóm đánh nhau và không đánh nhau. Mỗi nhóm có 500 video và mỗi video có thời lượng một giây. Thử nghiệm với tập dữ liệu này đã mang lại độ chính xác 90% trên tập dữ liệu có cảnh đánh nhau trong phim hành động.


Deniz và cộng sự. [21] đã đề xuất một phương pháp mới để phát hiện bạo lực trong video sử dụng các mẫu gia tốc cực cao làm tính năng chính. Phương pháp này nhanh hơn 15 lần so với các hệ thống nhận dạng hành động hiện đại và cũng có độ chính xác rất cao trong việc phát hiện các cảnh có cảnh đánh nhau. Cách tiếp cận này rất hữu ích trong các hệ thống phát hiện bạo lực theo thời gian thực, nơi không chỉ độ chính xác mà còn cả tốc độ. Cách tiếp cận này so sánh phổ công suất của hai khung hình liên tiếp để phát hiện chuyển động đột ngột và tùy thuộc vào lượng chuyển động, cảnh được phân loại là bạo lực hoặc không bạo lực. Phương pháp này không sử dụng tính năng theo dõi để phát hiện chuyển động, giúp nó không bị mờ. Hassner và cộng sự. [28] đã giới thiệu một phương pháp phát hiện bạo lực theo thời gian thực ở những cảnh đông người. Phương pháp này xem xét sự thay đổi độ lớn của vectơ dòng chảy theo thời gian. Những thay đổi này đối với chuỗi khung ngắn được gọi là bộ mô tả Luồng bạo lực (ViF). Sau đó, những bộ mô tả này được sử dụng để phân loại các cảnh bạo lực và không bạo lực bằng Máy vectơ hỗ trợ tuyến tính (SVM). Vì phương pháp này chỉ sử dụng thông tin luồng giữa các khung hình và bỏ qua phân tích hình dạng và chuyển động ở mức độ cao nên nó có khả năng hoạt động trong thời gian thực. Đối với công việc này, các tác giả đã tạo tập dữ liệu của riêng họ bằng cách tải xuống các video chứa hành vi bạo lực của đám đông từ Youtube.


Tất cả các công trình này sử dụng các phương pháp tiếp cận khác nhau để phát hiện bạo lực từ video và tất cả đều sử dụng bộ dữ liệu riêng để đào tạo và thử nghiệm. Tất cả họ đều có định nghĩa riêng về bạo lực. Điều này chứng tỏ một vấn đề lớn trong việc phát hiện bạo lực, đó là thiếu các bộ dữ liệu cơ sở độc lập và một định nghĩa chung về bạo lực, nếu không có những định nghĩa đó thì việc so sánh giữa các phương pháp tiếp cận khác nhau sẽ vô nghĩa.


Để giải quyết vấn đề này, Demarty et al. [16] đã trình bày một chuẩn mực để tự động phát hiện các phân đoạn bạo lực trong phim như một phần của sáng kiến đo chuẩn đa phương tiện MediaEval-2011 [1]. Tiêu chuẩn này rất hữu ích vì nó cung cấp một tập dữ liệu nhất quán và đáng kể với định nghĩa chung về bạo lực cũng như các quy trình và thước đo đánh giá. Chi tiết về tập dữ liệu được cung cấp sẽ được thảo luận chi tiết trong Phần 4.1. Các công trình gần đây về nhận dạng bạo lực trong video đã sử dụng tập dữ liệu này và thông tin chi tiết về một số dữ liệu đó sẽ được cung cấp tiếp theo.

2.3. Sử dụng MediaEval VSD

Acar và cộng sự. [1] đề xuất một phương pháp kết hợp các tính năng hình ảnh và âm thanh một cách có giám sát bằng cách sử dụng SVM một lớp và hai lớp để phát hiện bạo lực trong phim. Các tính năng hình ảnh và âm thanh cấp thấp được trích xuất từ các cảnh quay video của phim và sau đó được kết hợp theo cách tổng hợp sớm để huấn luyện SVM. Các tính năng MFCC được trích xuất để mô tả nội dung âm thanh và phương pháp tiếp cận Bag-of-Words dựa trên SIFT (Biến đổi tính năng bất biến tỷ lệ - Lowe [39]) được sử dụng cho nội dung hình ảnh.


Giang và cộng sự. [33] đã đề xuất một phương pháp phát hiện bạo lực dựa trên một tập hợp các đặc điểm xuất phát từ sự xuất hiện và chuyển động của các quỹ đạo vá cục bộ (Jiang và cộng sự [34]). Cùng với các quỹ đạo vá này, các tính năng khác như tính năng SIFT, STIP và MFCC được trích xuất và được sử dụng để huấn luyện bộ phân loại SVM nhằm phát hiện các loại bạo lực khác nhau. Làm mịn điểm và tính năng được thực hiện để tăng độ chính xác.


Lâm và cộng sự. [36] đã đánh giá hiệu suất của các tính năng âm thanh/hình ảnh ở mức độ thấp cho nhiệm vụ phát hiện cảnh bạo lực bằng cách sử dụng bộ dữ liệu và giao thức đánh giá do MediaEval cung cấp. Trong công việc này, cả tính năng hình ảnh cục bộ và tổng thể đều được sử dụng cùng với tính năng chuyển động và âm thanh MFCC. Tất cả các tính năng này được trích xuất cho từng khung hình chính trong một ảnh và được gộp lại để tạo thành một vectơ đặc trưng duy nhất cho ảnh đó. Trình phân loại SVM được đào tạo để phân loại các cảnh quay là bạo lực hoặc không bạo lực dựa trên vectơ đặc trưng này. Eyben và cộng sự. [23] đã áp dụng trích xuất đặc điểm phân đoạn quy mô lớn cùng với phân loại nghe nhìn để phát hiện bạo lực. Việc trích xuất tính năng âm thanh được thực hiện bằng bộ công cụ trích xuất tính năng nguồn mở openSmile(Eyben và Schuller [22]). Các tính năng hình ảnh cấp thấp như biểu đồ Giá trị bão hòa màu (HSV), phân tích luồng quang và phát hiện cạnh Laplacian được tính toán và sử dụng để phát hiện bạo lực. Bộ phân loại SVM tuyến tính được sử dụng để phân loại và điểm trung bình đơn giản được sử dụng để hợp nhất.

2.4. Bản tóm tắt

Tóm lại, hầu hết tất cả các phương pháp được mô tả ở trên đều cố gắng phát hiện bạo lực trong phim bằng cách sử dụng các đặc điểm âm thanh và hình ảnh khác nhau với kỳ vọng chỉ là một vài [Nievas et al. [42], Hassner và cộng sự. [28]], sử dụng dữ liệu video từ camera giám sát hoặc từ các hệ thống video thời gian thực khác. Cũng có thể nhận thấy rằng không phải tất cả các tác phẩm này đều sử dụng cùng một bộ dữ liệu và mỗi tác phẩm đều có định nghĩa riêng về bạo lực. Sự ra đời của bộ dữ liệu MediaEval cho Phát hiện cảnh bạo lực (VSD) vào năm 2011 đã giải quyết được vấn đề này. Phiên bản gần đây của tập dữ liệu, VSD2014 cũng bao gồm nội dung video từ Youtube ngoài các bộ phim Hollywood và khuyến khích các nhà nghiên cứu thử nghiệm phương pháp tiếp cận của họ đối với nội dung video do người dùng tạo.

2.5. Đóng góp

Phương pháp đề xuất được trình bày trong Chương 3 được lấy cảm hứng từ các nghiên cứu trước đó về phát hiện bạo lực, được thảo luận trong Chương 2. Trong phương pháp đề xuất, cả tín hiệu âm thanh và hình ảnh đều được sử dụng để phát hiện bạo lực. Các tính năng MFCC được sử dụng để mô tả nội dung âm thanh và các tính năng máu, chuyển động và SentiBank được sử dụng để mô tả nội dung video. Các bộ phân loại SVM được sử dụng để phân loại từng đặc điểm này và việc kết hợp muộn được áp dụng để hợp nhất các điểm của bộ phân loại.


Mặc dù cách tiếp cận này dựa trên các nghiên cứu trước đây về phát hiện bạo lực nhưng những đóng góp quan trọng của nó là: (i) Phát hiện các loại bạo lực khác nhau. Các công trình trước đó về phát hiện bạo lực chỉ tập trung vào việc phát hiện sự hiện diện của bạo lực trong video. Cách tiếp cận được đề xuất này là một trong những cách đầu tiên để giải quyết vấn đề này. (ii) Sử dụng tính năng SentiBank để mô tả nội dung trực quan của video. SentiBank là một tính năng trực quan được sử dụng để mô tả cảm xúc trong một hình ảnh. Tính năng này trước đây được sử dụng để phát hiện nội dung người lớn trong video (Schulze và cộng sự [52]). Trong tác phẩm này, lần đầu tiên nó được sử dụng để phát hiện nội dung bạo lực. (iii) Sử dụng mô hình màu 3 chiều, được tạo bằng hình ảnh từ web, để phát hiện các pixel tượng trưng cho máu. Mô hình màu này rất chắc chắn và cho kết quả rất tốt trong việc phát hiện máu. (iv) Sử dụng thông tin được nhúng trong codec video để tạo ra các đặc điểm chuyển động. Cách tiếp cận này rất nhanh khi so sánh với các cách khác, vì các vectơ chuyển động cho mỗi pixel được tính toán trước và lưu trữ trong codec video. Giải thích chi tiết về phương pháp đề xuất này được trình bày trong chương tiếp theo, Chương 3.



Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.


[1] http://www.multimediaeval.org