Phát hiện bạo lực trong video: Thử nghiệm và kết quả

tác giả: (1) Praveen Tirupattur, Đại học Trung tâm Florida. Bảng liên kết trừu tượng Sự nhìn nhận Chương 1: Giới thiệu Chương 2: Công việc liên quan Chương 3: Phương pháp đề xuất Chương 4: Thí nghiệm và kết quả Chương 5: Kết luận và công việc trong tương lai Thư mục 4. Thí nghiệm và kết quả Trong chương này, chi tiết về các thử nghiệm được tiến hành để đánh giá hiệu suất của hệ thống trong việc phát hiện nội dung bạo lực trong video được trình bày. Phần đầu tiên đề cập đến các bộ dữ liệu được sử dụng cho công việc này, phần tiếp theo mô tả cách thiết lập thử nghiệm và cuối cùng trong phần cuối cùng sẽ trình bày kết quả của các thử nghiệm đã thực hiện. 4.1. Bộ dữ liệu Trong công việc này, dữ liệu từ nhiều nguồn đã được sử dụng để trích xuất các đặc điểm âm thanh và hình ảnh, huấn luyện các bộ phân loại và kiểm tra hiệu suất của hệ thống. Hai bộ dữ liệu chính được sử dụng ở đây là Bộ dữ liệu cảnh bạo lực (VSD) và bộ dữ liệu Trận đấu khúc côn cầu. Ngoài hai bộ dữ liệu này, hình ảnh từ các trang web như Google Images[1] cũng được sử dụng. Mỗi bộ dữ liệu này và việc sử dụng chúng trong công việc này được mô tả chi tiết trong các phần sau. 4.1.1. Bộ dữ liệu cảnh bạo lực Bộ dữ liệu cảnh bạo lực (VSD) là tập dữ liệu có chú thích để phát hiện cảnh bạo lực trong các bộ phim và video Hollywood từ web. Đây là tập dữ liệu có sẵn công khai được thiết kế đặc biệt để phát triển các kỹ thuật phát hiện dựa trên nội dung nhắm mục tiêu bạo lực thể chất trong phim và video từ các trang web như YouTube[2]. Bộ dữ liệu VSD ban đầu được giới thiệu bởi Demarty et al. [15] trong khuôn khổ sáng kiến điểm chuẩn MediaEval, đóng vai trò là khung xác thực cho tập dữ liệu và thiết lập cơ sở hiện đại cho nhiệm vụ phát hiện bạo lực. Phiên bản mới nhất của bộ dữ liệu VSD2014 là phần mở rộng đáng kể của các phiên bản trước đó (Demarty et al. [19], Demarty et al. [18] và Demarty et al. [17]) về một số khía cạnh. Đầu tiên, để chú thích phim và video do người dùng tạo, định nghĩa bạo lực gần với kịch bản thực tế hơn được nhắm mục tiêu sẽ được sử dụng bằng cách tập trung vào bạo lực thể xác mà một đứa trẻ 8 tuổi không được xem. Thứ hai, tập dữ liệu có một bộ đáng kể gồm 31 bộ phim Hollywood. Thứ ba, VSD2014 bao gồm 86 video clip trên web và siêu dữ liệu của chúng được lấy từ YouTube để phục vụ cho việc kiểm tra khả năng khái quát hóa của hệ thống được phát triển để phát hiện bạo lực. Thứ tư, nó bao gồm các bộ mô tả nội dung nghe nhìn hiện đại. Tập dữ liệu này cung cấp chú thích về các cảnh bạo lực và các khái niệm liên quan đến bạo lực cho bộ sưu tập (i) phim Hollywood và (ii) video do người dùng tạo được chia sẻ trên web. Ngoài các chú thích, các tính năng âm thanh và hình ảnh được tính toán trước cũng như nhiều siêu dữ liệu khác nhau cũng được cung cấp. Bộ dữ liệu VSD2014 được chia thành ba tập hợp con khác nhau, được gọi là Hollywood: Development, Hollywood: Test và YouTube: Generalization. Vui lòng tham khảo Bảng 4.1 để biết tổng quan về ba tập hợp con và số liệu thống kê cơ bản, bao gồm thời lượng, tỷ lệ cảnh bạo lực (tính theo phần trăm trên cơ sở mỗi khung hình) và thời lượng trung bình của một cảnh bạo lực. Nội dung của tập dữ liệu VSD2014 được phân thành ba loại: phim/video, tính năng và chú thích. Các bộ phim Hollywood có trong tập dữ liệu được chọn sao cho chúng thuộc các thể loại khác nhau và có sự đa dạng về các loại bạo lực mà chúng chứa đựng. Các bộ phim có nội dung từ cực kỳ bạo lực đến hầu như không có nội dung bạo lực đều được chọn để tạo tập dữ liệu này. Các bộ phim được chọn lọc cũng chứa đựng nhiều thể loại bạo lực. Ví dụ: phim chiến tranh, chẳng hạn như Saving Private Ryan, chứa các cảnh đấu súng và chiến đấu cụ thể có sự tham gia của nhiều người, với luồng âm thanh lớn và dày đặc chứa nhiều hiệu ứng đặc biệt. Các phim hành động, chẳng hạn như Bourne Identity, có những cảnh đánh nhau chỉ có một số ít người tham gia, có thể là tay đôi. Những bộ phim về thảm họa, chẳng hạn như Armageddon, cho thấy sự tàn phá của toàn bộ thành phố và chứa đựng những vụ nổ lớn. Cùng với đó, một số bộ phim hoàn toàn không bạo lực cũng được thêm vào tập dữ liệu để nghiên cứu hành vi của các thuật toán đối với nội dung đó. Vì các bộ phim thực tế không thể được cung cấp trong tập dữ liệu do vấn đề bản quyền nên chú thích cho 31 phim, 24 ở Hollywood: Development và 7 ở Hollywood: Test set được cung cấp. Bộ YouTube: Tổng quát hóa chứa các video clip được chia sẻ trên YouTube theo giấy phép Creative Commons. Tổng cộng có 86 clip ở định dạng MP4 được đưa vào tập dữ liệu. Cùng với siêu dữ liệu video như số nhận dạng video, ngày xuất bản, danh mục, tiêu đề, tác giả, tỷ lệ khung hình, thời lượng, v.v., được cung cấp dưới dạng tệp XML. Trong tập dữ liệu này, một bộ mô tả âm thanh và hình ảnh chung được cung cấp. Các tính năng âm thanh như đường bao biên độ (AE), năng lượng bình phương trung bình gốc (RMS), tốc độ xuyên 0 (ZCR), tỷ lệ năng lượng băng tần (BER), trọng tâm phổ (SC), băng thông tần số (BW), thông lượng quang phổ ( SF) và hệ số cao tần số Mel (MFCC) được cung cấp trên cơ sở từng khung hình video. Vì âm thanh có tốc độ lấy mẫu là 44.100 Hz và video được mã hóa với tốc độ 25 khung hình/giây, nên một cửa sổ có kích thước 1.764 mẫu âm thanh có độ dài được coi là để tính toán các tính năng này và 22 MFCC được tính toán cho mỗi cửa sổ trong khi tất cả các tính năng khác đều là 1 chiều. Các tính năng video được cung cấp trong tập dữ liệu bao gồm biểu đồ đặt tên màu (CNH), khoảnh khắc màu (CM), mẫu nhị phân cục bộ (LBP) và biểu đồ độ dốc định hướng (HOG). Các tính năng âm thanh và hình ảnh được cung cấp trong các tệp MAT phiên bản 7.3 của Matlab, tương ứng với định dạng HDF5. Bộ dữ liệu VSD2014 chứa các chú thích nhị phân của tất cả các cảnh bạo lực, trong đó cảnh được xác định bởi khung bắt đầu và kết thúc của nó. Những chú thích này dành cho phim Hollywood và video YouTube được tạo bởi một số người đánh giá là con người và sau đó được xem xét và hợp nhất để đảm bảo mức độ nhất quán nhất định. Mỗi phân đoạn bạo lực có chú thích chỉ chứa một hành động, bất cứ khi nào có thể. Trong trường hợp các hành động khác nhau chồng chéo lên nhau, các phân đoạn sẽ được hợp nhất. Điều này được biểu thị trong các tệp chú thích bằng cách thêm thẻ “nhiều cảnh hành động”. Ngoài các chú thích nhị phân của các phân đoạn chứa bạo lực thể chất, các chú thích còn bao gồm các khái niệm cấp cao cho 17 bộ phim trong bộ phim Hollywood: Development. Đặc biệt, 7 khái niệm hình ảnh và 3 khái niệm âm thanh được chú thích, sử dụng giao thức chú thích tương tự như được sử dụng cho các chú thích bạo lực/phi bạo lực. Các khái niệm là sự hiện diện của máu, đánh nhau, hiện diện của lửa, hiện diện của súng, sự hiện diện của vũ khí lạnh lùng, các cuộc rượt đuổi bằng ô tô và những cảnh đẫm máu đối với phương thức hình ảnh; sự hiện diện của tiếng súng, tiếng nổ và tiếng la hét đối với phương thức âm thanh. Mô tả chi tiết hơn về tập dữ liệu này được cung cấp bởi Schedl et al. [51] và để biết chi tiết về từng loại bạo lực, vui lòng tham khảo Demarty et al. [19]. 4.1.2. Bộ dữ liệu chiến đấu Bộ dữ liệu này được giới thiệu bởi Nievas et al. [42] và nó được tạo ra đặc biệt để đánh giá các hệ thống phát hiện chiến đấu. Tập dữ liệu này gồm hai phần, phần thứ nhất (“Hockey”) gồm 1.000 clip có độ phân giải 720 × 576 pixel, được chia thành hai nhóm, 500 trận đấu và 500 trận không đấu, được trích từ các trận đấu khúc côn cầu của Giải khúc côn cầu quốc gia Liên đoàn (NHL). Mỗi clip được giới hạn ở 50 khung hình và độ phân giải giảm xuống 320 × 240. Phần thứ hai (“Phim”) bao gồm 200 video clip, 100 cảnh đánh nhau và 100 cảnh không đánh nhau, trong đó các cảnh đánh nhau được trích từ phim hành động và không phải đánh nhau. video đánh nhau được trích xuất từ bộ dữ liệu nhận dạng hành động công khai. Không giống như tập dữ liệu khúc côn cầu tương đối đồng nhất cả về định dạng và nội dung, những video này mô tả nhiều cảnh khác nhau hơn và được quay ở các độ phân giải khác nhau. Tham khảo Hình 4.1 để biết một số khung hình hiển thị các trận đánh từ video trong hai bộ dữ liệu. Bộ dữ liệu này có sẵn trực tuyến để tải xuống [3]. 4.1.3. Dữ liệu từ Web Hình ảnh từ Google được sử dụng để phát triển các mô hình màu (Phần 3.1.1.2) cho các lớp máu và không phải máu, được sử dụng để trích xuất bộ mô tả đặc điểm máu cho từng khung hình trong video. Hình ảnh có máu được tải xuống từ Google Images 1 bằng cách sử dụng các từ truy vấn như “hình ảnh đẫm máu”, “cảnh đẫm máu”, “chảy máu”, “máu thật”, v.v. Tương tự, hình ảnh không có máu được tải xuống bằng các từ tìm kiếm như “ thiên nhiên”, “mùa xuân”, “da”, “ô tô”, v.v. Tiện ích tải hình ảnh từ Google, cho một từ tìm kiếm, được phát triển bằng Python sử dụng thư viện Beautiful Soup (Richardson [48]). Đối với mỗi truy vấn, phản hồi chứa khoảng 100 hình ảnh, trong đó chỉ 50 hình ảnh đầu tiên được chọn để tải xuống và lưu trong thư mục tệp cục bộ. Tổng cộng có khoảng 1.000 hình ảnh đã được tải xuống, kết hợp cả nhóm máu và không phải máu. Kích thước trung bình của hình ảnh được tải xuống là 260 × 193 pixel với kích thước tệp khoảng 10 Kilobyte. Tham khảo Hình 3.3 để biết một số hình ảnh mẫu được sử dụng trong tác phẩm này. 4.2. Cài đặt Trong phần này, chi tiết về thiết lập thử nghiệm và các phương pháp được sử dụng để đánh giá hiệu suất của hệ thống sẽ được trình bày. Trong đoạn sau, việc phân vùng tập dữ liệu sẽ được thảo luận và các đoạn sau giải thích các kỹ thuật đánh giá. Như đã đề cập ở Phần 4.1 trước đó, dữ liệu từ nhiều nguồn được sử dụng trong hệ thống này. Nguồn quan trọng nhất là bộ dữ liệu VSD2014. Đây là tập dữ liệu công khai duy nhất cung cấp dữ liệu video có chú thích với nhiều loại bạo lực khác nhau và đó là lý do chính để sử dụng tập dữ liệu này trong việc phát triển hệ thống này. Như đã giải thích trong Phần 4.1.1 trước đó, tập dữ liệu này chứa ba tập hợp con, Hollywood: Development, Hollywood: Test và YouTube: Generalization. Trong công việc này, cả ba tập hợp con đều được sử dụng. Tập hợp con Hollywood: Development là tập dữ liệu duy nhất được chú thích bằng các loại bạo lực khác nhau. Tập hợp con này bao gồm 24 bộ phim Hollywood được chia thành 3 phần. Phần đầu gồm 12 phim (Eragon, Fantastic Four 1, Fargo, Fight Club, Harry Potter 5, I Am Legend, Independence Day, Legally Blond, Leon, Midnight Express, Pirates Of The Caribbean, Reservoir Dogs) dùng để huấn luyện các bộ phân loại. Phần thứ hai gồm 7 bộ phim (Saving Private Ryan, The Bourne Identity, The God Father, The Pianist, The Sixth Sense, The Wicker Man, The Wizard of Oz) được dùng để kiểm tra các bộ phân loại đã được huấn luyện và tính toán trọng số cho từng cảnh bạo lực. kiểu. Phần cuối cùng gồm 3 bộ phim (Armageddon, Billy Elliot và Dead Poets Society) được dùng để đánh giá. Các tập hợp con Hollywood: Test và YouTube: Generalization cũng được sử dụng để đánh giá nhưng cho một nhiệm vụ khác. Các đoạn văn sau đây cung cấp chi tiết về các phương pháp đánh giá được sử dụng. Để đánh giá hiệu suất của hệ thống, hai nhiệm vụ phân loại khác nhau được xác định. Trong nhiệm vụ đầu tiên, hệ thống phải phát hiện loại bạo lực cụ thể có trong một đoạn video. Nhiệm vụ thứ hai mang tính chung chung hơn khi hệ thống chỉ phải phát hiện sự hiện diện của bạo lực. Đối với cả hai nhiệm vụ này, các bộ dữ liệu khác nhau được sử dụng để đánh giá. Trong nhiệm vụ đầu tiên là nhiệm vụ phân loại nhiều lớp, bộ xác thực bao gồm 3 bộ phim Hollywood (Armageddon, Billy Elliot và Dead Poets Society) được sử dụng. Trong tập hợp con này, mỗi khoảng khung hình chứa bạo lực sẽ được chú thích bằng loại bạo lực hiện có. Do đó, tập dữ liệu này được sử dụng cho nhiệm vụ này. 3 phim này không được dùng để huấn luyện, kiểm tra các bộ phân loại cũng như không dùng để tính trọng số để hệ thống có thể được đánh giá trên một dữ liệu hoàn toàn mới. Quy trình được minh họa trong Hình 3.1 được sử dụng để tính xác suất một đoạn video thuộc về một loại bạo lực cụ thể. Xác suất đầu ra từ hệ thống và thông tin thực tế cơ bản được sử dụng để tạo đường cong ROC (Đặc tính vận hành máy thu) và để đánh giá hiệu suất của hệ thống. Trong nhiệm vụ thứ hai, là nhiệm vụ phân loại nhị phân, các tập hợp con Hollywood: Kiểm tra và YouTube: Tổng quát hóa của bộ dữ liệu VSD2104 được sử dụng. The Hollywood: Tập hợp con thử nghiệm bao gồm 8 bộ phim Hollywood và tập con YouTube: Tổng quát hóa bao gồm 86 video từ YouTube. Trong cả hai tập hợp con này, các khoảng khung chứa bạo lực được cung cấp dưới dạng chú thích và không có thông tin nào về loại bạo lực được cung cấp. Do đó, các tập hợp con này được sử dụng cho nhiệm vụ này. Trong nhiệm vụ này, tương tự như nhiệm vụ trước, quy trình minh họa trong Hình 3.1 được sử dụng để tính xác suất một đoạn video thuộc về một loại bạo lực cụ thể. Đối với mỗi phân đoạn video, xác suất tối đa thu được đối với bất kỳ loại bạo lực nào được coi là xác suất phân đoạn đó là bạo lực. Tương tự như nhiệm vụ trên, đường cong ROC được tạo từ các giá trị xác suất này và giá trị thực tế cơ bản từ tập dữ liệu. Trong cả hai nhiệm vụ này, trước tiên tất cả các tính năng được trích xuất từ bộ dữ liệu huấn luyện và kiểm tra. Tiếp theo, các tập dữ liệu huấn luyện và kiểm tra được lấy mẫu ngẫu nhiên để có được số lượng mẫu dương và âm bằng nhau. 2.000 mẫu tính năng được chọn để đào tạo và 3.000 mẫu được chọn để thử nghiệm. Như đã đề cập ở trên, các tập huấn luyện và tập kiểm tra rời rạc được sử dụng để tránh việc kiểm tra trên dữ liệu huấn luyện. Trong cả hai nhiệm vụ, các bộ phân loại SVM với tuyến tính, Hàm cơ sở xuyên tâm và hạt nhân Chi-Square đều được huấn luyện cho từng loại đối tượng và các bộ phân loại có điểm phân loại tốt trên bộ kiểm tra sẽ được chọn cho bước tổng hợp. Trong bước tổng hợp, trọng số cho từng loại bạo lực được tính bằng cách tìm kiếm theo lưới các kết hợp có thể có nhằm tối đa hóa hiệu suất của bộ phân loại. Thước đo EER (Tỷ lệ lỗi bằng nhau) được sử dụng làm thước đo hiệu suất. 4.3. Thí nghiệm và kết quả Trong phần này, các thí nghiệm và kết quả của chúng được trình bày. Đầu tiên, kết quả của nhiệm vụ phân loại đa lớp được trình bày, tiếp theo là kết quả của nhiệm vụ phân loại nhị phân. 4.3.1. Phân loại nhiều lớp Trong nhiệm vụ này, hệ thống phải phát hiện loại bạo lực có trong video. Các danh mục bạo lực được nhắm mục tiêu trong hệ thống này là Máu, Vũ khí lạnh, Vụ nổ, Đánh nhau, Lửa, Súng, Tiếng súng, Tiếng la hét. Như đã đề cập ở Chương 1, đây là một số loại bạo lực được định nghĩa trong VSD2014. Ngoài tám danh mục này, Rượt đuổi ô tô và Bạo lực chủ quan cũng được xác định trong VSD2014. Những danh mục này không được sử dụng trong tác phẩm này vì không có đủ phân đoạn video được gắn thẻ với các danh mục này trong tập dữ liệu. Nhiệm vụ này rất khó khăn vì việc phát hiện các phân nhóm bạo lực làm tăng thêm sự phức tạp cho vấn đề phát hiện bạo lực phức tạp. Nỗ lực phát hiện các khái niệm chi tiết về bạo lực của hệ thống này là mới lạ và hiện tại chưa có hệ thống nào thực hiện nhiệm vụ này. Như đã đề cập trong Chương 3, hệ thống này sử dụng phương pháp tổng hợp quyết định có trọng số để phát hiện nhiều loại bạo lực trong đó trọng số cho từng loại bạo lực được học bằng cách sử dụng kỹ thuật tìm kiếm dạng lưới. Vui lòng tham khảo Phần 3.1.3 để biết thêm chi tiết về phương pháp này. Trong Bảng 4.2, các trọng số cho từng loại bạo lực được tìm thấy bằng kỹ thuật tìm kiếm dạng lưới này được trình bày. Các trọng số này được sử dụng để lấy tổng giá trị đầu ra có trọng số của các bộ phân loại tính năng nhị phân cho từng danh mục bạo lực. Danh mục có tổng số tiền cao nhất là danh mục bạo lực có trong phân đoạn video đó. Nếu tổng đầu ra nhỏ hơn 0,5 thì phân đoạn video được phân loại là Không bạo lực. Các phân đoạn video trong bộ xác thực được phân loại bằng cách sử dụng phương pháp này và kết quả được trình bày trong Hình 4.2. Trong hình, mỗi đường cong biểu thị đường cong ROC cho từng loại bạo lực. Bảng 4.2: Trọng số phân loại thu được cho từng loại bạo lực bằng kỹ thuật Tìm kiếm lưới. Ở đây, tiêu chí để chọn trọng số cho loại bạo lực là tìm các trọng số giúp giảm thiểu EER cho loại bạo lực đó. Hình 4.2: Hiệu suất của hệ thống trong nhiệm vụ Phân loại nhiều lớp. 4.3.2. Phân loại nhị phân Trong nhiệm vụ phân loại nhị phân này, hệ thống dự kiến sẽ phát hiện sự hiện diện của bạo lực mà không cần phải tìm danh mục. Tương tự như nhiệm vụ trước, xác suất đầu ra của bộ phân loại tính năng nhị phân được kết hợp bằng cách sử dụng phương pháp tổng trọng số và xác suất đầu ra của phân đoạn video thuộc từng loại bạo lực được tính toán. Nếu xác suất tối đa cho bất kỳ loại nào vượt quá 0,5 thì phân đoạn video đó sẽ được phân loại là bạo lực hoặc phân đoạn đó sẽ được phân loại là không bạo lực. Như đã đề cập trong Phần 4.2, tác vụ này được thực hiện trên các bộ dữ liệu YouTube-Generalization và Hollywood-Test. Hình 4.3 cung cấp kết quả của nhiệm vụ này trên cả hai bộ dữ liệu. Hai đường cong ROC cho mỗi bộ dữ liệu được sử dụng để thể hiện hiệu suất của hệ thống. Sử dụng 0,5 làm ngưỡng để đưa ra quyết định xem phân đoạn video có chứa bạo lực hay không, các giá trị độ chính xác, thu hồi và độ chính xác sẽ được tính toán. Vui lòng tham khảo Bảng 4.3 để biết kết quả thu được. 4.4. Cuộc thảo luận Trong phần này, các kết quả trình bày ở Phần 4.3 sẽ được thảo luận. Trước khi thảo luận về kết quả của các nhiệm vụ phân loại Đa lớp và Nhị phân, hiệu suất của các bộ phân loại riêng lẻ sẽ được thảo luận. 4.4.1. Phân loại riêng lẻ Trong cả hai nhiệm vụ phân loại được thảo luận ở Phần 4.3, việc tổng hợp các điểm phân loại được thực hiện để có được kết quả cuối cùng. Do đó, hiệu suất của hệ thống chủ yếu phụ thuộc vào hiệu suất riêng của từng bộ phân loại và một phần vào trọng số được gán cho từng bộ phân loại. Để có kết quả phân loại cuối cùng tốt, điều quan trọng là mỗi bộ phân loại phải có hiệu suất riêng tốt. Để có được các bộ phân loại hoạt động tốt nhất, các SVM được huấn luyện bằng cách sử dụng ba hàm nhân khác nhau (Tuyến tính, RBF và Chi-Square) và bộ phân loại có hiệu suất tối ưu trên bộ kiểm tra sẽ được chọn. Theo cách tiếp cận này, các bộ phân loại hoạt động tốt nhất cho từng loại tính năng sẽ được chọn. Hiệu suất của các bộ phân loại được chọn này trên tập dữ liệu thử nghiệm được trình bày trong Hình 4.4. Có thể nhận thấy SentiBank và Audio là hai bộ phân loại tính năng thể hiện hiệu suất hợp lý trên tập thử nghiệm. Trình phân loại tính năng chuyển động có hiệu suất tốt hơn cơ hội một chút và Blood có hiệu suất tương đương với cơ hội. Phần thảo luận chi tiết về hiệu suất của từng bộ phân loại này theo thứ tự tăng dần về hiệu suất của chúng sẽ được trình bày tiếp theo. 4.4.1.1. Cử động Như được thấy rõ trong Hình 4.4, hiệu suất của bộ phân loại tính năng chuyển động trên tập thử nghiệm chỉ tốt hơn một chút so với ngẫu nhiên. Để hiểu lý do đằng sau điều này, chúng tôi so sánh hiệu suất của tất cả các bộ phân loại tính năng chuyển động, được đào tạo với các lõi SVM khác nhau trên các bộ dữ liệu có sẵn. Tham khảo Hình 4.5 để so sánh. Trong hình, biểu đồ bên trái hiển thị hiệu suất của các bộ phân loại trên tập thử nghiệm từ tập dữ liệu Khúc côn cầu và biểu đồ bên phải hiển thị so sánh trên tập dữ liệu Hollywood-Test. Trong cả hai biểu đồ, đường cong màu đỏ tương ứng với bộ phân loại được đào tạo trên tập dữ liệu Khúc côn cầu và ba đường cong còn lại tương ứng với các bộ phân loại được đào tạo trên tập dữ liệu Hollywood-Dev. Từ cả hai biểu đồ này, có thể thấy rằng hiệu suất của các bộ phân loại được huấn luyện và kiểm tra trên cùng một tập dữ liệu là khá tốt khi so sánh với các bộ phân loại được huấn luyện trên một tập dữ liệu và được thử nghiệm trên một tập dữ liệu khác. Trong biểu đồ bên trái (Bộ kiểm tra: Bộ dữ liệu khúc côn cầu), bộ phân loại được đào tạo trên Bộ dữ liệu khúc côn cầu có hiệu suất tốt hơn. Tương tự, trong biểu đồ bên phải (TestSet: Hollywood-Test), hiệu suất của các bộ phân loại được đào tạo trên tập dữ liệu Hollywood-Dev có hiệu suất tốt hơn. Từ đó quan sát, có thể suy ra rằng biểu diễn tính năng chuyển động học được từ một tập dữ liệu không thể được chuyển sang tập dữ liệu khác. Lý do cho điều này có thể là do sự chênh lệch về độ phân giải video và định dạng video giữa các bộ dữ liệu. Các video từ tập dữ liệu Khúc côn cầu và tập dữ liệu Hollywood-Test có định dạng khác nhau, đồng thời, không phải tất cả video từ Hollywood-Development và Hollywood-Test đều có cùng định dạng. Định dạng video đóng một vai trò quan trọng vì thủ tục được sử dụng để trích xuất các đặc tính chuyển động (được giải thích trong Phần 3.1.1.3.1) sử dụng thông tin chuyển động từ codec video. Độ dài và độ phân giải của video cũng sẽ có một số tác động, mặc dù quy trình được sử dụng ở đây cố gắng giảm điều này bằng cách chuẩn hóa các tính năng được trích xuất theo độ dài của phân đoạn video và bằng cách tổng hợp các chuyển động của pixel trên một số vùng phụ được xác định trước. của khung. Video từ tập dữ liệu Khúc côn cầu là các đoạn rất ngắn, mỗi đoạn một giây và có kích thước khung hình nhỏ cũng như chất lượng thấp. Trong khi đó, các phân đoạn video từ tập dữ liệu Hollywood dài hơn và có kích thước khung hình lớn hơn với chất lượng tốt hơn. Một giải pháp cho vấn đề này có thể là chuyển đổi tất cả video sang cùng một định dạng, nhưng ngay cả khi đó vẫn có thể xảy ra sự cố do mã hóa video không đúng. Giải pháp khác có thể là sử dụng phương pháp tiếp cận dựa trên luồng quang để trích xuất các đặc điểm chuyển động (được giải thích trong Phần 3.1.1.3.2). Nhưng như đã giải thích trước đó, phương pháp này tẻ nhạt và có thể không hiệu quả khi có hiện tượng mờ do chuyển động trong video. 4.4.1.2. Máu Hiệu suất của bộ phân loại tính năng máu trên bộ thử nghiệm chỉ là cơ hội. Tham khảo Hình 4.4 để biết kết quả. Ở đây, vấn đề không nằm ở việc trích xuất đặc điểm vì máy dò máu được sử dụng để trích xuất đặc điểm máu đã cho kết quả rất tốt trong việc phát hiện các vùng có chứa máu trong ảnh. Vui lòng tham khảo Hình 3.4 để biết hiệu suất của máy dò máu trên các hình ảnh từ web và Hình 4.6 để biết hiệu suất của nó trên các khung mẫu từ bộ dữ liệu Hollywood. Từ đó, có thể thấy rõ rằng trình trích xuất đặc điểm máu đang hoạt động khá tốt và việc trích xuất đặc điểm máu không phải là vấn đề. Do đó, có thể kết luận rằng vấn đề là ở việc đào tạo bộ phân loại và đó là do dữ liệu huấn luyện có sẵn hạn chế. Trong tập dữ liệu VSD2014 dùng để huấn luyện, các đoạn video có chứa máu được chú thích bằng nhãn (“Không thể nhận thấy”, “Thấp”, “Trung bình” và “Cao”) thể hiện lượng máu có trong các đoạn này. Có rất ít phân đoạn trong tập dữ liệu này được chú thích bằng nhãn “Cao”, do đó, bộ phân loại SVM không thể tìm hiểu cách biểu diễn đặc điểm của các khung chứa máu một cách hiệu quả. Hiệu suất của trình phân loại tính năng này có thể được cải thiện bằng cách huấn luyện nó với tập dữ liệu lớn hơn với nhiều trường hợp khung chứa lượng máu cao. Ngoài ra, hình ảnh từ Google cũng có thể được sử dụng để huấn luyện bộ phân loại này. 4.4.1.3. Âm thanh Trình phân loại tính năng âm thanh là trình phân loại hoạt động tốt thứ hai (tham khảo Hình 4.4) trong bộ thử nghiệm và điều này cho thấy tầm quan trọng của âm thanh trong việc phát hiện bạo lực. Mặc dù các đặc điểm hình ảnh là dấu hiệu tốt cho thấy nội dung bạo lực nhưng có một số cảnh trong đó âm thanh đóng vai trò quan trọng hơn. Ví dụ: những cảnh có cảnh đánh nhau, tiếng súng và vụ nổ. Những cảnh này có âm thanh và tính năng âm thanh đặc trưng như MFCC và Entropy năng lượng, có thể được sử dụng để phát hiện các mẫu âm thanh liên quan đến những cảnh bạo lực này. Trong công trình này, các tính năng MFCC được sử dụng để mô tả nội dung âm thanh (tham khảo Phần 3.1.1.1) như nhiều công trình trước đây về phát hiện bạo lực (Acar et al. [1], Jiang et al. [33], Lam et al. [36] ], v.v.) đã cho thấy tính hiệu quả của tính năng MFCC trong việc phát hiện dấu hiệu âm thanh liên quan đến các cảnh bạo lực. Các tính năng âm thanh khác như entropy năng lượng, cao độ và phổ công suất cũng có thể được sử dụng cùng với các tính năng MFCC để cải thiện hơn nữa hiệu suất của bộ phân loại tính năng. Nhưng điều quan trọng cần lưu ý là chỉ âm thanh là không đủ để phát hiện bạo lực và nó chỉ đóng vai trò quan trọng trong việc phát hiện một số loại bạo lực như Tiếng súng và Vụ nổ có dấu hiệu âm thanh riêng. 4.4.1.4. SentiBank Bộ phân loại tính năng SentiBank đã cho thấy hiệu suất tốt nhất trong tất cả các bộ phân loại tính năng (Tham khảo Hình 4.4) và đã đóng góp mạnh mẽ vào hiệu suất chung của hệ thống. Điều này chứng tỏ sức mạnh của SentiBank trong việc phát hiện những cảm xúc thị giác phức tạp như bạo lực. Hình 4.7 cho thấy điểm trung bình của 50 ANP hàng đầu cho các khung hình có chứa bạo lực và không có bạo lực. Có thể thấy, danh sách ANP có điểm trung bình cao nhất cho lớp bạo lực và lớp không bạo lực rất khác nhau và đây là lý do đằng sau thành tích rất tốt của SentiBank trong việc tách lớp bạo lực khỏi lớp không bạo lực. Lưu ý rằng, không phải tất cả tính từ trong danh sách ANP cho loại bạo lực đều mô tả bạo lực. Điều này có thể do nhiều lý do khác nhau, một trong số đó có thể là do trong số 1.200 ANP được sử dụng trong SentiBank, chỉ một số ít mô tả những cảm xúc liên quan đến bạo lực (như sợ hãi, khủng bố, thịnh nộ, tức giận, v.v.). Vui lòng tham khảo Hình 4.8 minh họa Bánh xe cảm xúc của Plutchik và sự phân bổ ANP cho từng loại cảm xúc trong VSO. 4.4.2. Trọng lượng tổng hợp Như đã đề cập trước đó (Phần 3.1.3), điểm phân loại cuối cùng được tính bằng cách tổng hợp muộn các điểm phân loại riêng lẻ bằng cách sử dụng phương pháp tổng trọng số. Các trọng số được sử dụng ở đây được tính toán bằng cách sử dụng phương pháp tìm kiếm dạng lưới với mục tiêu giảm thiểu Tỷ lệ lỗi bằng nhau (EER). Vì vậy, trọng số đóng vai trò quan trọng trong việc xác định hiệu suất phân loại tổng thể của hệ thống. Lưu ý rằng tất cả các trọng số này được tính toán trên tập kiểm tra. Trong Bảng 4.2, trọng số của các phân loại cho từng loại trong số tám loại bạo lực, thu được bằng kỹ thuật tìm kiếm dạng lưới, được trình bày. Từ các trọng số thu được, có thể đưa ra các nhận xét sau về phân bổ trọng số, (i) Đối với hầu hết các loại bạo lực, trọng số cao nhất được gán cho SentiBank vì đây là đặc điểm mang tính phân biệt đối xử nhất. (ii) Âm thanh được đánh giá cao nhất trong các loại bạo lực như Tiếng súng, Vụ nổ và Đánh nhau trong đó âm thanh đóng vai trò rất quan trọng. (iii) Máu được đánh giá cao ở các lớp bạo lực như Tiếng thét, Tiếng súng và Súng. Điều này thật thú vị vì một phân đoạn video thuộc bất kỳ loại bạo lực nào cũng có thể có máu trong đó. (iv) Chuyển động nhận được ít trọng lượng nhất trong hầu hết các loại bạo lực vì đây là tính năng kém hiệu quả nhất. Tuy nhiên, cũng có thể nhận thấy rằng nó có trọng lượng cao hơn đối với lớp Chiến đấu, nơi có thể mong đợi nhiều chuyển động. Nếu phân tích trọng số được chỉ định cho từng loại bạo lực thì có thể đưa ra nhận xét sau: (i) Đối với loại Súng nổ, trọng số phân bổ cao nhất là giữa Âm thanh (0,5) và Máu (0,45). Điều này được mong đợi vì tính năng âm thanh đóng vai trò quan trọng trong việc phát hiện tiếng súng và những cảnh có tiếng súng cũng được cho là sẽ có nhiều máu me. (ii) Âm thanh (0,4) và các tính năng hình ảnh (Chuyển động - 0,25 và SentiBank - 0,30) đã nhận được mức độ quan trọng gần như ngang nhau đối với lớp Chiến đấu. Điều này được mong đợi vì cả tính năng âm thanh và hình ảnh đều quan trọng trong việc phát hiện các cảnh có cảnh đánh nhau. (iii) Đối với loại Vụ nổ, trọng số cao nhất được gán cho Âm thanh (0,9), dự kiến vì các tính năng âm thanh rất quan trọng trong việc phát hiện vụ nổ. (iv) Lửa là loại bạo lực trong đó các đặc điểm hình ảnh được mong đợi có trọng số cao và đúng như mong đợi, tính năng hình ảnh hoạt động tốt nhất, SentiBank (0,85), được gán trọng số cao nhất. (v) Lớp bạo lực Lạnh lùng cánh tay chứa các cảnh có sự hiện diện của bất kỳ vũ khí lạnh nào (ví dụ: dao, kiếm, mũi tên, kích, v.v.). Đối với lớp này, các đặc điểm hình ảnh dự kiến sẽ có trọng số cao. Và đúng như dự đoán, SentiBank (0,95) có tỷ trọng cao nhất ở hạng này. (vi) “Súng ống” là loại bạo lực trong đó các cảnh quay có chứa súng và súng cầm tay. Tương tự như lớp trên, các đặc điểm hình ảnh dự kiến sẽ có trọng số cao. Đối với hạng này, SentiBank (0,6) và Blood (0,3) đã nhận được sự phân bổ trọng số cao nhất. Lý do Blood được gán trọng lượng cao hơn có thể là do hầu hết các cảnh có súng cũng sẽ có cảnh đổ máu. (vii) Đối với lớp Máu, tính năng Máu được cho là có trọng số cao nhất. Nhưng tính năng Blood (0,05) chỉ nhận được trọng lượng nhỏ và SentiBank (0,95) có trọng số cao nhất. Đây không phải là kết quả như mong đợi và điều này có thể là do hiệu suất kém của bộ phân loại tính năng Máu trên bộ thử nghiệm. (viii) Thật trực quan khi mong đợi Âm thanh có trọng số cao hơn đối với lớp “Tiếng hét” vì các tính năng âm thanh đóng vai trò quan trọng trong việc phát hiện tiếng hét. Tuy nhiên, trọng lượng thu được ở đây đi ngược lại với trực giác này. Âm thanh có trọng lượng rất ít trong khi SentiBank nhận được trọng số cao nhất. Nhìn chung, trọng số thu được từ tìm kiếm dạng lưới ít nhiều như mong đợi đối với hầu hết các lớp. Có thể đạt được sự phân bổ trọng số tốt hơn nếu hiệu suất của các bộ phân loại riêng lẻ trong bài kiểm tra được cải thiện. 4.4.3. Phân loại nhiều lớp Trong phần này, các kết quả thu được trong nhiệm vụ phân loại nhiều lớp sẽ được thảo luận. Vui lòng tham khảo Hình 4.2 để biết kết quả thu được trong nhiệm vụ này. Từ hình vẽ, có thể rút ra những nhận xét sau (i) Hệ thống cho thấy hiệu suất tốt (EER khoảng 30%) trong việc phát hiện Tiếng súng. (ii) Đối với các lớp bạo lực, Tay lạnh, Máu và Nổ, hệ thống cho thấy hiệu suất vừa phải (EER khoảng 40%). (iii) Đối với các lớp bạo lực còn lại (Đánh nhau, La hét, Lửa, Súng), hiệu suất gần như có cơ hội (EER trên 45%). Những kết quả này cho thấy có rất nhiều cơ hội để cải thiện, nhưng điều quan trọng cần nhớ là phát hiện bạo lực không phải là một nhiệm vụ tầm thường và việc phân biệt giữa các loại bạo lực khác nhau thậm chí còn khó khăn hơn. Tất cả các phương pháp tiếp cận được đề xuất cho đến nay chỉ tập trung vào việc phát hiện sự hiện diện hay vắng mặt của bạo lực chứ chưa tập trung vào việc phát hiện các loại bạo lực. Cách tiếp cận mới được đề xuất trong nghiên cứu này là một trong những cách tiếp cận đầu tiên theo hướng này và không có hệ thống cơ sở nào để so sánh hiệu quả hoạt động. Kết quả thu được từ công việc này sẽ làm cơ sở cho các công việc trong tương lai trong lĩnh vực này. Trong hệ thống này, phương pháp tiếp cận tổng hợp muộn được áp dụng đã cho thấy kết quả tốt trong nhiệm vụ phát hiện khái niệm đa phương tiện tương tự như phát hiện nội dung người lớn (Schulze và cộng sự [52]). Do đó, hiệu suất kém của hệ thống không thể được quy cho cách tiếp cận sau. Hiệu suất của hệ thống phụ thuộc vào hiệu suất của từng bộ phân loại riêng lẻ và trọng số tổng hợp được gán cho chúng đối với từng loại bạo lực. Vì trọng số tổng hợp được điều chỉnh để giảm thiểu EER bằng kỹ thuật Tìm kiếm lưới nên hiệu suất tổng thể của hệ thống chỉ phụ thuộc vào hiệu suất của các bộ phân loại riêng lẻ. Vì vậy, để cải thiện hiệu suất của hệ thống trong nhiệm vụ này, cần phải cải thiện hiệu suất của các bộ phân loại riêng lẻ trong việc phát hiện bạo lực. 4.4.4. Phân loại nhị phân Kết quả của nhiệm vụ phân loại nhị phân được trình bày trên Hình 4.3. Nhiệm vụ này là phần mở rộng của nhiệm vụ phân loại nhiều lớp. Như đã giải thích trước đó, trong nhiệm vụ này, một phân đoạn video được phân loại là "Bạo lực" nếu xác suất đầu ra của bất kỳ loại bạo lực nào lớn hơn ngưỡng 0,5. Hiệu suất của hệ thống trong nhiệm vụ này được đánh giá trên hai bộ dữ liệu, Hollywood-Test và YouTube-Generalization. Có thể thấy rằng hiệu suất của hệ thống trên các bộ dữ liệu này tốt hơn một chút so với cơ hội. Cũng có thể thấy rằng hiệu suất trên tập dữ liệu Hollywood-Test tốt hơn so với tập dữ liệu YouTube-Generalization. Điều này được mong đợi vì tất cả các bộ phân loại đều được đào tạo dựa trên dữ liệu từ tập dữ liệu Hollywood-Development có nội dung video tương tự với tập dữ liệu Hollywood-Test. Các giá trị độ chính xác, thu hồi và độ chính xác mà hệ thống thu được cho nhiệm vụ này được trình bày trong Bảng 4.3. Kết quả mà nhóm thực hiện tốt nhất trong nhiệm vụ này thu được từ MediaEval-2014 được đưa ra trong Bảng 4.4. Những kết quả này không thể so sánh trực tiếp, mặc dù sử dụng cùng một tập dữ liệu, vì quy trình dùng để đánh giá không giống nhau. Trong MediaEval-2014, hệ thống phải xuất khung hình bắt đầu và kết thúc cho các phân đoạn video có chứa bạo lực và nếu sự trùng lặp giữa sự thật thực tế và khoảng thời gian của khung hình đầu ra lớn hơn 50% thì đó được coi là một lượt truy cập. Vui lòng tham khảo Schedl et al. [51] để biết thêm thông tin về quy trình được thực hiện trong MediaEval-2014. Theo phương pháp đề xuất, hệ thống phân loại từng phân đoạn 1 giây của video đầu vào thành loại “Bạo lực” hoặc “Không bạo lực” và hiệu suất của hệ thống được tính bằng cách so sánh điều này với thực tế cơ bản. Tiêu chí đánh giá được sử dụng ở đây nghiêm ngặt hơn và chi tiết hơn nhiều so với tiêu chí được sử dụng trong MediaEval-2014. Ở đây, vì việc phân loại được thực hiện cho từng phân đoạn 1 giây nên không cần có chiến lược xử phạt việc phát hiện các phân đoạn ngắn hơn. Số liệu MAP được sử dụng để chọn hệ thống hoạt động tốt nhất trong MediaEval trong khi đó, trong hệ thống được đề xuất, EER của hệ thống được tối ưu hóa. Mặc dù không thể so sánh trực tiếp các kết quả thu được từ hệ thống này với kết quả MediaEval, nhưng có thể thấy rằng hiệu suất của hệ thống này tương đương, nếu không muốn nói là tốt hơn, hệ thống hoạt động tốt nhất từ MediaEval-2014 mặc dù các tiêu chí đánh giá nghiêm ngặt được sử dụng. Những kết quả này cho thấy hệ thống được phát triển bằng cách sử dụng phương pháp mới được đề xuất sẽ tốt hơn các hệ thống hiện đại hiện có trong lĩnh vực phát hiện bạo lực này. 4.5. Bản tóm tắt Trong chương này, một cuộc thảo luận chi tiết về việc đánh giá hệ thống đã phát triển sẽ được trình bày. Trong Phần 4.1, chi tiết về các bộ dữ liệu được sử dụng trong công việc này sẽ được giải thích và trong phần tiếp theo Phần 4.2, cách thiết lập thử nghiệm sẽ được thảo luận. Trong Phần 4.3, các thí nghiệm và kết quả của chúng được trình bày, sau đó là phần thảo luận chi tiết về kết quả thu được trong Phần 4.4. Bài viết này theo giấy phép CC 4.0. có sẵn trên arxiv [1] http://www.images.google.com [2] http://www.youtube.com [3] http://visilab.etsii.uclm.es/personas/oscar/FightDetection/index.html