paint-brush
Phát hiện bạo lực trong video: Giới thiệutừ tác giả@kinetograph

Phát hiện bạo lực trong video: Giới thiệu

dài quá đọc không nổi

Trong bài báo này, các nhà nghiên cứu đề xuất một hệ thống tự động phát hiện bạo lực trong video, sử dụng tín hiệu âm thanh và hình ảnh để phân loại.
featured image - Phát hiện bạo lực trong video: Giới thiệu
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


tác giả:

(1) Praveen Tirupattur, Đại học Trung tâm Florida.

Bảng liên kết

1. Giới thiệu

Lượng nội dung đa phương tiện được tải lên các trang web mạng xã hội và việc trẻ em có thể dễ dàng truy cập những nội dung này đang đặt ra vấn đề đối với các bậc cha mẹ muốn bảo vệ con mình khỏi tiếp xúc với nội dung người lớn và bạo lực trên web. Số lượng video tải lên các trang web như YouTube và Facebook đang gia tăng. Số lượng bài đăng video trên Facebook (Blog-FB [3]) đã tăng 75% trong một năm qua và hơn 120.000 video được tải lên YouTube mỗi ngày (Wesch [56], Gill et al. [ 26]). Người ta ước tính rằng 20% video được tải lên các trang web này có chứa nội dung bạo lực hoặc người lớn (Sparks [54]). Điều này khiến trẻ dễ dàng tiếp cận hoặc vô tình tiếp xúc với những nội dung không an toàn này. Tác động của việc xem nội dung bạo lực đối với trẻ em đã được nghiên cứu kỹ lưỡng về tâm lý học (Tompkins [55], Sparks [54], Bushman và Huesmann [6], Huesmann và Taylor [32]) và kết quả của những nghiên cứu này cho thấy rằng việc xem nội dung bạo lực nội dung có ảnh hưởng đáng kể đến cảm xúc của trẻ. Những tác động chính là làm tăng khả năng có hành vi hung hăng hoặc sợ hãi và trở nên ít nhạy cảm hơn trước nỗi đau và sự đau khổ của người khác. Huesmann và Eron [31] đã thực hiện một nghiên cứu với trẻ em từ bậc tiểu học đã xem nhiều giờ cảnh bạo lực trên tivi. Bằng cách quan sát những đứa trẻ này cho đến khi trưởng thành, họ phát hiện ra rằng những đứa trẻ xem nhiều cảnh bạo lực trên tivi khi chúng 8 tuổi có nhiều khả năng bị bắt và truy tố vì các hành vi tội phạm khi trưởng thành. Các nghiên cứu tương tự của Flood [25] và Mitchell et al. [40] cho rằng việc tiếp xúc với nội dung người lớn cũng có tác động bất lợi đối với trẻ em. Điều này thúc đẩy nghiên cứu trong lĩnh vực tự động phát hiện nội dung người lớn và bạo lực trong video.


Việc phát hiện nội dung người lớn (Chan và cộng sự [8], Schulze và cộng sự [52], Pogrebnyak và cộng sự [47]) đã được nghiên cứu kỹ lưỡng và đã đạt được nhiều tiến bộ. Mặt khác, việc phát hiện bạo lực ít được nghiên cứu hơn và chỉ được quan tâm trong thời gian gần đây. Trước đây, rất ít phương pháp phát hiện bạo lực đã được đề xuất và mỗi phương pháp này đều cố gắng phát hiện bạo lực bằng cách sử dụng các đặc điểm thị giác và thính giác khác nhau. Ví dụ, Nam và cộng sự. [41] kết hợp nhiều đặc điểm nghe nhìn để xác định những cảnh bạo lực. Trong công việc của họ, ngọn lửa và máu được phát hiện bằng cách sử dụng các bảng màu được xác định trước và các hiệu ứng âm thanh tiêu biểu khác nhau (tiếng súng, vụ nổ, v.v.) cũng được khai thác. Datta và cộng sự. [14] đề xuất một phương pháp tiếp cận dựa trên vectơ chuyển động tăng tốc để phát hiện hành vi bạo lực của con người như đánh đấm, đá, v.v. Cheng và cộng sự. [11] đã trình bày một cách tiếp cận phân cấp để xác định các cảnh chơi súng và đua xe thông qua việc phát hiện các sự kiện âm thanh điển hình (ví dụ: tiếng súng, vụ nổ và phanh xe).


Các phương pháp tiếp cận khác được đề xuất để phát hiện bạo lực sẽ được thảo luận trong Chương 2. Tất cả các phương pháp này chủ yếu chỉ tập trung vào việc phát hiện bạo lực trong các bộ phim Hollywood chứ không tập trung vào các video từ các trang chia sẻ video và mạng xã hội như YouTube hay Facebook. Việc phát hiện bạo lực trong phim Hollywood tương đối dễ dàng vì những phim này tuân theo một số quy tắc làm phim. Ví dụ, để thể hiện những cảnh hành động sôi động, bầu không khí nhịp độ nhanh được tạo ra thông qua chuyển động hình ảnh tốc độ cao và âm thanh nhịp độ nhanh. Tuy nhiên, video từ các trang web chia sẻ video như YouTube và Facebook không tuân theo các quy tắc làm phim này và thường có chất lượng âm thanh và video kém. Những đặc điểm này của video do người dùng tạo khiến rất khó phát hiện bạo lực trong đó.


Trước khi thảo luận về phương pháp phát hiện bạo lực, điều quan trọng là phải đưa ra định nghĩa cho thuật ngữ “Bạo lực”. Tất cả các phương pháp phát hiện bạo lực trước đây đều không tuân theo cùng một định nghĩa về bạo lực và sử dụng các tính năng cũng như bộ dữ liệu khác nhau. Điều này làm cho việc so sánh các phương pháp khác nhau trở nên rất khó khăn. Để khắc phục vấn đề này và thúc đẩy nghiên cứu trong lĩnh vực này, Demarty et al. đã giới thiệu một bộ dữ liệu có tên Phát hiện cảnh bạo lực (VSD). [15] vào năm 2011 và phiên bản gần đây của bộ dữ liệu này là VSD2014. Theo tập dữ liệu mới nhất này, “Bạo lực” trong một video là “bất kỳ cảnh nào người ta sẽ không cho trẻ 8 tuổi xem vì chúng chứa đựng bạo lực thể xác”Schedl et al. [51]. Định nghĩa này được cho là được xây dựng dựa trên kết quả nghiên cứu từ tâm lý học đã được đề cập ở trên. Từ định nghĩa này có thể nhận thấy bạo lực không phải là một thực thể vật chất mà là một khái niệm rất chung chung, trừu tượng và cũng rất chủ quan. Vì vậy, việc phát hiện bạo lực không phải là một nhiệm vụ tầm thường.


Mục đích của công việc này là xây dựng một hệ thống tự động phát hiện bạo lực không chỉ trong các bộ phim Hollywood mà còn trong các video từ các trang web chia sẻ video như YouTube và Facebook. Trong công việc này, chúng tôi cũng nỗ lực phát hiện loại bạo lực trong video mà các phương pháp trước đây chưa giải quyết được. Các loại bạo lực được nhắm đến trong tác phẩm này là sự hiện diện của máu, sự hiện diện của vũ khí lạnh, vụ nổ, đánh nhau, la hét, hiện diện của lửa, súng ống và tiếng súng. Chúng đại diện cho tập hợp con các khái niệm được xác định và sử dụng trong VSD2014 để chú thích các đoạn video. Các hạng mục “cảnh đẫm máu” và “rượt đuổi bằng ô tô” từ VSD2014 không được chọn vì không có nhiều phân đoạn video trong VSD2014 được chú thích bằng những khái niệm này. Một thể loại khác như vậy là “Bạo lực chủ quan”. Nó không được chọn vì những cảnh thuộc thể loại này không có bất kỳ cảnh bạo lực nào rõ ràng và do đó rất khó phát hiện. Trong công việc này, cả tính năng âm thanh và hình ảnh đều được sử dụng để phát hiện bạo lực vì việc kết hợp cả thông tin âm thanh và hình ảnh sẽ mang lại kết quả phân loại đáng tin cậy hơn.


Lợi ích của việc phát triển một hệ thống có thể tự động phát hiện bạo lực trong nội dung đa phương tiện như thế này là rất nhiều. Nó có thể được sử dụng để xếp hạng phim tùy thuộc vào mức độ bạo lực. Điều này có thể được các trang mạng xã hội sử dụng để phát hiện và chặn tải video bạo lực lên nền tảng của họ. Ngoài ra, nó có thể được sử dụng để mô tả đặc điểm cảnh và phân loại thể loại, giúp tìm kiếm và duyệt phim. Việc ghi nhận bạo lực trong các luồng video từ hệ thống camera thời gian thực sẽ rất hữu ích cho việc giám sát video ở những nơi như sân bay, bệnh viện, trung tâm mua sắm, nơi công cộng, nhà tù, khu tâm thần, sân chơi trường học, v.v. Tuy nhiên, việc phát hiện bạo lực theo thời gian thực còn hạn chế. khó khăn hơn nhiều và trong công việc này không có nỗ lực nào được thực hiện để giải quyết nó.


Tổng quan về công việc liên quan, mô tả chi tiết về phương pháp đề xuất và đánh giá sẽ được trình bày tiếp theo. Các chương tiếp theo được tổ chức như sau. Trong Chương 2, một số công trình trước đây trong lĩnh vực phát hiện bạo lực sẽ được giải thích chi tiết. Trong Chương 3, chi tiết về phương pháp được sử dụng để huấn luyện và thử nghiệm các bộ phân loại đối tượng sẽ được trình bày. Nó cũng bao gồm các chi tiết về trích xuất tính năng và đào tạo bộ phân loại. Chương 4 mô tả chi tiết về các bộ dữ liệu được sử dụng, cách bố trí thử nghiệm và kết quả thu được từ các thử nghiệm. Cuối cùng, trong Chương 5, các kết luận được đưa ra cùng với công việc có thể thực hiện trong tương lai.


Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.