118 판독값

비디오의 폭력 탐지: 결론 및 향후 연구

~에 의해 Kinetograph: The Video Editing Technology Publication4m2024/06/01

너무 오래; 읽다

본 논문에서 연구자들은 분류를 위해 오디오 및 시각적 단서를 활용하여 비디오의 폭력을 자동으로 감지하는 시스템을 제안합니다.

저자:

(1) 센트럴 플로리다 대학교 Praveen Tirupattur.

링크 표

5. 결론 및 향후 연구

이 장에서는 결론과 기존 작업을 확장할 수 있는 방향을 각각 5.1절과 5.2절에서 논의합니다.

5.1. 결론

본 연구에서는 시각적 및 청각적 특징을 모두 사용하여 비디오에서 폭력적인 내용을 탐지하는 시스템을 개발하려는 시도가 이루어졌습니다. 이 작업에 사용된 접근 방식은 이 분야의 초기 작업에서 영감을 얻었지만 다음과 같은 고유한 측면이 있습니다. (i) 다양한 종류의 폭력 탐지, (ii) SentiBank 기능을 사용하여 폭력의 시각적 콘텐츠를 설명합니다. 비디오, (iii) 웹의 이미지를 사용하여 개발된 혈액 탐지기와 혈액 모델, (iv) 비디오 코덱의 정보를 사용하여 동작 특징을 생성합니다. 다음은 이 시스템을 개발하는 데 사용된 프로세스에 대한 간략한 개요입니다.

폭력은 물리적인 실체가 아니기 때문에 비디오에서 폭력을 감지하는 것은 결코 쉬운 일이 아닙니다. 폭력은 시각적인 개념이므로 이를 감지하려면 여러 기능을 사용해야 합니다. 본 연구에서는 오디오 콘텐츠를 기술하기 위해 MFCC 기능을 사용하였고, 시각적 콘텐츠를 기술하기 위해 Blood, Motion, SentiBank 기능을 사용하였다. SVM 분류기는 선택된 각 기능에 대해 훈련되었으며 개별 분류기 점수는 가중치 합계로 결합되어 각 폭력 클래스에 대한 최종 분류 점수를 얻었습니다. 각 클래스의 가중치는 최소 EER을 최적화 기준으로 하는 그리드 검색 방식을 사용하여 찾습니다. 이 작업에는 다양한 데이터 세트가 사용되지만 가장 중요한 것은 분류기 훈련, 분류기 가중치 계산 및 시스템 테스트에 사용되는 VSD 데이터 세트입니다.

시스템 성능은 MultiClass 및 Binary 분류라는 두 가지 분류 작업을 통해 평가됩니다. 다중 클래스 분류 작업에서 시스템은 비디오 세그먼트에 존재하는 폭력 클래스를 감지해야 합니다. 이는 단순히 폭력의 존재를 감지하는 것보다 훨씬 더 어려운 작업이며 여기에 제시된 시스템은 이 문제를 해결하는 최초의 시스템 중 하나입니다. 이진 분류 작업은 시스템이 폭력 클래스를 찾을 필요 없이 폭력의 존재만 감지해야 하는 경우입니다. 이 작업에서는 폭력 클래스 중 하나에 대한 다중 클래스 분류 작업의 최종 분류 점수가 0.5보다 크면 비디오 세그먼트가 "폭력"으로 분류되고, 그렇지 않으면 "폭력 없음"으로 분류됩니다. Multi-Class 분류 작업의 결과는 완벽하지 않으며 개선의 여지가 있는 반면, Binary 분류 작업의 결과는 MediaEval-2014의 기존 벤치마크 결과보다 좋습니다. 그러나 이러한 결과는 확실히 고무적입니다. 섹션 5.2에서는 현재 작업을 확장할 수 있는 가능한 방향에 대한 자세한 논의가 제시됩니다.

5.2. 미래의 일

현재 작업을 확장할 수 있는 방향은 다양합니다. 한 가지 방향은 기존 시스템의 성능을 향상시키는 것입니다. 이를 위해서는 개별 분류기의 성능이 향상되어야 한다. Motion과 Blood는 분류기 성능에 상당한 개선이 필요한 두 가지 기능입니다. 4.4절에서 설명한 것처럼 모션 분류기의 성능을 향상시키기 위해서는 모션 특징을 추출하는 데 사용되는 접근 방식을 변경해야 합니다. Blood의 경우 문제는 분류기를 훈련하는 데 사용되는 데이터세트에 있지만 특징 추출기에 사용되는 것은 아닙니다. 훈련에는 혈액이 포함된 적절한 양의 프레임이 포함된 적절한 데이터 세트를 사용해야 합니다. 이러한 개선은 더 나은 시스템을 구축하기 위한 첫 번째 단계가 되어야 합니다. 향후 작업의 또 다른 방향은 이 시스템을 적용하고 다양한 애플리케이션을 위한 다양한 도구를 개발하는 것입니다. 예를 들어, (i) 주어진 입력 비디오에서 폭력이 포함된 비디오 세그먼트를 추출할 수 있는 도구를 개발할 수 있습니다. 이는 비디오 태깅에 도움이 될 수 있습니다. (ii) 폭력적인 콘텐츠의 양에 따라 영화를 평가하는 데 시스템을 사용할 수 있는 유사한 도구를 자녀 보호용으로 개발할 수 있습니다. 향후 작업의 또 다른 가능한 방향은 보안 카메라의 비디오 피드에서 폭력을 실시간으로 감지하는 데 사용할 수 있도록 시스템 속도를 향상시키는 것입니다. 그러한 시스템을 개발하는 데 필요한 개선 사항은 결코 사소한 것이 아닙니다.