paint-brush
비디오의 폭력 감지: 제안된 접근 방식~에 의해@kinetograph
106 판독값

비디오의 폭력 감지: 제안된 접근 방식

너무 오래; 읽다

본 논문에서 연구자들은 분류를 위해 오디오 및 시각적 단서를 활용하여 비디오의 폭력을 자동으로 감지하는 시스템을 제안합니다.
featured image - 비디오의 폭력 감지: 제안된 접근 방식
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


저자:

(1) 센트럴 플로리다 대학교 Praveen Tirupattur.

링크 표

3. 제안된 접근법

이 장에서는 이 작업에서 따르는 접근 방식에 대해 자세히 설명합니다. 제안된 접근 방식은 훈련과 테스트라는 두 가지 주요 단계로 구성됩니다. 훈련 단계에서 시스템은 훈련 데이터 세트에서 추출된 시각적 및 청각적 특징을 사용하여 분류자를 훈련하여 비디오에 존재하는 폭력 범주를 감지하는 방법을 학습합니다. 테스트 단계에서는 특정 비디오에 대한 폭력을 탐지하는 시스템의 정확도를 계산하여 시스템을 평가합니다. 각 단계는 다음 섹션에서 자세히 설명됩니다. 제안된 접근법의 개요는 그림 3.1을 참조하십시오. 마지막으로 시스템 평가에 사용되는 측정항목을 설명하는 섹션이 제공됩니다.

3.1. 훈련

이 섹션에서는 학습 단계와 관련된 단계에 대해 자세히 설명합니다. 제안된 훈련 접근 방식은 특징 추출, 특징 분류, 특징 융합의 세 가지 주요 단계로 구성됩니다. 다음 섹션에서는 이러한 세 단계를 각각 자세히 설명합니다. 이 단계의 처음 두 단계에서는 폭력이 포함되어 있고 폭력이 포함되어 있지 않은 비디오 세그먼트의 오디오 및 시각적 특징이 추출되어 2클래스 SVM 분류기를 훈련하는 데 사용됩니다. 그런 다음 기능 융합 단계에서 시스템이 타겟팅하는 각 폭력 유형에 대해 기능 가중치가 계산됩니다. 이러한 특징 가중치는 가능한 가중치 조합에 대해 그리드 검색을 수행하고 검증 세트에서 시스템 성능을 최적화하는 최상의 조합을 찾아 얻습니다. 여기서 최적화 기준은 시스템의 EER(Equal Error Rate)을 최소화하는 것입니다. 이러한 가중치를 찾기 위해 모든 대상 카테고리의 폭력적인 비디오를 포함하는 훈련 세트와 분리된 데이터 세트가 사용됩니다. 대상 카테고리에 대한 자세한 내용은 1장을 참조하세요.


그림 3.1: 시스템 개요를 보여주는 그림. Audio, Blood, Motion 및 SentiBank 기능에 대해 각각 하나씩 4개의 서로 다른 SVM 분류기가 훈련됩니다. 웹의 이미지는 비디오 프레임에서 혈액을 감지하는 혈액 모델을 개발하는 데 사용됩니다. 모든 기능에 대한 분류기를 훈련하기 위해 VSD2104 데이터 세트의 데이터가 사용됩니다. 이러한 분류기 각각은 폭력을 포함하는 비디오 세그먼트의 확률을 개별적으로 제공합니다. 그런 다음 이러한 개별 확률은 후기 융합 기술을 사용하여 결합되고 개별 확률의 가중 합인 최종 출력 확률이 시스템의 출력으로 표시됩니다. 시스템에 입력으로 제공되는 영상을 1초 단위의 세그먼트로 나누어 각 세그먼트에 폭력이 포함된 확률을 출력으로 얻는다.

3.1.1. 특징 추출

많은 연구자들이 다양한 오디오 및 시각적 기능을 사용하여 폭력 감지 문제를 해결하려고 노력해 왔습니다. 폭력 탐지 관련 연구에 대한 자세한 내용은 2장에서 제시한다. 이전 연구에서 폭력 탐지에 가장 많이 사용되는 시각적 특징은 움직임과 혈액이며, 가장 일반적으로 사용되는 오디오 특징은 MFCC이다. 이러한 세 가지 일반적인 하위 수준 기능과 함께 제안된 접근 방식에는 이미지의 감정을 나타내는 시각적 기능인 SentiBank(Borth et al. [4])도 포함됩니다. 폭력 탐지의 각 기능과 중요성, 사용된 추출 방법에 대한 자세한 내용은 다음 섹션에 설명되어 있습니다.

3.1.1.1. MFCC-기능

오디오 기능은 폭력적인 장면에서 흔히 발생하는 총성, 폭발 등의 이벤트를 감지하는 데 매우 중요한 역할을 합니다. 많은 연구자들이 폭력 탐지를 위해 오디오 기능을 사용해 왔으며 좋은 결과를 얻었습니다. 일부 초기 연구에서는 에너지 엔트로피를 살펴보았지만 [Nam et al. [41]] 오디오 신호에서 대부분은 비디오의 오디오 콘텐츠를 설명하기 위해 MFCC 기능을 사용했습니다. 이러한 MFCC 기능은 일반적으로 음성 및 오디오 인식에 사용됩니다.


이 작업에서는 VSD2014 데이터세트에 제공된 MFCC 기능을 사용하여 시스템을 개발하는 동안 SVM 분류기를 훈련합니다. 평가 중에 MFCC 기능은 입력 비디오의 오디오 스트림에서 추출되며 창 크기는 오디오 스트림의 프레임당 오디오 샘플 수로 설정됩니다. 이는 오디오 샘플링 속도를 비디오의 fps(초당 프레임 수) 값으로 나누어 계산합니다. 예를 들어 오디오 샘플링 속도가 44,100Hz이고 비디오가 25fps로 인코딩된 경우 각 창에는 1,764개의 오디오 샘플이 있습니다. 창 중첩 영역은 0으로 설정되고 각 창에 대해 22개의 MFCC가 계산됩니다. 이 설정을 사용하면 각 비디오 프레임에 대해 22차원 MFCC 특징 벡터가 얻어집니다.

3.1.1.2. 혈액의 특징

폭력이 극심한 장면에서 가장 흔히 볼 수 있는 요소는 혈액입니다. 예를 들어 구타, 찌르기, 총격, 폭발이 포함된 장면이 있습니다. 폭력 탐지에 관한 많은 초기 연구에서는 혈액을 나타내는 픽셀 탐지가 폭력의 중요한 지표이기 때문에 사용되었습니다. 프레임에서 혈액을 감지하기 위해 Nam et al.과 같은 대부분의 초기 연구에서는 미리 정의된 색상표가 사용되었습니다. [41] 및 Lin과 Wang [38]. Kohonen의 SOM(Self-Organizing Map)(Clarin et al. [12]) 사용과 같은 혈액 탐지에 대한 다른 접근 방식도 일부 초기 연구에서 사용되었습니다.


이 작업에서는 색상 모델을 사용하여 혈액을 나타내는 픽셀을 감지합니다. 이는 픽셀의 빨간색, 녹색 및 파란색 값에 대해 각각 1차원의 3차원 히스토그램을 사용하여 표현됩니다. 각 차원에는 각 Bin의 너비가 8(32 × 8 = 256)인 32개의 Bin이 있습니다. 이 혈액 모델은 두 단계로 생성됩니다. 첫 번째 단계에서는 혈액이 포함된 픽셀의 RGB(Red, Green, Blue) 값을 사용하여 혈액 모델을 부트스트랩합니다. 3차원 비닝된 히스토그램은 혈액이 포함된 픽셀의 RGB 값으로 채워집니다. 모델에 새로운 혈액 픽셀이 추가될 때마다 해당 혈액 픽셀이 속한 빈의 값이 1씩 증가합니다. 히스토그램을 채우기 위해 충분한 수의 블러디 픽셀이 사용되면 빈의 값은 모든 값의 합으로 정규화됩니다. 이제 각 빈의 값은 RGB 값을 고려하여 픽셀이 혈액을 표시할 확률을 나타냅니다. 혈액 모델을 채우기 위해 Google에서 다운로드한 혈액이 포함된 다양한 이미지에서 혈액이 포함된 픽셀을 잘라냅니다. 혈액 픽셀만 포함된 영역 자르기는 수동으로 수행됩니다. 각각 크기가 20픽셀 × 20픽셀인 잘린 영역의 샘플은 그림 3.2 이미지를 참조하십시오.


그림 3.2: 혈액이 포함된 20 × 20 크기의 샘플 절단 영역을 보여주는 그림.


모델이 부트스트랩되면 Google에서 다운로드한 이미지에서 혈액을 감지하는 데 사용됩니다. 혈액을 나타낼 확률이 높은 픽셀만 부트스트랩 모델을 추가로 확장하는 데 사용됩니다. 이미지 다운로드 및 혈액 모델 확장은 자동으로 수행됩니다. Google에서 혈액이 포함된 이미지를 다운로드하려면 "피 묻은 이미지", "피의 장면", "출혈", "실제 피 튄 자국", "피 뚝뚝"과 같은 검색어가 사용됩니다. 다운로드된 이미지의 샘플 중 일부는 그림 3.3에서 볼 수 있습니다. 혈액 확률이 높은 픽셀 값은 최소 100만 픽셀 값이 될 때까지 혈액 모델에 추가됩니다.


이 혈액 모델만으로는 혈액을 정확하게 감지하는 데 충분하지 않습니다. 이러한 혈액모델과 함께 비혈액모델도 필요합니다. 이를 생성하기 위해 이전 접근 방식과 유사하게 혈액이 포함되지 않은 이미지를 Google에서 다운로드하고 이러한 이미지의 RGB 픽셀 값을 사용하여 비혈액 모델을 구축합니다. 이 무혈 모델을 생성하는 데 사용된 일부 샘플 이미지가 그림 3.3에 나와 있습니다. 이제 이러한 혈액 및 비혈액 모델을 사용하여 혈액을 나타내는 픽셀의 확률은 다음과 같이 계산됩니다.



그림 3.3: 혈액 및 비혈액 모델을 생성하기 위해 Google에서 다운로드한 샘플 이미지를 보여주는 그림.


이 공식을 사용하여 주어진 이미지에 대해 각 픽셀이 혈액을 나타낼 확률을 계산하고 BPM(Blood Probability Map)을 생성합니다. 이 맵은 입력 이미지와 동일한 크기를 가지며 모든 픽셀에 대한 혈액 확률 값을 포함합니다. 이 BPM은 임계값을 사용하여 이진화되어 최종 이진화된 BPM을 생성합니다. BPM을 이진화하는 데 사용되는 임계값이 추정됩니다(Jones and Rehg [35]). 이 이진화된 BPM으로부터 혈액 비율, 혈액 확률 비율, 가장 큰 연결 구성 요소의 크기, 평균, 분산 등의 값을 포함하는 길이 14의 1차원 특징 벡터가 생성됩니다. 이 특징 벡터는 각 프레임마다 추출됩니다. 비디오에서 SVM 분류기를 훈련하는 데 사용됩니다. BPM 및 이진화된 BPM과 함께 샘플 이미지가 그림 3.4에 나와 있습니다. 이 그림에서 볼 수 있듯이 이 접근 방식은 혈액이 포함된 픽셀을 감지하는 데 매우 효과적이었습니다.


그림 3.4: 생성된 혈액 모델의 혈액 검출 성능을 보여주는 그림. 첫 번째 열에는 입력 이미지가 있고, 두 번째 열에는 혈액 확률 맵이 있으며, 마지막 열에는 이진화된 혈액 확률 맵이 있습니다.

3.1.1.3. 모션 기능

모션은 폭력 감지를 위해 널리 사용되는 또 다른 시각적 기능입니다. Deniz 등의 연구. [21], Nievaset al. [42] 및 Hassner et al. [28]은 모션이 폭력 감지의 주요 기능으로 사용되는 몇 가지 예입니다. 여기서 모션이란 비디오에서 연속된 두 프레임 사이의 시공간적 변화량을 의미합니다. 폭력이 포함된 장면에서는 상당한 양의 폭력이 예상되므로 움직임은 폭력을 나타내는 좋은 지표로 간주됩니다. 예를 들어 사람과 사람이 싸우는 장면에서는 다리나 손 등 인체 부위의 빠른 움직임이 있고, 폭발 장면에서는 폭발로 인해 날아가는 부분의 움직임이 많다. 폭발.


활동 감지를 위해 모션 정보를 사용한다는 아이디어는 심리학에서 비롯됩니다. 인간의 인식에 대한 연구는 움직임의 운동학적 패턴이 행동의 인식에 충분하다는 것을 보여주었습니다(Blake 및 Shiffrar [2]). 컴퓨터 비전에 대한 연구 조사(Saerbeck and Bartneck [50], Clarke et al. [13] 및 Hidaka [29])에서는 속도 및 가속도와 같은 상대적으로 단순한 동적 특징이 인간이 인지하는 감정과 상관관계가 있음을 보여주었습니다.


이 작업에서는 비디오 세그먼트의 모션 양을 계산하기 위해 두 가지 다른 접근 방식이 평가됩니다. 첫 번째 접근 방식은 비디오 코덱에 내장된 모션 정보를 이용하는 것이고, 다음 접근 방식은 광학 흐름을 이용하여 모션을 감지하는 것입니다. 이러한 접근법은 다음에 제시됩니다.


3.1.1.3.1. 코덱 사용

이 방법에서는 비디오 코덱에서 모션 정보를 추출합니다. 모션 벡터라고 하는 프레임당 각 픽셀의 모션 크기는 코덱에서 검색됩니다. 이 모션 벡터는 2차원 벡터이며 비디오 시퀀스의 프레임과 동일한 크기를 갖습니다. 이 모션 벡터로부터 프레임의 모션 양을 나타내는 모션 특징이 생성됩니다. 이 모션 특징을 생성하려면 먼저 모션 벡터를 x축과 y축을 따라 각각 3개와 4개의 영역으로 분할하여 동일한 크기의 12개 하위 영역으로 나눕니다. 각 하위 영역의 각 픽셀에서 x축과 y축을 따른 모션 양이 집계되고 이러한 합계는 각 프레임에 대한 2차원 모션 히스토그램을 생성하는 데 사용됩니다. 이 히스토그램은 프레임의 모션 벡터를 나타냅니다. 샘플 비디오의 프레임에 대해 집계된 모션 벡터의 시각화를 보려면 그림 3.5의 왼쪽 이미지를 참조하십시오. 이 시각화에서 모션 벡터는 16 × 16 픽셀 크기의 하위 영역에 대해 집계됩니다. 이 영역의 움직임 크기와 방향은 이미지에 겹쳐진 녹색 점선의 길이와 방향을 사용하여 표현됩니다.

3.1.1.3.2. 광학 흐름 사용

모션을 감지하는 다음 접근 방식은 광학 흐름(Wikipedia [57])을 사용합니다. 여기서는 Dense Optical Flow를 사용하여 프레임 내 각 픽셀의 움직임을 계산합니다. 이를 위해 OpenCV(Bradski [5])에서 제공하는 Gunner Farneback 알고리즘(Farneb¨ack [24])의 구현이 사용됩니다. 구현은 OpenCV에서 함수로 제공되며, 해당 함수 및 매개변수에 대한 자세한 내용은 OpenCV에서 제공하는 설명서(OpticalFlow [43])를 참조하세요. 값 0.5, 3, 15, 3, 5, 1.2 및 0은 각각 함수 매개변수 pyr scale,levels, win-size, iterations, 폴리 n, 폴리 시그마 및 플래그에 전달됩니다. 광학 흐름을 사용하여 모든 픽셀의 모션 벡터가 계산되면 위의 섹션 3.1.1.3.1에서 언급한 것과 동일한 프로세스를 사용하여 프레임의 모션 특징이 추출됩니다. 프레임에서 추출된 통합 모션 벡터의 느낌을 얻으려면 그림 3.5의 오른쪽 이미지를 참조하십시오. 모션 벡터는 코덱 정보와 광학 흐름을 사용하여 추출된 특징 간의 더 나은 비교를 제공하기 위해 이전 접근 방식과 마찬가지로 16×16 픽셀 크기의 하위 영역에 대해 집계됩니다.


비디오에서 모션 정보를 추출하기 위한 두 가지 접근 방식을 평가한 후 다음과 같은 관찰이 이루어집니다. 첫째, 모션 벡터가 미리 계산되어 비디오 코덱에 저장되므로 코덱에서 모션을 추출하는 것이 광학 흐름을 사용하는 것보다 훨씬 빠릅니다. 둘째, 광류를 이용한 모션 추출은 프레임에 흐릿한 영역이 있는 경우 그다지 효율적이지 않습니다. 이러한 흐림은 일반적으로 장면의 갑작스러운 움직임으로 인해 발생하며 폭력이 포함된 장면에서 매우 흔히 발생합니다. 따라서 폭력을 감지하기 위해 모션 정보를 추출하기 위해 광학 흐름을 사용하는 것은 유망한 접근 방식이 아닙니다. 따라서 이 작업에서는 비디오 코덱에 저장된 정보를 사용하여 모션 특징을 추출합니다. 모션 특징은 비디오의 각 프레임에서 추출되며 SVM 분류기를 훈련하는 데 사용됩니다.


그림 3.5: 코덱을 사용하여 추출한 프레임과 광학 흐름을 사용하여 추출한 프레임의 모션 정보.

3.1.1.4. SentiBank 기능

앞서 언급한 하위 수준 기능 외에도 Borth et al.이 소개한 SentiBank 기능이 있습니다. [4]도 적용된다. SentiBank는 대규모 VSO(Visual Sentiment Ontology)를 기반으로 한 시각적 콘텐츠의 중간 수준 표현입니다[1]. SentiBank는 1,200개의 의미 개념과 해당 자동 분류자로 구성되며 각각은 형용사 명사 쌍(ANP)으로 정의됩니다. 이러한 ANP는 강한 감정적 형용사를 사물이나 장면에 해당하는 명사와 연결합니다(예: "아름다운 하늘", "역겨운 벌레" 또는 "귀여운 아기"). 또한 각 ANP는 (1) 강한 감정을 반영하고, (2) 감정에 대한 링크를 가지며, (3) Flickr 또는 YouTube와 같은 플랫폼에서 자주 사용되며, (4) 합리적인 탐지 정확도를 갖습니다. 또한 VSO는 사람, 동물, 물체, 자연 또는 인공 장소와 같은 다양한 개념 클래스를 포괄할 수 있을 만큼 포괄적이고 다양하므로 분석되는 콘텐츠 유형에 대한 추가 통찰력을 제공합니다. SentiBank는 Borth et al.의 정서 분석에서 낮은 수준의 시각적 기능에 비해 우수한 성능을 보여주었기 때문입니다. [4], 비디오 프레임에서 폭력과 같은 복잡한 감정을 탐지하는 데 처음으로 사용되었습니다.


SentiBank는 1,200개의 SVM으로 구성되며, 각각은 이미지에서 1,200개의 의미 개념 중 하나를 감지하도록 훈련되었습니다. 각 SVM은 이미지에 특정 감정이 포함되어 있는지 여부에 따라 이진 출력 0/1을 제공하는 이진 분류자입니다. 비디오의 특정 프레임에 대해 1,200개 SVM의 출력을 모두 포함하는 벡터가 SentiBank 기능으로 간주됩니다. 이 기능을 추출하기 위해 Python 기반 구현이 활용됩니다. SVM 분류기 학습에는 학습 영상의 각 프레임에서 추출된 SentiBank 특징이 사용됩니다. SentiBank 기능 추출은 사전 훈련된 1,200개의 SVM에서 출력을 수집하므로 몇 초 정도 걸립니다. 특징 추출에 소요되는 시간을 줄이기 위해 멀티프로세싱을 사용하여 각 프레임의 SentiBank 특징을 병렬로 추출합니다.

3.1.2. 기능 분류

기능 추출 후 파이프라인의 다음 단계는 기능 분류이며 이 섹션에서는 이 단계에 대한 세부 정보를 제공합니다. 분류기의 선택과 사용된 훈련 기술은 좋은 분류 결과를 얻는 데 매우 중요한 역할을 합니다. 본 연구에서는 분류를 위해 SVM을 사용합니다. 이러한 선택의 주된 이유는 폭력 탐지에 관한 초기 연구에서 SVM을 사용하여 오디오 및 시각적 특징을 분류하고 좋은 결과를 얻었기 때문입니다. 2장에서 언급된 거의 모든 작업에서 SVM은 사용되는 커널 기능이 다를 수 있지만 분류에 사용됩니다.


훈련 세트에 있는 모든 비디오에서 섹션 3.1.1에 설명된 프로세스를 사용하여 오디오 및 시각적 특징이 추출됩니다. 그런 다음 이러한 기능은 두 세트로 나누어집니다. 하나는 분류기를 훈련하기 위한 것이고 다른 하나는 훈련된 분류기의 분류 정확도를 테스트하기 위한 것입니다. 여기서 사용된 분류자는 SVM이므로 어떤 커널을 사용할지, 어떤 커널 매개변수를 설정할지 선택해야 합니다. 최상의 커널 유형과 커널 매개변수를 찾기 위해 그리드 검색 기술이 사용됩니다. 이 그리드 검색에서는 최상의 분류 결과를 제공하는 최상의 조합을 찾기 위해 선형, RBF(방사형 기초 함수) 및 카이-제곱 커널과 해당 매개변수 값 범위를 테스트합니다. 이 접근 방식을 사용하면 각 기능 유형에 대해 하나씩, 4개의 서로 다른 분류기가 훈련됩니다. 이렇게 훈련된 분류자는 다음 단계에서 특징 가중치를 찾는 데 사용됩니다. 이 연구에서는 scikit-learn(Pedregosa et al. [45])과 LibSVM(Chang and Lin [9])에서 제공하는 SVM 구현이 사용됩니다.

3.1.3. 기능 융합

특징 융합 단계에서는 각 특징 분류기의 출력 확률을 융합하여 비디오 세그먼트에 존재하는 폭력 클래스와 함께 폭력의 최종 점수를 얻습니다. 이 융합은 각 기능 분류기의 확률에 대한 가중 합을 계산하여 수행됩니다. 해당 영상이 속한 폭력 등급을 판별하는 절차는 다음과 같습니다. 먼저, 각 대상 폭력 클래스에 속하는 영상으로부터 시청각적 특징을 추출한다. 그런 다음 이러한 특징은 훈련된 이진 SVM 분류기에 전달되어 폭력이 포함된 각 비디오의 확률을 얻습니다. 이제 각 기능 분류기의 출력 확률은 각 기능 분류기에 각 폭력 클래스에 대한 가중치를 할당하고 가중 합계를 계산하여 융합됩니다. 각 기능 분류자에 할당된 가중치는 특정 폭력 클래스를 감지하는 기능의 중요성을 나타냅니다. 시스템이 올바른 폭력 클래스를 감지하려면 각 폭력 클래스에 대해 이러한 기능 가중치를 적절하게 조정해야 합니다.


가중치를 구하는 방법에는 두 가지가 있습니다. 첫 번째 접근 방식은 각 폭력 유형에 대한 기능 분류기의 가중치를 수동으로 조정하는 것입니다. 이 접근 방식은 폭력의 종류를 탐지하는 기능의 중요성에 대해 많은 직관을 필요로 하며 오류가 발생하기 쉽습니다. 다른 접근 방식은 가능한 가중치 범위에서 가중치 세트를 샘플링하는 그리드 검색 메커니즘을 사용하여 가중치를 찾는 것입니다. 이 경우 각 특징 분류기의 가능한 가중치 범위는 [0,1]이며 모든 특징 분류기의 가중치 합은 1이 된다는 제약 조건이 적용됩니다. 이 작업에서는 후자의 접근 방식이 사용되며 모든 1에 해당하는 중량 조합이 열거됩니다. 이러한 가중치 조합 각각은 폭력 클래스에 대한 분류자 확률의 가중 합을 계산하는 데 사용되며, 가장 높은 합계를 생성하는 가중치 조합의 가중치는 해당 폭력 클래스에 대한 각 분류자에 할당됩니다. 이러한 가중치를 계산하려면 훈련 세트에 가중치가 과도하게 적용되는 것을 방지하기 위해 훈련 세트와 다른 데이터 세트가 사용됩니다. 가중치 계산에 사용된 데이터세트에는 이 작업에서 대상으로 삼은 모든 종류의 폭력에 대한 비디오가 포함되어 있습니다. 훈련된 각 SVM 분류기는 본질적으로 이진형이지만 이러한 분류기의 출력 값은 가중 합을 사용하여 결합되어 비디오가 속하는 특정 폭력 클래스를 찾을 수 있다는 점에 유의하는 것이 중요합니다.

3.2. 테스트

이 단계에서는 주어진 입력 비디오에 대해 폭력을 포함하는 각 세그먼트가 존재하는 폭력의 클래스와 함께 감지됩니다. 특정 동영상에 대해 폭력이 포함된 세그먼트와 폭력 카테고리를 감지하는 데 다음 접근 방식이 사용됩니다. 첫째, 매 프레임마다 특징을 추출하는 것이 아니라 영상의 첫 번째 프레임부터 1초마다 한 프레임씩 시각 및 청각 특징을 추출한다. 특징이 추출된 이러한 프레임은 비디오의 1초 세그먼트를 나타냅니다. 그런 다음 이러한 1초 비디오 세그먼트의 특징은 훈련된 이진 SVM 분류기에 전달되어 각 비디오 세그먼트의 폭력성 또는 비폭력성 점수를 얻습니다. 그런 다음 융합 단계에서 찾은 해당 가중치를 사용하여 각 폭력 범주에 대해 개별 분류기의 출력 값에 대한 가중치 합을 계산합니다. 따라서 길이가 'X'초인 주어진 비디오에 대해 시스템은 길이가 'X'인 벡터를 출력합니다. 이 벡터의 각 요소는 각 폭력 등급을 점수 값과 매핑하는 사전입니다. 이 접근 방식을 사용하는 이유는 두 가지입니다. 첫째는 비디오에서 폭력이 포함된 시간 간격을 감지하고 폭력을 감지하는 시스템의 속도를 높이기 위한 것입니다. 특징 추출, 특히 Sentibank 특징 추출은 시간이 많이 걸리고 모든 프레임에 대해 이를 수행하면 시스템이 느려집니다. 그러나 이러한 접근 방식은 매 프레임이 아닌 매 초마다 폭력을 감지하므로 시스템의 정확성에 부정적인 영향을 미칩니다.

3.3. 평가 지표

분류 시스템의 성능을 측정하는 데 사용할 수 있는 다양한 측정항목이 있습니다. 이진 분류에 사용되는 측정값 중 일부는 정확도, 정밀도, 재현율(민감도), 특이성, F-점수, EER(동일 오류율) 및 AUC(곡선 아래 면적)입니다. 평균 정밀도(AP) 및 평균 평균 정밀도(MAP)와 같은 일부 다른 측정값은 순위 목록을 쿼리 결과로 반환하는 시스템에 사용됩니다. 기계 학습 및 데이터 마이닝 연구에서 점점 더 많이 사용되는 이러한 측정 방법의 대부분은 정보 검색(Rijsbergen [49]) 및 생체 인식과 같은 다른 분야에서 차용되었습니다. 이러한 조치에 대한 자세한 논의는 Parker[44]와 Sokolova 및 Lapalme[53]의 연구를 참조하십시오. ROC(Receiver Operating Characteristic) 곡선은 이진 분류 시스템을 평가하거나 비교하는 데 널리 사용되는 또 다른 방법입니다. AUC 및 EER과 같은 측정값은 ROC 곡선에서 계산할 수 있습니다.


이 작업에서 ROC 곡선은 다음 용도로 사용됩니다. (i) 개별 분류기의 성능을 비교합니다. (ii) 다중 클래스 분류 작업에서 다양한 폭력 클래스를 감지하는 시스템 성능을 비교합니다. (iii) 이진 분류 작업에서 YouTube 및 Hollywood-Test 데이터 세트의 시스템 성능을 비교합니다. 여기에 사용되는 다른 측정항목으로는 Precision, Recall 및 EER이 있습니다. 이러한 측정값은 폭력 탐지에 관한 이전 연구에서 가장 일반적으로 사용되는 측정값이므로 사용됩니다. 이 시스템에서는 EER을 최소화하기 위해 매개변수(퓨전 가중치)가 조정됩니다.

3.4. 요약

이 장에서는 폭력을 탐지하기 위해 이 작업에서 따르는 접근 방식에 대한 자세한 설명이 제시됩니다. 첫 번째 섹션에서는 훈련 단계를 다루고 두 번째 섹션에서는 테스트 단계를 다룹니다. 첫 번째 섹션에서는 학습 단계와 관련된 다양한 단계를 자세히 설명합니다. 먼저 오디오 및 시각적 특징 추출에 대해 논의하고 어떤 특징이 사용되며 어떻게 추출되는지 자세히 설명합니다. 다음으로 추출된 특징을 분류하는 데 사용되는 분류 기법에 대해 설명합니다. 마지막으로 특성 융합을 위한 특성 가중치를 계산하는 데 사용되는 프로세스에 대해 설명합니다. 두 번째 섹션에서는 테스트 단계에서 폭력이 포함된 비디오 세그먼트를 추출하고 이러한 세그먼트에서 폭력 클래스를 감지하는 데 사용되는 프로세스에 대해 논의합니다.


요약하자면, 이 접근 방식에서 따르는 단계는 특징 추출, 특징 분류, 특징 융합 및 테스트입니다. 처음 세 단계는 훈련 단계를 구성하고 마지막 단계는 테스트 단계입니다. 훈련 단계에서는 비디오에서 오디오 및 시각적 특징이 추출되며 각 특징에 대해 하나씩 이진 SVM 분류기를 훈련하는 데 사용됩니다. 그런 다음 별도의 데이터 세트를 사용하여 검증 데이터 세트에서 시스템의 EER을 최소화하는 특성 가중치를 찾습니다. 최종 테스트 단계에서는 먼저 입력 테스트 비디오의 1초 비디오 세그먼트당 시각적 및 오디오 특징을 하나씩 추출합니다. 그런 다음 이러한 특징은 훈련된 SVM 분류자에게 전달되어 폭력을 나타내는 이러한 특징의 확률을 얻습니다. 이러한 출력 확률의 가중 합은 특성 융합 단계에서 얻은 가중치를 사용하여 각 폭력 유형에 대해 계산됩니다. 가중치 합이 최대가 되는 폭력 유형은 해당 1초 동영상 세그먼트에 라벨로 지정됩니다. 이러한 라벨을 사용하면 폭력이 포함된 세그먼트와 여기에 포함된 폭력 클래스가 시스템의 출력으로 표시됩니다. 이 시스템의 실험 설정 및 평가는 다음 장에 나와 있습니다.



이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.


[1] http://visual-sentiment-ontology.appspot.com