paint-brush
영상 속 폭력 탐지: 관련 연구 ~에 의해@kinetograph

영상 속 폭력 탐지: 관련 연구

너무 오래; 읽다

본 논문에서 연구자들은 분류를 위해 오디오 및 시각적 단서를 활용하여 비디오의 폭력을 자동으로 감지하는 시스템을 제안합니다.
featured image - 영상 속 폭력 탐지: 관련 연구
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


저자:

(1) 센트럴 플로리다 대학교 Praveen Tirupattur.

링크 표

2. 관련 업무

폭력 감지는 활동 인식의 하위 작업으로, 영상에서 폭력적인 활동을 감지합니다. 이는 일종의 멀티미디어 이벤트 감지로도 간주될 수 있습니다. 이 문제를 해결하기 위해 몇 가지 접근법이 이미 제안되었습니다. 이러한 제안된 접근 방식은 세 가지 범주로 분류될 수 있습니다. (i) 시각적 기능만 사용되는 접근 방식입니다. (ii) 오디오 기능만 사용되는 접근 방식. (iii) 오디오 및 시각적 기능을 모두 사용하는 접근 방식. 여기서 관심 있는 카테고리는 비디오와 오디오가 모두 사용되는 세 번째 카테고리입니다. 이 장에서는 이러한 각 범주에 속하는 이전 접근 방식 중 일부에 대한 개요를 제공합니다.

2.1. 오디오 및 비디오 사용

청각 및 시각적 신호를 모두 사용하여 폭력을 감지하려는 초기 시도는 Nam et al. [41]. 그들의 작업에서는 폭력적인 장면을 감지하고 색인을 생성하여 콘텐츠 기반 비디오 검색이 가능하도록 오디오 및 시각적 기능을 모두 활용합니다. 여기서는 각 샷에 대해 시공간적 동적 활동 시그니처를 추출하여 폭력적 또는 비폭력적으로 분류합니다. 이 시공간 동적 활동 기능은 장면에 존재하는 동적 동작의 양을 기반으로 합니다.


샷의 프레임 사이에 공간적 움직임이 많을수록 특징이 더욱 중요해집니다. 이 접근 방식의 이유는 대부분의 액션 장면에 사람이나 사물의 빠르고 상당한 양의 움직임이 포함된다는 것입니다. 샷에 대한 시공간적 활동 특성을 계산하기 위해 샷의 모션 시퀀스를 획득하고 샷의 길이로 정규화하여 길이가 짧고 프레임 간 공간적 움직임이 높은 샷만 더 높은 값을 갖도록 합니다. 활동 기능의


이 외에도 총성이나 폭발로 인한 화염을 감지하기 위해 프레임 간 픽셀 강도 값의 급격한 변화를 검사합니다. 카메라 플래시로 인한 강도 변화와 같은 오탐을 제거하기 위해 노란색, 주황색, 빨간색 등 불꽃 색상에 가까운 색상 값을 갖는 사전 정의된 색상표가 사용됩니다. 대부분의 폭력적인 장면에서 흔히 볼 수 있는 혈액 감지와 유사하게, 프레임 내 픽셀 색상은 혈액과 유사한 색상이 포함된 사전 정의된 색상표와 일치됩니다. 이러한 시각적 특징 자체만으로는 폭력을 효과적으로 감지하기에 충분하지 않습니다. 따라서 오디오 기능도 고려됩니다.


오디오 신호의 에너지 레벨의 급격한 변화는 오디오 신호로 사용됩니다. 에너지 엔트로피는 각 프레임마다 계산되며 이 값의 급격한 변화는 폭발이나 총소리와 같은 폭력적인 이벤트를 식별하는 데 사용됩니다. 폭력이 포함된 장면을 더 정확하게 얻을 수 있도록 오디오 및 시각적 단서가 시간 동기화됩니다. 이 논문의 주요 공헌 중 하나는 폭력을 감지하기 위해 청각 및 시각적 단서의 필요성을 강조하는 것입니다.


Gong et al. [27]은 또한 영화에서 폭력을 감지하기 위해 시각 및 청각 신호를 모두 사용했습니다. 폭력을 탐지하는 3단계 접근 방식이 설명되어 있습니다. 첫 번째 단계에서는 비디오의 각 장면에 대해 낮은 수준의 시각 및 청각 특징이 추출됩니다. 이러한 기능은 잠재적으로 폭력적인 콘텐츠가 포함된 후보 장면을 감지하도록 분류기를 훈련하는 데 사용됩니다. 다음 단계에서는 높은 수준의 오디오 효과를 사용하여 후보 샷을 감지합니다. 이 단계에서는 높은 수준의 오디오 효과를 탐지하기 위해 전력 스펙트럼, 피치, MFCC(Mel-Frequency Cepstral Coefficients) 및 조화 돌출도(Cai)와 같은 낮은 수준의 오디오 기능을 사용하여 오디오 효과의 각 범주에 대해 SVM 분류기를 훈련합니다. 등 [7]). 각 SVM의 출력은 [0,1] 사이의 연속 값인 시그모이드에 대한 확률 매핑으로 해석될 수 있습니다(Platt et al. [46]). 마지막 단계에서는 처음 두 단계의 확률적 출력을 부스팅을 통해 결합하고, 첫 두 단계의 점수를 가중합하여 총격의 최종 폭력 점수를 계산합니다.


이러한 가중치는 검증 데이터 세트를 사용하여 계산되며 평균 정밀도를 최대화할 것으로 예상됩니다. Gong et al. [27]은 보편적인 영화 제작 규칙을 따르는 영화에서 폭력을 탐지하는 데에만 집중합니다. 예를 들어, 액션 장면에서 빠르게 진행되는 사운드입니다. 폭력적인 콘텐츠는 폭발, 총성 등 폭력과 관련된 빠르게 진행되는 장면과 오디오 이벤트를 감지하여 식별됩니다. 사용된 훈련 및 테스트 데이터는 폭력적인 장면이 많이 포함된 4개의 할리우드 액션 영화 모음에서 나온 것입니다. 이 접근 방식이 좋은 결과를 가져왔지만 일부 영화 제작 규칙을 따르는 영화에서만 폭력을 감지하는 데 최적화되어 있으며 사용자가 Facebook, Youtube와 같은 웹사이트에 업로드한 동영상에서는 작동하지 않는다는 점에 유의해야 합니다. , 등.


Lin과 Wang의 작업에서[38] 비디오 시퀀스는 샷으로 나누어지고 각 샷에 대해 오디오 및 비디오 기능 모두 폭력 또는 비폭력으로 분류되고 출력은 공동 훈련을 사용하여 결합됩니다. 수정된 pLSA 알고리즘(Hofmann [30])은 오디오 세그먼트에서 폭력을 탐지하는 데 사용됩니다. 오디오 세그먼트는 각각 1초의 오디오 클립으로 분할되며 전력 스펙트럼, MFCC, 피치, ZCR(Zero Cross Rate) 비율 및 조화성 돌출부와 같은 낮은 수준의 특징을 포함하는 특징 벡터로 표현됩니다(Cai et al. [7]) . 이러한 벡터는 클러스터링되어 오디오 어휘를 나타내는 클러스터 중심을 얻습니다. 그런 다음 각 오디오 세그먼트는 이 어휘를 오디오 문서로 사용하여 표현됩니다. 기대 최대화 알고리즘(Dempster et al. [20])은 나중에 오디오 세그먼트 분류에 사용되는 오디오 모델을 맞추는 데 사용됩니다. 비디오 세그먼트에서 폭력을 감지하기 위해 세 가지 일반적인 시각적 폭력 이벤트(움직임, 화염/폭발 및 혈액)가 사용됩니다. 모션 강도는 빠르게 움직이는 영역을 감지하고 각 프레임의 모션 특징을 추출하는 데 사용되며, 이를 통해 폭력적인 프레임과 비폭력적인 프레임을 분류하는 데 사용됩니다. 프레임 내 화염 및 폭발을 감지하고 분류하기 위해 컬러 모델과 모션 모델을 사용합니다. 마찬가지로 컬러 모델과 모션 강도를 이용해 혈액이 포함된 영역을 감지하고, 해당 프레임에 대해 미리 정의된 값보다 크면 폭력적인 것으로 분류합니다. 비디오 세그먼트의 최종 폭력 점수는 위에서 언급한 세 가지 개별 점수의 가중 합으로 구해집니다. 여기에 사용된 기능은 Nam et al.에서 사용한 기능과 동일합니다. [41]. 비디오와 오디오 스트림의 분류 점수를 결합하기 위해 공동 훈련이 사용됩니다. 학습 및 테스트를 위해 5개의 할리우드 영화로 구성된 데이터 세트가 사용되었으며 폭력적인 장면을 탐지하는 데 약 0.85의 정밀도와 약 0.90의 재현율을 얻었습니다. 이 작업도 영화에서만 폭력 탐지를 목표로 하고 웹에서 볼 수 있는 비디오에서는 그렇지 않습니다. 그러나 결과는 움직임과 혈액과 같은 시각적 특징이 폭력 탐지에 매우 중요하다는 것을 시사합니다.

2.2. 오디오 또는 비디오 사용

지금까지 언급된 모든 접근 방식은 오디오 및 시각적 신호를 모두 사용하지만 폭력을 감지하기 위해 비디오 또는 오디오를 사용하는 방법도 있고 주먹 싸움과 같은 특정 유형의 폭력 중 하나만 감지하려는 방법도 있습니다. 이러한 접근법에 대한 간략한 개요가 다음에 제시됩니다.


비디오의 의미적 맥락을 감지하기 위해 오디오만 사용한 유일한 연구 중 하나는 Cheng et al. [11]에서는 Gaussian 혼합 모델과 Hidden Markov 모델을 기반으로 한 계층적 접근 방식을 사용하여 총성, 폭발 및 자동차 제동을 인식합니다. Dattaet al. [14]는 대부분의 접근 방식처럼 장면 수준이 아닌 개체 수준에서 폭력을 분석하여 주먹 싸움, 발로 차기, 물건으로 때리기 등만 포함되는 비디오에서 사람 간의 폭력을 탐지하려고 시도했습니다. 여기서는 장면 내에서 움직이는 객체를 검출하고, 사람을 대표하는 객체만을 검출하기 위해 사람 모델을 사용한다. 이로부터 사람 팔다리의 모션 궤적과 방향 정보를 사용하여 사람 간의 싸움을 감지합니다.


Clarinet al. [12]는 영화에서 폭력을 감지하기 위해 DOVE라는 자동화 시스템을 개발했습니다. 여기서는 혈액만으로 폭력적인 장면을 감지하는 데 사용됩니다. 시스템은 각 장면에서 키 프레임을 추출하고 이를 학습된 자체 조직 맵에 전달하여 픽셀에 피부, 혈액 또는 비피부/비혈이라는 레이블을 지정합니다. 그런 다음 레이블이 지정된 픽셀을 연결된 구성 요소를 통해 그룹화하고 폭력 가능성이 있는지 관찰합니다. 피부와 혈액 성분이 포함된 픽셀 영역에 큰 변화가 있으면 장면이 폭력적인 것으로 간주됩니다. 싸움 감지에 대한 또 다른 연구는 Nievas et al. Bag-of-Words 프레임워크는 작업 설명자 Space-Time Interest Points(STIP - Laptev [37]) 및 Motion Scale-invariant feature 변환(MoSIFT - Chen 및 Hauptmann [10])과 함께 사용됩니다. 저자는 싸움과 비싸움 두 그룹으로 나누어진 1,000개의 비디오로 구성된 새로운 비디오 데이터 세트를 소개했습니다. 각 그룹에는 500개의 비디오가 있고 각 비디오의 길이는 1초입니다. 이 데이터세트를 사용한 실험에서는 액션 영화의 싸움이 포함된 데이터세트에서 90%의 정확도를 얻었습니다.


Denizet al. [21]은 극단적인 가속 패턴을 주요 특징으로 사용하여 비디오에서 폭력을 탐지하는 새로운 방법을 제안했습니다. 이 방법은 최첨단 동작 인식 시스템보다 15배 빠르며, 싸움이 포함된 장면을 감지하는 데에도 정확도가 매우 높습니다. 이 접근 방식은 정확성뿐만 아니라 속도도 중요한 실시간 폭력 탐지 시스템에 매우 유용합니다. 이 접근 방식은 연속된 두 프레임의 파워 스펙트럼을 비교하여 갑작스러운 움직임을 감지하고, 움직임의 양에 따라 장면을 폭력적이거나 비폭력적인 장면으로 분류합니다. 이 방법은 동작을 감지하기 위해 특징 추적을 사용하지 않으므로 흐려짐에 영향을 받지 않습니다. Hassneret al. [28]은 혼잡한 장면에서 폭력을 실시간으로 감지하는 접근 방식을 도입했습니다. 이 방법은 시간에 따른 흐름 벡터 규모의 변화를 고려합니다. 짧은 프레임 시퀀스에 대한 이러한 변경 사항을 ViF(Violent Flows) 설명자라고 합니다. 그런 다음 이러한 설명자는 선형 SVM(Support Vector Machine)을 사용하여 폭력적인 장면과 비폭력적인 장면을 분류하는 데 사용됩니다. 이 방법은 프레임 간의 흐름 정보만을 사용하고, 높은 수준의 형상 및 동작 분석을 생략하므로 실시간 운용이 가능합니다. 이 작업을 위해 저자는 YouTube에서 폭력적인 군중 행동이 포함된 비디오를 다운로드하여 자체 데이터세트를 만들었습니다.


이러한 모든 작업은 비디오에서 폭력을 감지하기 위해 다양한 접근 방식을 사용하며 모두 훈련 및 테스트를 위해 자체 데이터 세트를 사용합니다. 그들은 모두 폭력에 대한 자신만의 정의를 가지고 있습니다. 이는 독립적인 기본 데이터 세트와 폭력에 대한 공통 정의가 부족하여 서로 다른 접근법 간의 비교가 의미가 없다는 폭력 탐지의 주요 문제를 보여줍니다.


이 문제를 해결하기 위해 Demarty et al. [16]은 멀티미디어 벤치마킹 이니셔티브인 MediaEval-2011 [1]의 일환으로 영화에서 폭력 부분을 자동으로 감지하기 위한 벤치마크를 제시했습니다. 이 벤치마크는 폭력과 평가 프로토콜 및 지표에 대한 공통 정의가 포함된 일관되고 실질적인 데이터 세트를 제공하므로 매우 유용합니다. 제공된 데이터 세트의 세부 사항은 섹션 4.1에서 자세히 설명합니다. 비디오의 폭력 인식에 관한 최근 연구에서는 이 데이터 세트를 사용했으며 그 중 일부에 대한 세부 정보는 다음에 제공됩니다.

2.3. MediaEval VSD 사용

Acaret al. [1]은 영화의 폭력 탐지를 위해 1클래스 및 2클래스 SVM을 사용하여 감독 방식으로 시각적 기능과 오디오 기능을 병합하는 접근 방식을 제안했습니다. 영화의 비디오 샷에서 낮은 수준의 시각적 및 오디오 특징을 추출한 다음 초기 융합 방식으로 결합하여 SVM을 교육합니다. 오디오 콘텐츠를 기술하기 위해 MFCC 특징을 추출하고, 시각적 콘텐츠를 위해 SIFT(Scale-Invariant Feature Transform - Lowe [39]) 기반 Bag-of-Words 접근 방식을 사용합니다.


Jianget al. [33]은 국소 패치 궤적의 모양과 움직임에서 파생된 일련의 특징을 기반으로 폭력을 탐지하는 방법을 제안했습니다(Jiang et al. [34]). 이러한 패치 궤적과 함께 SIFT, STIP 및 MFCC 기능과 같은 다른 기능이 추출되어 SVM 분류기를 훈련하여 다양한 범주의 폭력을 감지하는 데 사용됩니다. 정확도를 높이기 위해 점수 및 특징 평활화가 수행됩니다.


Lamet al. [36]은 MediaEval에서 제공하는 데이터 세트 및 평가 프로토콜을 사용하여 폭력 장면 감지 작업에 대한 저수준 오디오/시각 기능의 성능을 평가했습니다. 이 작업에서는 모션 및 MFCC 오디오 기능과 함께 로컬 및 글로벌 시각적 기능이 모두 사용됩니다. 이러한 모든 기능은 샷의 각 키프레임에 대해 추출되고 풀링되어 해당 샷에 대한 단일 기능 벡터를 형성합니다. SVM 분류자는 이 특징 벡터를 기반으로 샷을 폭력적이거나 비폭력적으로 분류하도록 훈련됩니다. Eybenet al. [23]은 폭력 탐지를 위해 시청각 분류와 함께 대규모 세그먼트 특징 추출을 적용했습니다. 오디오 특징 추출은 오픈 소스 특징 추출 툴킷 openSmile(Eyben and Schuller [22])을 사용하여 수행됩니다. HSV(색조 채도 값) 히스토그램, 광학 흐름 분석, 라플라시안 가장자리 감지와 같은 낮은 수준의 시각적 기능이 계산되어 폭력 감지에 사용됩니다. 분류에는 선형 SVM 분류기가 사용되며 융합에는 간단한 점수 평균이 사용됩니다.

2.4. 요약

요약하면, 위에 설명된 거의 모든 방법은 단지 몇 가지만을 기대하면서 다양한 오디오 및 시각적 기능을 사용하여 영화에서 폭력을 감지하려고 시도합니다 [Nievas et al. [42], Hassneret al. [28]] 이는 감시 카메라 또는 기타 실시간 비디오 시스템의 비디오 데이터를 사용합니다. 또한 이러한 모든 작품이 동일한 데이터세트를 사용하는 것은 아니며 각각 폭력에 대한 자체 정의가 있다는 점도 관찰할 수 있습니다. 2011년 VSD(폭력 장면 감지)를 위한 MediaEval 데이터 세트가 도입되면서 이 문제가 해결되었습니다. 데이터 세트의 최신 버전인 VSD2014에는 헐리우드 영화를 제외한 Youtube의 비디오 콘텐츠도 포함되어 있으며 연구자들이 사용자 생성 비디오 콘텐츠에 대한 접근 방식을 테스트하도록 권장합니다.

2.5. 기여

3장에 제시된 제안된 접근 방식은 2장에서 논의된 폭력 탐지에 대한 초기 연구에서 영감을 얻었습니다. 제안된 접근 방식에서는 폭력 탐지에 청각 및 시각적 신호가 모두 사용됩니다. MFCC 기능은 오디오 콘텐츠를 기술하는 데 사용되며, Blood, Motion 및 SentiBank 기능은 비디오 콘텐츠를 기술하는 데 사용됩니다. SVM 분류기는 이러한 각 특징을 분류하는 데 사용되며 분류기 점수를 융합하기 위해 후기 융합이 적용됩니다.


이 접근법은 폭력 탐지에 대한 초기 연구를 기반으로 하지만 이 접근법의 중요한 기여는 다음과 같습니다. (i) 다양한 종류의 폭력 탐지. 폭력 탐지에 대한 이전 작업은 비디오에서 폭력의 존재를 탐지하는 데에만 집중되었습니다. 이 제안된 접근 방식은 이 문제를 해결하는 첫 번째 접근 방식 중 하나입니다. (ii) SentiBank 기능을 사용하여 비디오의 시각적 콘텐츠를 설명합니다. SentiBank는 이미지의 감정을 설명하는 데 사용되는 시각적 기능입니다. 이 기능은 이전에 비디오에서 성인 콘텐츠를 감지하는 데 사용되었습니다(Schulze et al. [52]). 본 작품에서는 처음으로 폭력적인 내용을 탐지하는 데 사용됩니다. (iii) 웹의 이미지를 사용하여 생성된 3차원 색상 모델을 사용하여 혈액을 나타내는 픽셀을 감지합니다. 이 색상 모델은 매우 견고하며 혈액 감지에 있어 매우 좋은 결과를 보여줍니다. (iv) 모션 특징을 생성하기 위해 비디오 코덱에 내장된 정보를 사용합니다. 이 접근 방식은 각 픽셀의 모션 벡터가 미리 계산되어 비디오 코덱에 저장되므로 다른 접근 방식에 비해 매우 빠릅니다. 제안된 접근법에 대한 자세한 설명은 다음 장인 3장에서 제시됩니다.



이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.


[1] http://www.multimediaeval.org