paint-brush
동영상의 폭력 감지: 소개~에 의해@kinetograph

동영상의 폭력 감지: 소개

너무 오래; 읽다

본 논문에서 연구자들은 분류를 위해 오디오 및 시각적 단서를 활용하여 비디오의 폭력을 자동으로 감지하는 시스템을 제안합니다.
featured image - 동영상의 폭력 감지: 소개
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


저자:

(1) 센트럴 플로리다 대학교 Praveen Tirupattur.

링크 표

1. 소개

소셜 네트워킹 웹사이트에 업로드된 멀티미디어 콘텐츠의 양과 어린이가 이러한 콘텐츠에 쉽게 액세스할 수 있다는 점은 자녀가 웹에서 폭력적이고 성인적인 콘텐츠에 노출되지 않도록 보호하려는 부모에게 문제를 제기하고 있습니다. YouTube, Facebook 등의 웹사이트에 동영상을 업로드하는 횟수가 증가하고 있습니다. 지난 1년 동안 Facebook(Blog-FB[3])의 비디오 게시물 수가 75% 증가했으며 매일 120,000개 이상의 비디오가 YouTube에 업로드됩니다(Wesch [56], Gill et al. 26]). 이들 웹사이트에 업로드된 비디오 중 20%가 폭력적이거나 성인적인 콘텐츠를 포함하고 있는 것으로 추정됩니다(Sparks [54]). 이로 인해 어린이가 이러한 안전하지 않은 콘텐츠에 쉽게 접근하거나 실수로 노출될 수 있습니다. 폭력적인 콘텐츠를 시청하는 것이 아동에게 미치는 영향은 심리학에서 잘 연구되어 있습니다(Tompkins [55], Sparks [54], Bushman and Huesmann [6], Huesmann and Taylor [32]). 내용은 아이들의 정서에 상당한 영향을 미칩니다. 주요 효과는 공격적이거나 두려운 행동의 가능성이 증가하고 다른 사람의 고통과 괴로움에 덜 민감해지는 것입니다. Huesmann과 Eron[31]은 텔레비전에서 여러 시간 동안 폭력을 시청한 초등학교 어린이들을 대상으로 연구를 수행했습니다. 이 아이들을 성인기까지 관찰한 결과, 8세 때 텔레비전 폭력을 많이 본 아이들은 성인이 되어 범죄 행위로 체포되거나 기소될 가능성이 더 높다는 사실을 발견했습니다. Flood[25]와 Mitchell et al.의 유사한 연구. [40]은 성인 콘텐츠에 노출되면 어린이에게도 해로운 영향을 미친다고 제안합니다. 이는 비디오의 자동 폭력 및 성인 콘텐츠 감지 분야에 대한 연구에 동기를 부여했습니다.


성인 콘텐츠 탐지(Chan et al. [8], Schulze et al. [52], Pogrebnyak et al. [47])는 잘 연구되었으며 많은 진전이 있었습니다. 반면에 폭력 탐지는 덜 연구되었으며 최근에야 관심을 얻었습니다. 과거에는 폭력 탐지를 위한 접근 방식이 거의 제안되지 않았으며 이러한 각 접근 방식은 서로 다른 시각 및 청각 기능을 사용하여 폭력을 탐지하려고 시도했습니다. 예를 들어, Nam et al. [41] 폭력적인 장면을 식별하기 위해 여러 시청각 기능을 결합했습니다. 그들의 작업에서는 미리 정의된 색상표를 사용하여 불꽃과 피를 감지하고 다양한 대표 오디오 효과(총소리, 폭발음 등)도 활용했습니다. Dattaet al. [14]는 주먹싸움, 발로 차기 등과 같은 인간의 폭력을 탐지하기 위해 가속 모션 벡터 기반 접근 방식을 제안했습니다. Cheng et al. [11]은 일반적인 오디오 이벤트(예: 총소리, 폭발, 자동차 제동) 감지를 통해 총소리와 자동차 경주 장면을 찾는 계층적 접근 방식을 제시했습니다.


폭력 탐지를 위해 제안된 더 많은 접근 방식은 2장에서 논의됩니다. 이러한 모든 접근 방식은 주로 할리우드 영화의 폭력 탐지에만 중점을 두고 있으며 비디오 공유의 비디오와 YouTube 또는 Facebook과 같은 소셜 미디어 웹사이트에서는 그렇지 않습니다. 할리우드 영화에서 폭력을 탐지하는 것은 이러한 영화가 일부 영화 제작 규칙을 따르기 때문에 상대적으로 쉽습니다. 예를 들어, 흥미진진한 액션 장면을 표현하기 위해 빠른 속도의 시각적 움직임과 빠른 속도의 사운드를 통해 빠른 속도의 분위기를 조성합니다. 하지만 YouTube, Facebook과 같은 동영상 공유 웹사이트의 동영상은 이러한 영화 제작 규칙을 따르지 않으며 오디오 및 동영상 품질이 좋지 않은 경우가 많습니다. 사용자 제작 동영상의 이러한 특성으로 인해 폭력성을 감지하기가 매우 어렵습니다.


폭력을 탐지하는 접근 방식을 논의하기 전에 "폭력"이라는 용어에 대한 정의를 제공하는 것이 중요합니다. 폭력 탐지를 위한 이전의 모든 접근 방식은 동일한 폭력 정의를 따르지 않았으며 서로 다른 기능과 서로 다른 데이터 세트를 사용했습니다. 이로 인해 다양한 접근 방식을 비교하는 것이 매우 어려워집니다. 이 문제를 극복하고 이 분야에 대한 연구를 촉진하기 위해 Demarty et al.은 폭력 장면 감지(VSD)라는 데이터세트를 도입했습니다. [15] 2011년이며 이 데이터 세트의 최신 버전은 VSD2014입니다. 최신 데이터 세트에 따르면 동영상의 '폭력'은 '신체적 폭력이 포함되어 있기 때문에 8세 어린이가 시청하지 못하게 하는 모든 장면'을 의미합니다. [51]. 이 정의는 위에서 언급한 심리학 연구 결과를 바탕으로 공식화된 것으로 여겨집니다. 이러한 정의를 통해 폭력은 물리적인 실체가 아니라 매우 일반적이고 추상적이며 매우 주관적인 개념임을 알 수 있다. 따라서 폭력 탐지는 사소한 작업이 아닙니다.


이 작업의 목적은 할리우드 영화뿐만 아니라 유튜브, 페이스북과 같은 동영상 공유 사이트의 동영상에서도 폭력을 자동으로 감지하는 시스템을 구축하는 것입니다. 이 작업에서는 이전 접근 방식에서는 다루지 않았던 비디오의 폭력 범주를 탐지하려는 시도도 이루어졌습니다. 이 작품에서 대상이 되는 폭력의 범주는 피의 존재, 차가운 무기의 존재, 폭발, 싸움, 비명, 불의 존재, 총기, 총성 등이다. 이는 비디오 세그먼트에 주석을 달기 위해 VSD2014에서 정의되고 사용되는 개념의 하위 집합을 나타냅니다. VSD2014의 "피투성이 장면" 및 "자동차 추격" 카테고리는 VSD2014에 이러한 개념으로 주석이 달린 비디오 세그먼트가 많지 않았기 때문에 선택되지 않았습니다. 또 다른 범주는 "주관적 폭력"입니다. 이 카테고리에 속하는 장면은 눈에 띄는 폭력성이 없어 감지하기가 매우 어렵기 때문에 선택하지 않았습니다. 이 작업에서는 오디오 및 시각적 정보를 결합하여 분류 시 보다 신뢰할 수 있는 결과를 제공하므로 폭력 탐지에 오디오 및 시각적 기능이 모두 사용됩니다.


멀티미디어 콘텐츠에서 폭력을 자동으로 감지할 수 있는 이와 같은 시스템을 개발하면 많은 이점이 있습니다. 폭력의 정도에 따라 영화를 평가하는 데 사용할 수 있습니다. 이는 소셜 네트워킹 사이트에서 플랫폼에 폭력적인 비디오가 업로드되는 것을 감지하고 차단하는 데 사용될 수 있습니다. 또한 영화 검색 및 열람에 도움이 되는 장면 특성화 및 장르 분류에도 사용할 수 있습니다. 실시간 카메라 시스템의 영상 스트림에서 폭력을 인식하는 것은 공항, 병원, 쇼핑몰, 공공장소, 교도소, 정신병동, 학교 운동장 등의 영상 감시에 큰 도움이 될 것입니다. 그러나 실시간 폭력 감지는 훨씬 더 어렵고 이 작업에서는 이를 다루려는 시도가 없습니다.


관련 작업의 개요, 제안된 접근 방식에 대한 자세한 설명 및 평가가 다음에 제시됩니다. 다음 장은 다음과 같이 구성됩니다. 2장에서는 폭력 탐지 분야의 이전 연구 중 일부를 자세히 설명합니다. 3장에서는 특징 분류기의 학습 및 테스트에 사용되는 접근 방식을 자세히 설명합니다. 또한 특징 추출 및 분류자 훈련에 대한 세부정보도 포함됩니다. 4장에서는 사용된 데이터 세트, 실험 설정 및 실험에서 얻은 결과에 대해 자세히 설명합니다. 마지막으로 5장에서는 결론을 제시하고 향후 가능한 연구를 제시한다.


이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.