paint-brush
동영상의 폭력 감지: 실험 및 결과~에 의해@kinetograph
135 판독값

동영상의 폭력 감지: 실험 및 결과

너무 오래; 읽다

본 논문에서 연구자들은 분류를 위해 오디오 및 시각적 단서를 활용하여 비디오의 폭력을 자동으로 감지하는 시스템을 제안합니다.
featured image - 동영상의 폭력 감지: 실험 및 결과
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


저자:

(1) 센트럴 플로리다 대학교 Praveen Tirupattur.

링크 표

4. 실험 및 결과

이 장에서는 비디오에서 폭력적인 콘텐츠를 탐지하는 시스템의 성능을 평가하기 위해 수행된 실험의 세부 사항을 제시합니다. 첫 번째 섹션에서는 이 작업에 사용된 데이터 세트를 다루고, 다음 섹션에서는 실험 설정을 설명하고, 마지막 섹션에서는 수행된 실험 결과를 제시합니다.

4.1. 데이터세트

이 작업에서는 둘 이상의 소스에서 얻은 데이터를 사용하여 오디오 및 시각적 특징을 추출하고 분류자를 훈련하며 시스템 성능을 테스트했습니다. 여기에 사용된 두 가지 주요 데이터세트는 VSD(Violent Scene Dataset)와 Hockey Fights 데이터세트입니다. 이 두 데이터 세트 외에도 Google 이미지[1]와 같은 웹사이트의 이미지도 사용됩니다. 이러한 각 데이터 세트와 이 작업에서의 용도는 다음 섹션에 자세히 설명되어 있습니다.

4.1.1. 폭력적인 장면 데이터세트

폭력 장면 데이터세트(VSD)는 헐리우드 영화와 웹 비디오에서 폭력적인 장면을 감지하기 위한 주석이 달린 데이터세트입니다. 이는 YouTube와 같은 웹사이트의 영화 및 비디오에서 신체적 폭력을 표적으로 삼는 콘텐츠 기반 탐지 기술 개발을 위해 특별히 설계된 공개적으로 사용 가능한 데이터세트입니다[2]. VSD 데이터세트는 Demarty et al.에 의해 처음 소개되었습니다. [15] 데이터 세트에 대한 검증 프레임워크 역할을 하고 폭력 탐지 작업을 위한 최첨단 기준선을 설정하는 MediaEval 벤치마크 이니셔티브의 프레임워크에서. 데이터 세트 VSD2014의 최신 버전은 여러 측면에서 이전 버전(Demarty et al. [19], Demarty et al. [18] 및 Demarty et al. [17])의 상당한 확장입니다. 첫째, 영화와 사용자 제작 비디오에 주석을 달기 위해 8세 어린이가 시청할 수 없는 신체적 폭력에 초점을 맞춰 목표로 삼은 실제 시나리오에 더 가까운 폭력 정의를 사용합니다. 둘째, 데이터 세트에는 31편의 헐리우드 영화로 구성된 상당한 세트가 있습니다. 셋째, VSD2014에는 폭력 탐지를 위해 개발된 시스템의 일반화 기능을 테스트하기 위해 YouTube에서 검색한 86개의 웹 비디오 클립과 해당 메타데이터가 포함되어 있습니다. 넷째, 최첨단 시청각 콘텐츠 설명자가 포함되어 있습니다. 데이터 세트는 (i) 할리우드 영화 및 (ii) 웹에서 공유되는 사용자 생성 비디오 모음에 대한 폭력적인 장면 및 폭력 관련 개념에 대한 주석을 제공합니다. 주석 외에도 미리 계산된 오디오 및 시각적 기능과 다양한 메타데이터가 제공됩니다.


VSD2014 데이터 세트는 Hollywood: Development, Hollywood: Test 및 YouTube: Generalization이라는 세 가지 하위 세트로 나뉩니다. 지속 시간, 폭력적인 장면의 비율(프레임당 백분율), 폭력적인 장면의 평균 길이를 포함한 세 가지 하위 집합 및 기본 통계에 대한 개요는 표 4.1을 참조하세요. VSD2014 데이터 세트의 콘텐츠는 영화/비디오, 기능 및 주석의 세 가지 유형으로 분류됩니다.


데이터 세트에 포함된 할리우드 영화는 다양한 장르에 속하고 포함된 폭력 유형이 다양하도록 선택되었습니다. 이 데이터 세트를 생성하기 위해 극도로 폭력적인 콘텐츠부터 폭력적인 콘텐츠가 거의 없는 콘텐츠까지 다양한 영화가 선택되었습니다. 선택한 영화에는 다양한 폭력 유형도 포함되어 있습니다. 예를 들어 라이언 일병 구하기와 같은 전쟁 영화에는 수많은 특수 효과가 포함된 시끄럽고 밀도 높은 오디오 스트림과 함께 많은 사람들이 참여하는 특정 총격전과 전투 장면이 포함되어 있습니다. Bourne Identity와 같은 액션 영화에는 소수의 참가자만이 손을 맞대고 싸우는 장면이 포함되어 있습니다. 아마겟돈과 같은 재난 영화는 도시 전체가 파괴되는 모습을 보여주고 거대한 폭발을 담고 있습니다. 이와 함께 완전히 비폭력적인 영화 몇 편도 데이터 세트에 추가되어 해당 콘텐츠에 대한 알고리즘의 동작을 연구합니다. 저작권 문제로 인해 데이터세트에 실제 영화를 제공할 수 없기 때문에 헐리우드: 개발 24편, 헐리우드: 테스트 세트 7편 등 총 31편의 영화에 대한 주석을 제공합니다. YouTube: 일반화 세트에는 Creative Commons 라이선스에 따라 YouTube에서 공유되는 비디오 클립이 포함되어 있습니다. 데이터세트에는 MP4 형식의 총 86개 클립이 포함되어 있습니다. 비디오 식별자, 게시 날짜, 카테고리, 제목, 작성자, 화면 비율, 기간 등과 같은 비디오 메타 데이터와 함께 XML 파일로 제공됩니다.


이 데이터세트에는 일반적인 오디오 및 시각적 설명자 세트가 제공됩니다. 진폭 포락선(AE), 평균 제곱근 에너지(RMS), 제로 교차율(ZCR), 대역 에너지 비율(BER), 스펙트럼 중심(SC), 주파수 대역폭(BW), 스펙트럼 플럭스( SF) 및 MFCC(Mel-Frequency Cepstral Coefficient)는 비디오 프레임별로 제공됩니다. 오디오의 샘플링 속도는 44,100Hz이고 비디오는 25fps로 인코딩되므로 길이가 1,764 오디오 샘플인 창은 이러한 특징을 계산하는 것으로 간주되며 각 창에 대해 22개의 MFCC가 계산되는 반면 다른 모든 특징은 1차원입니다. 데이터 세트에서 제공되는 비디오 기능에는 CNH(색상 명명 히스토그램), CM(색상 모멘트), LBP(로컬 바이너리 패턴) 및 HOG(방향 그라데이션 히스토그램)가 포함됩니다. 오디오 및 시각적 기능은 HDF5 형식에 해당하는 Matlab 버전 7.3 MAT 파일에서 제공됩니다.


표 4.1: VSD2014 하위 집합의 영화 및 비디오 통계. 모든 값은 초 단위로 제공됩니다.


VSD2014 데이터 세트에는 모든 폭력적인 장면에 대한 이진 주석이 포함되어 있으며 장면은 시작 및 끝 프레임으로 식별됩니다. 할리우드 영화 및 YouTube 동영상에 대한 이러한 주석은 여러 평가자가 작성한 후 일정 수준의 일관성을 보장하기 위해 검토 및 병합됩니다. 주석이 달린 각 폭력 세그먼트에는 가능할 때마다 하나의 작업만 포함됩니다. 서로 다른 작업이 겹치는 경우 세그먼트가 병합됩니다. 이는 "다중 액션 장면" 태그를 추가하여 주석 파일에 표시됩니다. 주석에는 신체적 폭력이 포함된 세그먼트의 이진 주석 외에도 할리우드: 개발 세트의 17개 영화에 대한 상위 수준 개념도 포함됩니다. 특히 폭력적/비폭력적 주석에 사용되는 것과 유사한 주석 프로토콜을 사용하여 7개의 시각적 개념과 3개의 오디오 개념에 주석을 달았습니다. 개념은 시각적 양식에 대한 피의 존재, 싸움, 불의 존재, 총의 존재, 차가운 무기의 존재, 자동차 추격, 유혈 장면입니다. 오디오 양식에 대한 총성, 폭발 및 비명 소리가 있습니다.


이 데이터세트에 대한 더 자세한 설명은 Schedl et al.에서 제공됩니다. [51] 각 폭력 등급에 대한 자세한 내용은 Demarty et al. [19].

4.1.2. 전투 데이터세트

이 데이터세트는 Nievas et al.에 의해 소개되었습니다. [42] 이는 전투 감지 시스템을 평가하기 위해 특별히 만들어졌습니다. 이 데이터 세트는 두 부분으로 구성되어 있으며, 첫 번째 부분("하키")은 720 × 576 픽셀 해상도의 1,000개 클립으로 구성되어 있으며 두 그룹으로 나누어져 있으며 500개의 경기와 500개의 비경기가 있으며 National Hockey의 하키 게임에서 추출되었습니다. 리그(NHL). 각 클립은 50프레임으로 제한되고 해상도는 320×240으로 낮아졌습니다. 두 번째 부분(“영화”)은 200개의 비디오 클립, 100개의 싸움, 100개의 비싸움으로 구성되어 있으며, 여기서 싸움은 액션 영화와 비싸움에서 추출됩니다. 싸움 영상은 공개 행동 인식 데이터 세트에서 추출됩니다. 형식과 콘텐츠 모두 상대적으로 균일했던 하키 데이터세트와는 달리, 이 비디오는 더 다양한 장면을 묘사하고 다양한 해상도로 캡처되었습니다. 두 데이터 세트의 비디오에서 싸움을 보여주는 일부 프레임은 그림 4.1을 참조하세요. 이 데이터 세트는 온라인으로 다운로드할 수 있습니다[3].


그림 4.1: 하키(상단) 및 액션 영화(하단) 데이터세트에 있는 싸움 비디오의 샘플 프레임.

4.1.3. 웹의 데이터

Google의 이미지는 비디오의 각 프레임에 대한 혈액 특징 설명자를 추출하는 데 사용되는 혈액 및 비혈액 클래스에 대한 색상 모델(섹션 3.1.1.2)을 개발하는 데 사용됩니다. 혈액이 포함된 이미지는 Google Images 1에서 "피 묻은 이미지", "피 묻은 장면", "출혈", "실제 피 튄 자국" 등과 같은 검색어를 사용하여 다운로드됩니다. 마찬가지로 혈액이 포함되지 않은 이미지는 ""와 같은 검색어를 사용하여 다운로드됩니다. 자연', '봄', '피부', '자동차' 등


검색어가 제공되면 Google에서 이미지를 다운로드하는 유틸리티는 Beautiful Soup 라이브러리(Richardson [48])를 사용하여 Python으로 개발되었습니다. 각 쿼리에 대한 응답에는 약 100개의 이미지가 포함되어 있으며 그 중 처음 50개만 다운로드하도록 선택되어 로컬 파일 디렉터리에 저장되었습니다. 혈통과 비혈통을 합친 총 1,000여 장의 이미지가 다운로드되었습니다. 다운로드된 이미지의 평균 크기는 260 × 193픽셀이며 파일 크기는 약 10KB입니다. 이 작업에 사용된 일부 샘플 이미지는 그림 3.3을 참조하세요.

4.2. 설정

이 섹션에서는 시스템 성능을 평가하는 데 사용되는 실험 설정과 접근 방식에 대해 자세히 설명합니다. 다음 단락에서는 데이터 세트의 분할에 대해 논의하고 이후 단락에서는 평가 기술을 설명합니다.


이전 섹션 4.1에서 언급한 것처럼 이 시스템에서는 여러 소스의 데이터가 사용됩니다. 가장 중요한 소스는 VSD2014 데이터 세트입니다. 이는 다양한 폭력 범주에 대한 주석이 달린 비디오 데이터를 제공하는 공개적으로 사용 가능한 유일한 데이터 세트이며, 이 시스템을 개발할 때 이 데이터 세트를 사용하는 주된 이유입니다. 이전 섹션 4.1.1에서 설명했듯이 이 데이터 세트에는 Hollywood: Development, Hollywood: Test 및 YouTube: Generalization의 세 가지 하위 집합이 포함되어 있습니다. 이 작업에서는 세 가지 하위 집합이 모두 사용됩니다. 할리우드: 개발 하위 집합은 다양한 폭력 등급으로 주석이 달린 유일한 데이터세트입니다. 24편의 할리우드 영화로 구성된 이 하위 집합은 3개 부분으로 나뉩니다. 12편의 영화(에라곤, 판타스틱 포 1, 파고, 파이트 클럽, 해리포터 5, 나는 전설이다, 인디펜던스 데이, 리걸리 블론드, 레온, 미드나잇 익스프레스, 캐리비안의 해적, 저수지의 개들)로 구성된 1부 훈련에 사용 분류자. 7편의 영화(라이언 일병 구하기, 본 아이덴티티, 갓 파더, 피아니스트, 식스 센스, 위커맨, 오즈의 마법사)로 구성된 두 번째 부분은 훈련된 분류기를 테스트하고 각 폭력에 대한 가중치를 계산하는 데 사용됩니다. 유형. 평가에는 3편의 영화(아마겟돈, 빌리 엘리엇, 죽은 시인의 사회)로 구성된 마지막 부분이 사용된다. Hollywood: 테스트 및 YouTube: 일반화 하위 집합도 평가에 사용되지만 다른 작업에 사용됩니다. 다음 단락에서는 사용된 평가 접근 방식에 대한 세부 정보를 제공합니다.


시스템 성능을 평가하기 위해 두 가지 분류 작업이 정의됩니다. 첫 번째 작업에서 시스템은 비디오 세그먼트에 존재하는 특정 폭력 카테고리를 감지해야 합니다. 두 번째 작업은 시스템이 폭력의 존재만 감지해야 하는 경우보다 더 일반적입니다. 이 두 작업 모두 평가를 위해 서로 다른 데이터 세트가 사용됩니다. 다중 클래스 분류 작업인 첫 번째 작업에서는 할리우드 영화 3편(아마겟돈, 빌리 엘리엇, 죽은 시인의 사회)으로 구성된 검증 세트를 사용했습니다. 이 하위 집합에서 폭력을 포함하는 각 프레임 간격에는 존재하는 폭력 클래스가 주석으로 추가됩니다. 따라서 이 데이터 세트가 이 작업에 사용됩니다. 이 3개의 영화는 훈련, 분류기 테스트 또는 가중치 계산에 사용되지 않았으므로 시스템을 완전히 새로운 데이터로 평가할 수 있습니다. 그림 3.1에 설명된 절차는 비디오 세그먼트가 특정 폭력 클래스에 속할 확률을 계산하는 데 사용됩니다. 시스템의 출력 확률과 실측 정보는 ROC(Receiver Operating Characteristic) 곡선을 생성하고 시스템 성능을 평가하는 데 사용됩니다.


이진 분류 작업인 두 번째 작업에서는 VSD2104 데이터세트의 Hollywood: Test 및 YouTube: Generalization 하위 집합이 사용됩니다. Hollywood: 테스트 하위 집합은 8개의 할리우드 영화로 구성되고 YouTube: 일반화 하위 집합은 YouTube의 86개 비디오로 구성됩니다. 이 두 하위 집합 모두 폭력을 포함하는 프레임 간격이 주석으로 제공되며 폭력 클래스에 대한 정보는 제공되지 않습니다. 따라서 이러한 하위 집합이 이 작업에 사용됩니다. 이 작업에서는 이전 작업과 유사하게 그림 3.1에 설명된 절차를 사용하여 비디오 세그먼트가 특정 폭력 클래스에 속할 확률을 계산합니다. 각 비디오 세그먼트에 대해 폭력 클래스에 대해 얻은 최대 확률은 폭력적일 확률로 간주됩니다. 위 작업과 유사하게 ROC 곡선은 이러한 확률 값과 데이터세트의 실제값을 통해 생성됩니다.


이 두 작업 모두에서 먼저 훈련 및 테스트 데이터 세트에서 모든 기능을 추출합니다. 다음으로 훈련 및 테스트 데이터 세트를 무작위로 샘플링하여 동일한 양의 양성 샘플과 음성 샘플을 얻습니다. 2,000개의 기능 샘플이 훈련용으로 선택되고 3,000개가 테스트용으로 선택됩니다. 위에서 언급했듯이, 훈련 데이터에 대한 테스트를 피하기 위해 분리된 훈련 및 테스트 세트가 사용됩니다. 두 작업 모두 선형, 방사형 기반 함수 및 카이-제곱 커널을 갖춘 SVM 분류자가 각 기능 유형에 대해 훈련되고 테스트 세트에서 분류 점수가 좋은 분류자가 융합 단계를 위해 선택됩니다. 융합 단계에서는 분류기의 성능을 최대화하는 가능한 조합을 그리드 검색하여 각 폭력 유형에 대한 가중치를 계산합니다. EER(Equal Error Rate) 측정값이 성능 측정값으로 사용됩니다.

4.3. 실험 및 결과

이 섹션에서는 실험과 그 결과를 제시합니다. 먼저 다중 클래스 분류 작업의 결과가 제시되고, 이어서 이진 분류 작업의 결과가 제시됩니다.

4.3.1. 다중 클래스 분류

이 작업에서 시스템은 비디오에 존재하는 폭력 카테고리를 감지해야 합니다. 이 시스템의 대상이 되는 폭력 범주는 유혈, 냉기, 폭발, 싸움, 화재, 총기, 총성, 비명입니다. 1장에서 언급했듯이 이는 VSD2014에 정의된 폭력 범주의 하위 집합입니다. 이러한 8개 범주 외에도 자동차 추격 및 주관적 폭력도 VSD2014에 정의되어 있지만 데이터 세트에 이러한 범주로 태그가 지정된 비디오 세그먼트가 충분하지 않기 때문에 이 작업에서는 사용되지 않습니다. 폭력의 하위 범주를 탐지하면 폭력 탐지의 복잡한 문제가 더 복잡해지기 때문에 이 작업은 매우 어렵습니다. 이 시스템으로 세밀한 폭력 개념을 탐지하려는 시도는 참신하며 이 작업을 수행하는 기존 시스템은 없습니다.


3장에서 언급했듯이 이 시스템은 그리드 검색 기술을 사용하여 각 폭력 범주에 대한 가중치를 학습하는 여러 폭력 클래스를 탐지하기 위해 가중치 결정 융합 접근 방식을 사용합니다. 이 접근 방식에 대한 자세한 내용은 섹션 3.1.3을 참조하세요. 표 4.2에는 그리드 검색 기법을 사용하여 찾은 각 폭력 등급에 대한 가중치가 나와 있습니다.


이러한 가중치는 각 폭력 범주에 대한 이진 기능 분류기의 출력 값에 대한 가중치 합계를 얻는 데 사용됩니다. 합계가 가장 높은 카테고리는 해당 비디오 세그먼트에 존재하는 폭력 카테고리입니다. 출력 합계가 0.5 미만인 경우 비디오 세그먼트는 비폭력으로 분류됩니다. 검증 세트의 비디오 세그먼트는 이 접근 방식을 사용하여 분류되며 결과는 그림 4.2에 표시됩니다. 그림에서 각 곡선은 각 폭력 범주에 대한 ROC 곡선을 나타냅니다.


표 4.2: 그리드 검색 기술을 사용하여 각 폭력 클래스에 대해 얻은 분류자 가중치. 여기서 폭력 등급에 대한 가중치 선택 기준은 해당 폭력 등급에 대한 EER을 최소화하는 가중치를 찾는 것이었습니다.



그림 4.2: 다중 클래스 분류 작업에서 시스템 성능.

4.3.2. 이진 분류

이 이진 분류 작업에서 시스템은 카테고리를 찾지 않고도 폭력의 존재를 감지할 것으로 예상됩니다. 이전 작업과 유사하게 이진 특징 분류기의 출력 확률은 가중 합 접근 방식을 사용하여 결합되고 각 폭력 클래스에 속하는 비디오 세그먼트의 출력 확률이 계산됩니다. 클래스 중 최대 확률이 0.5를 초과하면 비디오 세그먼트는 폭력으로 분류되고, 그렇지 않으면 비폭력으로 분류됩니다. 섹션 4.2에서 언급한 대로 이 작업은 YouTube-Generalization 및 Hollywood-Test 데이터세트에서 수행됩니다. 그림 4.3은 두 데이터세트에 대한 이 작업의 결과를 제공합니다. 각 데이터 세트에 대해 하나씩 두 개의 ROC 곡선이 시스템 성능을 나타내는 데 사용됩니다. 비디오 세그먼트에 폭력이 포함되어 있는지 여부를 결정하기 위한 임계값으로 0.5를 사용하여 정밀도, 재현율 및 정확도 값을 계산합니다. 얻은 결과는 표 4.3을 참조하십시오.


표 4.3: 제안된 접근법을 사용하여 얻은 분류 결과.


표 4.4: MediaEval-2014에서 가장 성과가 좋은 팀이 얻은 분류 결과(Schedl et al. [51]).

4.4. 논의

이 섹션에서는 섹션 4.3에 제시된 결과를 논의합니다. 다중 클래스 및 이진 분류 작업의 결과를 논의하기 전에 개별 분류기의 성능에 대해 논의합니다.

4.4.1. 개별 분류자

섹션 4.3에서 논의된 두 가지 분류 작업에서 최종 결과를 얻기 위해 분류기 점수의 융합이 수행됩니다. 따라서 시스템의 성능은 주로 각 분류기의 개별 성능에 따라 달라지며 부분적으로는 각 분류기에 할당된 가중치에 따라 달라집니다. 최종 분류 결과가 좋기 위해서는 각 분류기의 개별 성능이 좋아야 합니다. 최고의 성능을 발휘하는 분류기를 얻기 위해 SVM은 세 가지 다른 커널 기능(선형, RBF 및 카이제곱)을 사용하여 훈련되고 테스트 세트에서 최적의 성능을 보이는 분류기가 선택됩니다. 이 접근 방식에 따라 각 기능 유형에 대해 가장 성능이 좋은 분류기가 선택됩니다. 테스트 데이터세트에서 선택된 분류기의 성능은 그림 4.4에 나와 있습니다. SentiBank와 Audio는 테스트 세트에서 합리적인 성능을 보여주는 두 가지 기능 분류기임을 확인할 수 있습니다. Motion Feature Classifier는 Chance보다 약간 나은 성능을 갖고 있으며, Blood는 Chance와 동등한 성능을 가지고 있습니다. 성능이 증가하는 순서대로 각 분류기의 성능에 대한 자세한 논의가 다음에 제시됩니다.


그림 4.4: 테스트 세트에 대한 개별 이진 분류기의 성능.


그림 4.5: Hockey 및 HollywoodTest 데이터세트의 모션 기능 분류기 성능. 빨간색 곡선은 Hockey Dataset에서 훈련된 분류기에 대한 것이고 나머지 3개는 선형, RBF 및 Chi-Square 커널을 사용하여 Hollywood-Dev 데이터세트에서 훈련된 3개의 분류기에 대한 것입니다.

4.4.1.1. 운동

그림 4.4에서 알 수 있듯이 테스트 세트에서 동작 특징 분류기의 성능은 우연보다 약간 더 나을 뿐입니다. 그 이유를 이해하기 위해 사용 가능한 데이터 세트에서 다양한 SVM 커널로 훈련된 모든 모션 기능 분류기의 성능을 비교합니다. 비교를 위해 그림 4.5를 참조하십시오. 그림에서 왼쪽 플롯은 Hockey 데이터 세트의 테스트 세트에 대한 분류기의 성능을 보여주고 오른쪽 플롯은 Hollywood-Test 데이터 세트의 비교를 보여줍니다. 두 그래프 모두에서 빨간색 곡선은 Hockey 데이터 세트에서 훈련된 분류기에 해당하고 나머지 세 곡선은 Hollywood-Dev 데이터 세트에서 훈련된 분류기에 해당합니다.


이 두 플롯에서 동일한 데이터 세트에서 훈련되고 테스트된 분류기의 성능이 하나의 데이터 세트에서 훈련되고 다른 데이터 세트에서 테스트된 분류기와 비교할 때 합리적으로 우수하다는 것을 관찰할 수 있습니다. 왼쪽 플롯(TestSet: Hockey Dataset)에서는 Hockey Dataset에서 훈련된 분류기가 더 나은 성능을 보였습니다. 마찬가지로 오른쪽 플롯(TestSet: Hollywood-Test)에서는 Hollywood-Dev 데이터 세트에서 훈련된 분류기의 성능이 더 좋습니다. 관찰을 통해 한 데이터 세트에서 학습된 모션 특징 표현은 다른 데이터 세트로 전송할 수 없다는 것을 추론할 수 있습니다. 그 이유는 데이터 세트 간의 비디오 해상도와 비디오 형식의 차이 때문일 수 있습니다. Hockey 데이터 세트와 Hollywood-Test 데이터 세트의 비디오는 형식이 다르며 Hollywood-Development와 Hollywood-Test의 모든 비디오가 동일한 형식을 갖는 것은 아닙니다. 모션 특징을 추출하는 데 사용되는 절차(섹션 3.1.1.3.1에서 설명)는 비디오 코덱의 모션 정보를 사용하므로 비디오 형식은 중요한 역할을 합니다. 비디오의 길이와 해상도도 어느 정도 영향을 미칩니다. 여기서 사용된 절차는 추출된 특징을 비디오 세그먼트의 길이로 정규화하고 미리 정의된 하위 영역 수에 걸쳐 픽셀 모션을 집계하여 이를 줄이려고 시도하는 경우에도 마찬가지입니다. 프레임의. 하키 데이터 세트의 비디오는 각각 1초의 매우 짧은 세그먼트이며 프레임 크기가 작고 품질이 낮습니다. 반면 헐리우드 데이터 세트의 비디오 세그먼트는 더 길고 품질이 더 높으며 프레임 크기도 더 큽니다. 이 문제에 대한 한 가지 해결책은 모든 비디오를 동일한 형식으로 변환하는 것일 수 있지만, 그래도 부적절한 비디오 인코딩으로 인해 문제가 발생할 수 있습니다. 다른 해결책은 광학 흐름 기반 접근 방식을 사용하여 모션 특징을 추출하는 것입니다(섹션 3.1.1.3.2에서 설명). 그러나 앞서 설명했듯이 이 접근 방식은 지루하며 비디오의 움직임으로 인해 흐려지는 경우 작동하지 않을 수 있습니다.

4.4.1.2. 피

테스트 세트에서 혈액 특징 분류기의 성능은 확률만큼이나 좋습니다. 결과는 그림 4.4를 참조하세요. 여기서 문제는 특징 추출에 있는 것이 아닙니다. 혈액 특징 추출에 사용된 혈액 검출기는 이미지에서 혈액이 포함된 영역을 감지하는 데 매우 좋은 결과를 보여주었습니다. 웹 이미지에 대한 혈액 탐지기의 성능은 그림 3.4를 참조하고 헐리우드 데이터세트의 샘플 프레임에 대한 성능은 그림 4.6을 참조하세요. 이를 통해 혈액 특징 추출기가 꽤 잘 작동하고 있으며 특징 추출에 문제가 없음이 분명합니다. 따라서 문제는 분류기 훈련에 있으며 훈련 데이터의 가용성이 제한되어 있기 때문이라고 결론 내릴 수 있습니다.


훈련에 사용되는 VSD2014 데이터 세트에서 혈액이 포함된 비디오 세그먼트에는 해당 세그먼트에 포함된 혈액의 양을 나타내는 레이블("눈에 띄지 않음", "낮음", "중간" 및 "높음")이 주석으로 추가됩니다. 이 데이터세트에는 "높음"이라는 레이블이 붙은 세그먼트가 거의 없습니다. 그 결과 SVM 분류자는 혈액이 포함된 프레임의 특징 표현을 효과적으로 학습할 수 없습니다. 이 기능 분류기의 성능은 많은 양의 혈액이 포함된 프레임 인스턴스가 많은 대규모 데이터 세트로 훈련함으로써 향상될 수 있습니다. 또는 Google의 이미지를 사용하여 이 분류기를 훈련할 수도 있습니다.

4.4.1.3. 오디오

오디오 특징 분류기는 테스트 세트에서 두 번째로 성능이 좋은 분류기(그림 4.4 참조)이며 이는 폭력 탐지에서 오디오의 중요성을 보여줍니다. 시각적 특징은 폭력적인 콘텐츠를 나타내는 좋은 지표이지만 오디오가 더 중요한 역할을 하는 장면도 있습니다. 예를 들어, 싸움, 총성, 폭발이 포함된 장면이 있습니다. 이러한 장면에는 특징적인 사운드가 있으며 MFCC 및 에너지 엔트로피와 같은 오디오 기능을 사용하여 이러한 폭력적인 장면과 관련된 사운드 패턴을 감지할 수 있습니다. 이 연구에서는 폭력 탐지에 관한 많은 이전 연구(Acar et al. [1], Jiang et al. [33], Lam et al. [36)와 마찬가지로 MFCC 기능을 사용하여 오디오 콘텐츠(섹션 3.1.1.1 참조)를 설명합니다. ] 등)은 폭력적인 장면과 관련된 오디오 신호를 탐지하는 데 있어 MFCC 기능의 효율성을 보여주었습니다. 에너지 엔트로피, 피치, 전력 스펙트럼과 같은 기타 오디오 기능도 MFCC 기능과 함께 사용하여 기능 분류기의 성능을 더욱 향상시킬 수 있습니다. 그러나 오디오만으로는 폭력을 탐지하는 데 충분하지 않으며 고유한 오디오 서명이 있는 총성 및 폭발과 같은 소수의 폭력 클래스를 탐지하는 데 중요한 역할만 한다는 점에 유의하는 것이 중요합니다.

4.4.1.4. 센티뱅크

SentiBank 특징 분류기는 모든 특징 분류기 중 가장 좋은 성능을 보여주었으며(그림 4.4 참조) 시스템 전체 성능에 크게 기여했습니다. 이는 폭력과 같은 복잡한 시각적 감정을 감지하는 데 있어 SentiBank의 위력을 보여줍니다. 그림 4.7은 폭력이 포함되어 있고 폭력이 없는 프레임에 대한 상위 50개 ANP의 평균 점수를 보여줍니다. 관찰할 수 있듯이 폭력 및 비폭력 클래스에 대한 평균 점수가 가장 높은 ANP 목록은 매우 다르며 이것이 SentiBank가 폭력 클래스와 비폭력 클래스를 구분하는 데 매우 좋은 성능을 발휘하는 이유입니다. 폭력 클래스에 대한 ANP 목록의 모든 형용사가 폭력을 설명하는 것은 아닙니다. 이는 여러 가지 이유 때문일 수 있으며, 그 중 하나는 SentiBank에서 사용되는 1,200개의 ANP 중 폭력과 관련된 감정(예: 공포, 공포, 분노, 분노 등)을 설명하는 ANP가 소수에 불과하다는 사실일 수 있습니다. Plutchik의 감정 바퀴와 VSO의 각 감정 범주에 대한 ANP 분포를 보여주는 그림 4.8을 참조하십시오.


그림 4.6: 헐리우드 데이터세트의 샘플 프레임에 대한 혈액 검출기의 성능을 보여주는 그림. 첫 번째 열의 이미지(A 및 D)는 입력 이미지이고, 두 번째 열의 이미지(B 및 E)는 혈액 확률 맵이고, 마지막 열의 이미지(C 및 F)는 이진화된 혈액 확률 맵입니다.

4.4.2. 퓨전 가중치

앞서 언급한 것처럼(섹션 3.1.3) 최종 분류 점수는 가중합 방식을 사용하여 개별 분류기 점수를 늦게 융합하여 계산됩니다. 여기에 사용된 가중치는 EER(Equal Error Rate)을 최소화하는 것을 목표로 하는 그리드 검색 접근 방식을 사용하여 계산됩니다. 따라서 가중치는 시스템의 전반적인 분류 성능을 결정하는 데 중요한 역할을 합니다. 이러한 모든 가중치는 테스트 세트에서 계산됩니다. 표 4.2에는 그리드 검색 기술을 사용하여 얻은 8개 폭력 등급 각각에 대한 분류자의 가중치가 표시됩니다. 획득된 가중치로부터 가중치 분포에 대해 다음과 같은 관찰이 이루어질 수 있습니다. (i) 대부분의 폭력 클래스에 대해 가장 차별적인 특징인 SentiBank에 가장 높은 가중치가 할당됩니다. (ii) 오디오는 총소리, 폭발, 싸움과 같이 오디오가 매우 중요한 역할을 하는 폭력 클래스에 가장 높은 가중치를 받았습니다. (iii) Blood는 Screams, Gunshots, Firearms와 같은 폭력 클래스에 대해 높은 가중치를 받았습니다. 이러한 폭력 클래스에 속하는 비디오 세그먼트에도 피가 섞여 있을 수 있다는 점에서 이는 흥미롭습니다. (iv) 모션은 성능이 가장 낮은 기능이므로 대부분의 폭력 클래스에서 가장 낮은 가중치를 받았습니다. 하지만 움직임이 많을 것으로 예상되는 클래스인 Fights에 대해서는 가중치가 더 높다는 점도 관찰할 수 있습니다.


각 폭력 클래스에 할당된 가중치를 분석하면 다음과 같은 관찰이 가능합니다. (i) Gunshots 클래스의 경우 가장 높은 배포 가중치는 오디오(0.5)와 혈액(0.45) 사이입니다. 이는 총성을 감지하는 데 오디오 기능이 중요한 역할을 하고, 총성이 포함된 장면에서도 피가 많이 나올 것으로 예상되기 때문에 예상된다. (ii) 오디오(0.4) 및 시각적 기능(Motion - 0.25 및 SentiBank - 0.30)은 Fights 클래스에 대해 거의 동일한 가중치를 받았습니다. 이는 싸움이 포함된 장면을 감지하는 데 오디오 및 시각적 기능이 모두 중요하기 때문에 예상됩니다. (iii) 폭발 클래스의 경우 오디오 기능이 폭발 감지에 중요하기 때문에 오디오(0.9)에 가장 높은 가중치가 할당됩니다. (iv) 화재는 시각적 특징에 높은 가중치가 있을 것으로 예상되는 폭력 클래스이며 예상대로 가장 성능이 좋은 시각적 특징인 SentiBank(0.85)에 가장 높은 가중치가 할당됩니다. (v) 폭력 등급 냉대


그림 4.7: 폭력이 포함된 프레임과 폭력이 포함되지 않은 프레임에 대한 상위 50개 SentiBank ANP의 평균 점수를 보여주는 그래프.


그림 4.8: Plutchik의 감정 바퀴와 VSO의 감정당 ANP 수.


무기에는 차가운 무기(예: 칼, 검, 화살, 미늘창 등)가 있는 장면이 포함되어 있습니다. 이 클래스의 경우 시각적 기능의 가중치가 높을 것으로 예상됩니다. 그리고 예상대로 SentiBank(0.95)가 이 클래스에서 가장 높은 가중치를 가지고 있습니다. (vi) "총기"는 장면에 총과 총기가 포함된 폭력 수업입니다. 위 클래스와 마찬가지로 시각적 특징에도 높은 가중치가 있을 것으로 예상됩니다. 이 클래스에서는 SentiBank(0.6)와 Blood(0.3)가 가장 높은 가중치 분포를 받았습니다. Blood에 더 높은 가중치가 할당된 이유는 총이 포함된 대부분의 장면에 유혈 사태도 포함되기 때문일 수 있습니다. (vii) Blood 클래스의 경우 Blood 기능의 가중치가 가장 높을 것으로 예상됩니다. 하지만 피쳐 블러드(0.05)는 작은 가중치를 받았고 센티뱅크(0.95)는 가장 높은 가중치를 받았습니다. 이는 예상된 결과가 아니며 테스트 세트에서 혈액 기능 분류기의 성능이 좋지 않기 때문일 수 있습니다. (viii) 오디오 기능이 비명을 감지하는 데 중요한 역할을 하기 때문에 오디오가 클래스 "비명"에 대해 더 높은 가중치를 가질 것으로 예상하는 것은 직관적입니다. 그러나 여기서 얻은 가중치는 이러한 직관에 위배됩니다. 오디오는 매우 적은 가중치를 받은 반면 SentiBank는 가장 높은 가중치를 받았습니다. 전반적으로 그리드 검색에서 얻은 가중치는 대부분의 클래스에서 예상한 것과 다소 비슷합니다. 테스트에서 개별 분류기의 성능이 향상되면 더 나은 가중치 분포를 얻을 수 있습니다.

4.4.3. 다중 클래스 분류

이 섹션에서는 다중 클래스 분류 작업에서 얻은 결과를 논의합니다. 이 작업에서 얻은 결과는 그림 4.2를 참조하십시오. 그림에서 다음과 같은 관찰 결과를 도출할 수 있습니다. (i) 시스템은 총성 감지에 있어 우수한 성능(약 30% EER)을 보여줍니다. (ii) 폭력 클래스, Cold Arms, Blood 및 Explosions의 경우 시스템은 중간 정도의 성능을 나타냅니다(EER 약 40%). (iii) 나머지 폭력 클래스(싸움, 비명, 불, 총기)의 경우 성능은 확률만큼 좋습니다(EER 45% 이상). 이러한 결과는 개선의 여지가 크다는 것을 시사하지만, 폭력 탐지는 사소한 작업이 아니며 다양한 종류의 폭력을 구별하는 것이 더욱 어렵다는 점을 기억하는 것이 중요합니다. 지금까지 제안된 모든 접근법은 폭력의 유무를 탐지하는 데만 집중했을 뿐, 폭력의 범주를 탐지하는 데는 집중하지 않았습니다. 이 작업에서 제안된 새로운 접근 방식은 이 방향의 첫 번째 접근 방식 중 하나이며 성능을 비교할 기준 시스템이 없습니다. 이 작업을 통해 얻은 결과는 이 분야의 향후 작업을 위한 기준이 될 것입니다.


이 시스템에서는 성인 콘텐츠 감지와 유사한 멀티미디어 개념 감지 작업에서 좋은 결과를 보여주는 후기 융합 접근 방식을 따릅니다(Schulze et al. [52]). 따라서 시스템의 열악한 성능은 후속 접근 방식으로 인한 것일 수 없습니다. 시스템의 성능은 개별 분류자의 성능과 각 폭력 클래스에 대해 할당된 융합 가중치에 따라 달라집니다. Grid-Search 기술을 사용하여 EER을 최소화하도록 융합 가중치를 조정하므로 시스템의 전체 성능은 전적으로 개별 분류기의 성능에 따라 달라집니다. 따라서 이 작업에서 시스템의 성능을 향상시키기 위해서는 폭력 탐지에 있어서 개별 분류기의 성능을 향상시키는 것이 필요합니다.

4.4.4. 이진 분류

이진 분류 작업의 결과는 그림 4.3에 나와 있습니다. 이 작업은 다중 클래스 분류 작업의 확장입니다. 앞에서 설명했듯이 이 작업에서는 폭력 클래스 중 하나에 대한 출력 확률이 임계값 0.5보다 큰 경우 비디오 세그먼트가 "폭력"으로 분류됩니다. 이 작업에서 시스템 성능은 Hollywood-Test와 YouTube-Generalization이라는 두 가지 데이터 세트에서 평가됩니다. 이러한 데이터 세트에서 시스템 성능이 우연보다 조금 더 나은 것을 볼 수 있습니다. 또한 YouTube-Generalization 데이터세트보다 Hollywood-Test 데이터세트에서 성능이 더 좋은 것을 확인할 수 있습니다. 이는 모든 분류자가 Hollywood-Test 데이터 세트와 유사한 비디오 콘텐츠를 가진 Hollywood-Development 데이터 세트의 데이터에 대해 훈련되었기 때문에 예상됩니다. 이 작업을 위해 시스템에서 얻은 정밀도, 재현율 및 정확도 값은 표 4.3에 나와 있습니다. MediaEval-2014의 이 작업에서 가장 성과가 좋은 팀이 얻은 결과는 표 4.4에 나와 있습니다.


동일한 데이터 세트를 사용하더라도 평가에 사용되는 프로세스가 동일하지 않기 때문에 이러한 결과를 직접 비교할 수는 없습니다. MediaEval-2014에서 시스템은 폭력이 포함된 비디오 세그먼트의 시작 및 끝 프레임을 출력할 것으로 예상되며, 실제와 출력 프레임 간격 간의 중첩이 50%를 초과하면 히트로 간주됩니다. Schedl 등을 참조하십시오. MediaEval-2014에서 따르는 프로세스에 대한 자세한 내용은 [51]을 참조하세요. 제안된 접근 방식에서 시스템은 입력 비디오의 각 1초 세그먼트를 "폭력" 또는 "비폭력" 클래스로 분류하고 이를 실제와 비교하여 시스템 성능을 계산합니다. 여기에 사용된 평가 기준은 MediaEval-2014에서 사용된 평가 기준과 비교할 때 훨씬 더 엄격하고 세부적입니다. 여기서는 1초 세그먼트별로 분류가 이루어지기 때문에 더 짧은 세그먼트에 대한 검출에 페널티를 주는 전략이 필요하지 않습니다. MAP 메트릭은 MediaEval에서 가장 성능이 좋은 시스템을 선택하는 데 사용되는 반면, 제안 시스템에서는 시스템의 EER이 최적화됩니다.


이 시스템에서 얻은 결과를 MediaEval 결과와 직접 비교할 수는 없지만 엄격한 평가 기준에도 불구하고 이 시스템의 성능은 MediaEval-2014의 최고 성능 시스템과 비슷하거나 그 이상이라는 것을 알 수 있습니다. 사용됩니다. 이러한 결과는 제안된 새로운 접근법을 사용하여 개발된 시스템이 폭력 탐지 분야에서 기존의 최첨단 시스템보다 우수함을 시사합니다.

4.5. 요약

본 장에서는 개발된 시스템의 평가에 대한 자세한 논의를 제시한다. 섹션 4.1에서는 이 작업에 사용된 데이터 세트의 세부 사항을 설명하고 다음 섹션 섹션 4.2에서는 실험 설정에 대해 논의합니다. 섹션 4.3에서는 실험과 그 결과가 제시되고 섹션 4.4에서는 얻은 결과에 대한 자세한 논의가 이어집니다.



이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.


[1] http://www.images.google.com


[2] http://www.youtube.com


[3] http://visilab.etsii.uclm.es/personas/oscar/FightDetection/index.html