paint-brush
Videolarda Şiddet Tespiti: Deneyler ve Sonuçlarile@kinetograph
135 okumalar

Videolarda Şiddet Tespiti: Deneyler ve Sonuçlar

Çok uzun; Okumak

Bu makalede araştırmacılar, sınıflandırma için sesli ve görsel ipuçlarından yararlanarak videolardaki şiddetin otomatik olarak tespit edilmesine yönelik bir sistem önermektedir.
featured image - Videolarda Şiddet Tespiti: Deneyler ve Sonuçlar
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


Yazarlar:

(1) Praveen Tirupattur, Central Florida Üniversitesi.

Bağlantı Tablosu

4. Deneyler ve Sonuçlar

Bu bölümde sistemin videolarda şiddet içeren içerikleri tespit etme performansını değerlendirmek amacıyla yapılan deneylerin detayları sunulmaktadır. İlk bölümde bu çalışma için kullanılan veri setleri anlatılmakta, sonraki bölümde deney düzeneği anlatılmakta ve son bölümde ise yapılan deneylerin sonuçları sunulmaktadır.

4.1. Veri kümeleri

Bu çalışmada, görsel ve işitsel özelliklerin çıkarılması, sınıflandırıcıların eğitilmesi ve sistemin performansının test edilmesi amacıyla birden fazla kaynaktan gelen veriler kullanılmıştır. Burada kullanılan iki ana veri kümesi Şiddetli Sahne Veri Kümesi (VSD) ve Hokey Dövüşleri veri kümesidir. Bu iki veri kümesinin dışında Google Görseller[1] gibi sitelerdeki görseller de kullanılmaktadır. Bu veri kümelerinin her biri ve bu çalışmada kullanımı aşağıdaki bölümlerde ayrıntılı olarak açıklanmaktadır.

4.1.1. Şiddet Sahnesi Veri Kümesi

Şiddetli Sahne Veri Kümesi (VSD), Hollywood filmlerinde ve web'deki videolarda şiddet içeren sahne algılamaya yönelik açıklamalı bir veri kümesidir. YouTube[2] gibi web sitelerindeki film ve videolarda fiziksel şiddeti hedef alan içerik tabanlı tespit tekniklerinin geliştirilmesi için özel olarak tasarlanmış, kamuya açık bir veri kümesidir. VSD veri seti ilk olarak Demarty ve arkadaşları tarafından tanıtıldı. [15], veri seti için bir doğrulama çerçevesi görevi gören ve şiddet tespit görevi için son teknoloji ürünü bir temel oluşturan MediaEval kıyaslama girişimi çerçevesinde. VSD2014 veri setinin en son versiyonu, önceki versiyonlarının (Demarty ve ark. [19], Demarty ve ark. [18] ve Demarty ve ark. [17]) birçok açıdan önemli bir uzantısıdır. İlk olarak, filmlere ve kullanıcılar tarafından oluşturulan videolara açıklama eklemek için, 8 yaşındaki bir çocuğun izlemesine izin vermeyeceği fiziksel şiddete odaklanılarak, hedeflenen gerçek dünya senaryosuna daha yakın şiddet tanımı kullanılıyor. İkincisi, veri setinde 31 Hollywood filminden oluşan önemli bir set var. Üçüncüsü, VSD2014, şiddeti tespit etmek için geliştirilen sistemin genelleme yeteneklerinin test edilmesine hizmet etmek üzere YouTube'dan alınan 86 web video klibini ve bunların meta verilerini içermektedir. Dördüncüsü, son teknoloji ürünü görsel-işitsel içerik tanımlayıcılarını içerir. Veri seti, (i) Hollywood filmleri ve (ii) web'de paylaşılan kullanıcı tarafından oluşturulan videolardan oluşan bir koleksiyon için şiddet içeren sahnelere ve şiddetle ilgili kavramlara ilişkin ek açıklamalar sağlar. Ek açıklamalara ek olarak, önceden hesaplanmış işitsel ve görsel özellikler ve çeşitli meta veriler sağlanır.


VSD2014 veri seti Hollywood: Geliştirme, Hollywood: Test ve YouTube: Genelleştirme adı verilen üç farklı alt kümeye ayrılmıştır. Süre, şiddet içeren sahnelerin oranı (kare bazında yüzde olarak) ve şiddet içeren bir sahnenin ortalama uzunluğu dahil olmak üzere üç alt kümeye ve temel istatistiklere genel bir bakış için lütfen Tablo 4.1'e bakın. VSD2014 veri kümesinin içeriği üç türe ayrılmıştır: filmler/videolar, özellikler ve ek açıklamalar.


Veri setinde yer alan Hollywood filmleri farklı türlerden olacak ve içerdikleri şiddet türleri bakımından çeşitlilik gösterecek şekilde seçilmiştir. Bu veri kümesini oluşturmak için son derece şiddetli olanlardan neredeyse hiç şiddet içermeyen içeriğe kadar değişen filmler seçilir. Seçilen filmler aynı zamanda çok çeşitli şiddet türlerini de içermektedir. Örneğin, Er Ryan'ı Kurtarmak gibi savaş filmleri, çok sayıda özel efekt içeren yüksek ve yoğun bir ses akışıyla, çok sayıda insanın yer aldığı belirli silahlı çatışmalar ve savaş sahneleri içerir. Bourne Identity gibi aksiyon filmleri, muhtemelen göğüs göğüse, yalnızca birkaç katılımcının dahil olduğu kavga sahneleri içerir. Armageddon gibi felaket filmleri, tüm şehirlerin yok oluşunu gösterir ve büyük patlamalar içerir. Bunların yanı sıra, algoritmaların bu tür içerikler üzerindeki davranışını incelemek için veri setine tamamen şiddet içermeyen birkaç film de ekleniyor. Telif hakkı sorunları nedeniyle veri setinde gerçek filmler sağlanamadığından, 24'ü Hollywood: Development ve 7'si Hollywood: Test setinde olmak üzere 31 film için ek açıklamalar sağlanmıştır. YouTube: Genelleştirme seti, YouTube'da Creative Commons lisansı altında paylaşılan video klipleri içerir. Veri setinde MP4 formatında toplam 86 klip yer almaktadır. Videonun yanı sıra video tanımlayıcı, yayınlanma tarihi, kategori, başlık, yazar, en boy oranı, süre vb. gibi meta veriler de XML dosyaları olarak sağlanır.


Bu veri setinde ortak bir ses ve görsel tanımlayıcı seti sağlanmaktadır. Genlik zarfı (AE), ortalama kare enerji (RMS), sıfır geçiş hızı (ZCR), bant enerji oranı (BER), spektral ağırlık merkezi (SC), frekans bant genişliği (BW), spektral akı () gibi ses özellikleri SF) ve Mel frekansı cepstral katsayıları (MFCC), video karesi bazında sağlanır. Sesin örnekleme hızı 44.100 Hz olduğundan ve videolar 25 fps ile kodlandığından, bu özellikleri hesaplamak için 1.764 ses örneği uzunluğunda bir pencere dikkate alınır ve her pencere için 22 MFCC hesaplanırken diğer tüm özellikler 1 boyutludur. Veri kümesinde sağlanan video özellikleri arasında renk adlandırma histogramları (CNH), renk anları (CM), yerel ikili desenler (LBP) ve yönlendirilmiş degradelerin histogramları (HOG) bulunur. Ses ve görsel özellikler, HDF5 formatına karşılık gelen Matlab versiyon 7.3 MAT dosyalarında sağlanmaktadır.


Tablo 4.1: VSD2014 alt kümelerindeki film ve videoların istatistikleri. Tüm değerler Saniye cinsinden verilmiştir.


VSD2014 veri seti, bir sahnenin başlangıç ve bitiş çerçeveleriyle tanımlandığı tüm şiddet içeren sahnelerin ikili açıklamalarını içerir. Hollywood filmleri ve YouTube videolarına yönelik bu ek açıklamalar, çeşitli insan değerlendiriciler tarafından oluşturulur ve belirli bir düzeyde tutarlılık sağlamak için daha sonra incelenir ve birleştirilir. Her açıklamalı şiddet içeren bölüm, mümkün olduğu sürece yalnızca bir eylem içerir. Farklı eylemlerin çakıştığı durumlarda segmentler birleştirilir. Bu, ek açıklama dosyalarında "çoklu aksiyon sahnesi" etiketi eklenerek belirtilir. Açıklamalarda fiziksel şiddet içeren bölümlerin ikili açıklamalarının yanı sıra Hollywood: Development setindeki 17 film için üst düzey konseptler de yer alıyor. Özellikle, şiddet içeren/şiddet içermeyen ek açıklamalar için kullanılana benzer bir açıklama protokolü kullanılarak 7 görsel kavram ve 3 ses kavramına açıklama eklenmiştir. Görsel modalite için kavramlar kanın varlığı, kavgalar, ateşin varlığı, silahların varlığı, soğuk silahların varlığı, araba kovalamacaları ve kanlı sahnelerdir; Ses yöntemi için silah seslerinin, patlamaların ve çığlıkların varlığı.


Bu veri kümesinin daha ayrıntılı bir açıklaması Schedl ve diğerleri tarafından sağlanmaktadır. [51] ve şiddet sınıflarının her birine ilişkin ayrıntılar için lütfen Demarty ve ark. [19].

4.1.2. Veri Kümesiyle Mücadele Ediyor

Bu veri seti Nievas ve diğerleri tarafından tanıtılmıştır. [42] ve özellikle kavga tespit sistemlerinin değerlendirilmesi için oluşturulmuştur. Bu veri seti iki bölümden oluşmaktadır; ilk bölüm (“Hokey”), Ulusal Hokey hokey oyunlarından alınan, 500 dövüş ve 500 dövüş olmayan olmak üzere iki gruba ayrılmış, 720 × 576 piksel çözünürlükte 1.000 klipten oluşmaktadır. Lig (NHL). Her klip 50 kareyle sınırlıdır ve çözünürlük 320 × 240'a düşürülmüştür. İkinci bölüm (“Filmler”) 200 video klipten, 100 dövüşten ve 100 dövüş olmayandan oluşur; burada dövüşler aksiyon filmlerinden ve kavga olmayan filmlerden alınmıştır. dövüş videoları halka açık eylem tanıma veri kümelerinden çıkarılır. Hem format hem de içerik bakımından nispeten tekdüze olan hokey veri setinin aksine, bu videolar daha geniş çeşitlilikte sahneleri tasvir ediyor ve farklı çözünürlüklerde çekilmiş. İki veri kümesindeki videolardan kavgaları gösteren bazı kareler için Şekil 4.1'e bakın. Bu veri kümesi çevrimiçi olarak indirilebilir[3].


Şekil 4.1: Hokey (üstte) ve aksiyon filmi (altta) veri kümelerindeki dövüş videolarından örnek kareler.

4.1.3. Web'den veriler

Google'dan alınan görseller, bir videodaki her kare için kan özelliği tanımlayıcısının çıkarılmasında kullanılan kan ve kan dışı sınıfları için renk modellerinin (Bölüm 3.1.1.2) geliştirilmesinde kullanılır. Kan içeren görseller Google Görseller 1'den “kanlı görseller”, “kanlı sahneler”, “kanama”, “gerçek kan sıçraması” vb. sorgu kelimeleri kullanılarak indirilir. Benzer şekilde kan içermeyen görseller “kanlı görseller”, “kanlı sahneler” gibi arama kelimeleri kullanılarak indirilir. doğa”, “bahar”, “deri”, “arabalar” vb.


Bir arama sözcüğü verildiğinde Google'dan görsel indirmeye yönelik yardımcı program, Beautiful Soup (Richardson [48]) kütüphanesi kullanılarak Python'da geliştirilmiştir. Her sorgu için yanıt yaklaşık 100 görüntü içeriyordu; bunların yalnızca ilk 50'si indirilmek üzere seçildi ve yerel bir dosya dizinine kaydedildi. Hem kanlı hem de kansız sınıfları birleştiren toplamda yaklaşık 1000 görüntü indirildi. İndirilen görsellerin ortalama boyutları 260×193 piksel, dosya boyutu ise 10 Kilobayt civarındadır. Bu çalışmada kullanılan örnek görsellerden bazıları için Şekil 3.3'e bakın.

4.2. Kurmak

Bu bölümde deney düzeneğinin detayları ve sistemin performansını değerlendirmek için kullanılan yaklaşımlar sunulmaktadır. Aşağıdaki paragrafta veri setinin bölümlendirilmesi ele alınmakta ve sonraki paragraflarda değerlendirme teknikleri açıklanmaktadır.


Daha önce Bölüm 4.1'de belirtildiği gibi, bu sistemde birden fazla kaynaktan gelen veriler kullanılmaktadır. En önemli kaynak VSD2014 veri kümesidir. Çeşitli şiddet kategorilerine ilişkin açıklamalı video verileri sağlayan, kamuya açık tek veri kümesidir ve bu sistemin geliştirilmesinde bu veri kümesinin kullanılmasının ana nedenidir. Önceki Bölüm 4.1.1'de açıklandığı gibi, bu veri kümesi üç alt küme içerir: Hollywood: Geliştirme, Hollywood: Test ve YouTube: Genelleştirme. Bu çalışmada her üç alt küme de kullanılmıştır. Hollywood: Gelişim alt kümesi, farklı şiddet sınıflarıyla açıklamalı tek veri kümesidir. 24 Hollywood filminden oluşan bu alt küme 3 bölüme ayrılmıştır. 12 filmden oluşan ilk bölüm (Eragon, Fantastik Dörtlü 1, Fargo, Dövüş Kulübü, Harry Potter 5, Ben Efsaneyim, Bağımsızlık Günü, Yasal Sarışın, Leon, Midnight Express, Karayip Korsanları, Rezervuar Köpekleri) eğitim amaçlı kullanılıyor. sınıflandırıcılar. 7 filmden oluşan ikinci bölüm (Er Ryan'ı Kurtarmak, Bourne Kimliği, Tanrı Baba, Piyanist, Altıncı His, Hasır Adam, Oz Büyücüsü) eğitilen sınıflandırıcıların test edilmesi ve her bir şiddet için ağırlıkların hesaplanması amacıyla kullanılmaktadır. tip. Değerlendirme için 3 filmden (Armagedon, Billy Elliot ve Ölü Ozanlar Derneği) oluşan son bölüm kullanılmıştır. Hollywood: Test ve YouTube: Genelleme alt kümeleri de değerlendirme için kullanılır, ancak farklı bir görev için. Aşağıdaki paragraflarda kullanılan değerlendirme yaklaşımlarının ayrıntıları verilmektedir.


Sistemin performansını değerlendirmek için iki farklı sınıflandırma görevi tanımlanmıştır. İlk görevde sistemin bir video bölümünde mevcut olan belirli şiddet kategorisini tespit etmesi gerekiyor. İkinci görev ise sistemin yalnızca şiddetin varlığını tespit etmesi gereken daha genel bir görevdir. Her iki görev için de değerlendirme amacıyla farklı veri kümeleri kullanılır. Çok sınıflı bir sınıflandırma görevi olan ilk görevde 3 Hollywood filminden (Armageddon, Billy Elliot ve Dead Poets Society) oluşan doğrulama seti kullanılmıştır. Bu alt kümede şiddet içeren her kare aralığı, mevcut şiddet sınıfıyla birlikte açıklanır. Dolayısıyla bu veri seti bu görev için kullanılır. Bu 3 film ne sınıflandırıcıların eğitimi, test edilmesi ne de ağırlık hesaplaması için kullanılmadı, böylece sistem tamamen yeni bir veri üzerinden değerlendirilebilir. Şekil 3.1'de gösterilen prosedür, bir video bölümünün belirli bir şiddet sınıfına ait olma olasılığını hesaplamak için kullanılır. Sistemden gelen çıktı olasılıkları ve temel gerçek bilgiler, ROC (Alıcı Çalışma Karakteristiği) eğrileri oluşturmak ve sistemin performansını değerlendirmek için kullanılır.


İkili sınıflandırma görevi olan ikinci görevde VSD2104 veri setinin Hollywood: Test ve YouTube: Genelleştirme alt kümeleri kullanılmıştır. Hollywood: Test alt kümesi 8 Hollywood filminden oluşur ve YouTube: Genelleştirme alt kümesi YouTube'daki 86 videodan oluşur. Her iki alt kümede de şiddet içeren kare aralıkları açıklama olarak verilmiş, şiddetin sınıfına ilişkin bilgi verilmemiştir. Dolayısıyla bu alt kümeler bu görev için kullanılır. Bu görevde, öncekine benzer şekilde, Şekil 3.1'de gösterilen prosedür, bir video bölümünün belirli bir şiddet sınıfına ait olma olasılığını hesaplamak için kullanılır. Her video bölümü için herhangi bir şiddet sınıfı için elde edilen maksimum olasılık, onun şiddet içerme olasılığı olarak kabul edilir. Yukarıdaki göreve benzer şekilde, bu olasılık değerlerinden ve veri kümesindeki temel gerçeklerden ROC eğrileri oluşturulur.


Her iki görevde de öncelikle tüm özellikler eğitim ve test veri kümelerinden çıkarılır. Daha sonra, eşit miktarda pozitif ve negatif örnek elde etmek için eğitim ve test veri kümeleri rastgele örneklenir. Eğitim için 2.000 özellik örneği, test için ise 3.000 özellik örneği seçildi. Yukarıda belirtildiği gibi, eğitim verileri üzerinde test yapılmasını önlemek için ayrık eğitim ve test setleri kullanılır. Her iki görevde de her özellik türü için Doğrusal, Radyal Temel Fonksiyonlu ve Ki-Kare çekirdekli SVM sınıflandırıcıları eğitilmekte ve füzyon adımı için test setinde sınıflandırma puanı iyi olan sınıflandırıcılar seçilmektedir. Birleştirme adımında, her bir şiddet türüne ilişkin ağırlıklar, sınıflandırıcının performansını en üst düzeye çıkaran olası kombinasyonların grid araması yoluyla hesaplanır. Performans ölçüsü olarak EER (Eşit Hata Oranı) ölçüsü kullanılmaktadır.

4.3. Deneyler ve Sonuçlar

Bu bölümde yapılan deneyler ve sonuçları sunulmaktadır. İlk olarak, çok sınıflı sınıflandırma görevinin sonuçları sunulur, ardından ikili sınıflandırma görevinin sonuçları sunulur.

4.3.1. Çok Sınıflı Sınıflandırma

Bu görevde sistemin videodaki şiddet kategorisini tespit etmesi gerekiyor. Bu sistemde hedeflenen şiddet kategorileri; Kan, Soğuk silahlar, Patlamalar, Kavga, Ateş, Ateşli Silahlar, Silah Sesleri, Çığlıklar'dır. Bölüm 1'de belirtildiği gibi bunlar, VSD2014'te tanımlanan şiddet kategorilerinin alt kümesidir. Bu sekiz kategorinin dışında, Araba Takip ve Öznel Şiddet de VSD2014'te tanımlanmış olup, veri setinde bu kategorilerle etiketlenmiş yeterli sayıda video segmenti bulunmadığından bu çalışmada kullanılmamıştır. Şiddetin alt kategorilerinin tespiti, karmaşık şiddet tespiti problemine daha fazla karmaşıklık kattığı için bu görev çok zordur. Bu sistemin ince taneli şiddet kavramlarını tespit etme çabası yenidir ve bu görevi yapabilecek bir sistem mevcut değildir.


Bölüm 3'te bahsedildiği gibi, bu sistem birden fazla şiddet sınıfını tespit etmek için ağırlıklı karar birleştirme yaklaşımını kullanır; burada her şiddet kategorisine ait ağırlıklar, bir tablo arama tekniği kullanılarak öğrenilir. Bu yaklaşımla ilgili daha fazla ayrıntı için lütfen Bölüm 3.1.3'e bakın. Tablo 4.2'de bu tablo arama tekniği kullanılarak bulunan her şiddet sınıfına ait ağırlıklar sunulmaktadır.


Bu ağırlıklar, her şiddet kategorisi için ikili özellik sınıflandırıcılarının çıktı değerlerinin ağırlıklı toplamını elde etmek için kullanılır. En yüksek toplama sahip kategori, o video segmentinde mevcut olan şiddet kategorisidir. Çıktı toplamı 0,5'ten azsa video bölümü Şiddet İçermeyen olarak kategorize edilir. Doğrulama setindeki video bölümleri bu yaklaşım kullanılarak sınıflandırılmış ve sonuçlar Şekil 4.2'de sunulmuştur. Şekilde her eğri, şiddet kategorilerinin her biri için ROC eğrisini temsil etmektedir.


Tablo 4.2: Izgara Arama tekniği kullanılarak her bir şiddet sınıfı için elde edilen sınıflandırıcı ağırlıkları. Burada bir şiddet sınıfının ağırlıklarını seçme kriteri, o şiddet sınıfı için EER'yi en aza indiren ağırlıkları bulmaktı.



Şekil 4.2: Sistemin Çok Sınıflı Sınıflandırma görevindeki performansı.

4.3.2. İkili Sınıflandırma

Bu ikili sınıflandırma görevinde sistemin kategoriyi bulmaya gerek kalmadan şiddetin varlığını tespit etmesi bekleniyor. Önceki göreve benzer şekilde, ikili özellik sınıflandırıcılarının çıktı olasılıkları ağırlıklı toplam yaklaşımı kullanılarak birleştirilir ve video segmentinin şiddet sınıflarının her birine ait olma çıktı olasılıkları hesaplanır. Herhangi bir sınıf için maksimum olasılık 0,5'i aşarsa video segmenti şiddet olarak sınıflandırılır, aksi durumda şiddet içermeyen olarak sınıflandırılır. Bölüm 4.2'de belirtildiği gibi bu görev YouTube-Genelleştirme ve Hollywood-Test veri kümeleri üzerinde gerçekleştirilir. Şekil 4.3 her iki veri kümesinde de bu görevin sonuçlarını göstermektedir. Sistemin performansını temsil etmek için her veri kümesi için bir tane olmak üzere iki ROC eğrisi kullanılır. Video segmentinin şiddet içerip içermediğine karar vermek için eşik olarak 0,5 kullanılarak kesinlik, hatırlanabilirlik ve doğruluk değerleri hesaplanır. Elde edilen sonuçlar için lütfen Tablo 4.3'e bakınız.


Tablo 4.3: Önerilen yaklaşım kullanılarak elde edilen sınıflandırma sonuçları.


Tablo 4.4: MediaEval-2014'ten en iyi performans gösteren takımların elde ettiği sınıflandırma sonuçları (Schedl ve diğerleri [51]).

4.4. Tartışma

Bu bölümde Bölüm 4.3'te sunulan sonuçlar tartışılmaktadır. Çoklu Sınıf ve İkili sınıflandırma görevlerinin sonuçlarını tartışmadan önce, bireysel sınıflandırıcıların performansı tartışılmaktadır.

4.4.1. Bireysel Sınıflandırıcılar

Bölüm 4.3'te tartışılan sınıflandırma görevlerinin her ikisinde de, nihai sonuçları elde etmek için sınıflandırıcı puanlarının birleştirilmesi gerçekleştirilir. Bu nedenle, sistemin performansı temel olarak sınıflandırıcıların her birinin bireysel performansına ve kısmen de sınıflandırıcıların her birine atanan ağırlıklara bağlıdır. Nihai sınıflandırma sonuçlarının iyi olması için sınıflandırıcıların her birinin bireysel performansının iyi olması önemlidir. En iyi performansa sahip sınıflandırıcıları elde etmek için DVM'ler üç farklı çekirdek fonksiyonu (Doğrusal, RBF ve Ki-Kare) kullanılarak eğitilir ve test setinde en iyi performansa sahip sınıflandırıcı seçilir. Bu yaklaşımın ardından her özellik türü için en iyi performansı gösteren sınıflandırıcılar seçilir. Seçilen bu sınıflandırıcıların Şekil 4.4'te sunulan test veri seti üzerindeki performansı. SentiBank ve Audio'nun test setinde makul performans gösteren iki özellik sınıflandırıcı olduğu görülmektedir. Hareket özelliği sınıflandırıcı şansa göre biraz daha iyi bir performansa sahipken, Blood şansa eşdeğer bir performansa sahiptir. Bu sınıflandırıcıların her birinin performansına ilişkin artan performans sırasına göre ayrıntılı bir tartışma aşağıda sunulmaktadır.


Şekil 4.4: Test seti üzerindeki bireysel ikili sınıflandırıcıların performansı.


Şekil 4.5: Hokey ve HollywoodTest Veri Kümelerinde Hareket özelliği sınıflandırıcılarının performansı. Kırmızı eğri, Hokey Veri Kümesi üzerinde eğitilen sınıflandırıcı içindir ve geri kalan üçü, Doğrusal, RBF ve Ki-Kare çekirdekleri ile Hollywood-Dev veri kümesi üzerinde eğitilen üç sınıflandırıcı içindir.

4.4.1.1. Hareket

Şekil 4.4'ten açıkça görüldüğü gibi, test seti üzerindeki hareket özelliği sınıflandırıcısının performansı şansa göre sadece biraz daha iyidir. Bunun arkasındaki nedeni anlamak için, farklı SVM çekirdekleri ile eğitilmiş tüm hareket özelliği sınıflandırıcılarının mevcut veri kümeleri üzerindeki performansı karşılaştırılmıştır. Karşılaştırma için Şekil 4.5'e bakın. Şekilde, soldaki grafik Hokey veri setinden alınan test seti üzerindeki sınıflandırıcıların performansını, sağdaki grafik ise Hollywood-Test veri seti üzerindeki karşılaştırmayı göstermektedir. Her iki grafikte de kırmızı eğri, Hokey veri kümesinde eğitilen sınıflandırıcıya karşılık gelir ve geri kalan üç eğri, Hollywood-Dev veri kümesinde eğitilen sınıflandırıcılara karşılık gelir.


Her iki grafikten de, aynı veri seti üzerinde eğitilen ve test edilen sınıflandırıcıların performansının, bir veri seti üzerinde eğitilip diğerinde test edilen sınıflandırıcılarla karşılaştırıldığında oldukça iyi olduğu gözlemlenebilir. Soldaki grafikte (TestSet: Hokey Veri Kümesi), Hokey Veri Kümesi üzerinde eğitilen sınıflandırıcı daha iyi performansa sahiptir. Benzer şekilde sağdaki grafikte (TestSet: Hollywood-Test), Hollywood-Dev veri seti üzerinde eğitilen sınıflandırıcıların performansı daha iyi performansa sahiptir. Buradan, bir veri kümesinden öğrenilen hareket özelliği gösteriminin başka bir veri kümesine aktarılamayacağı sonucu çıkarılabilir. Bunun nedeni, veri kümeleri arasındaki video çözünürlüğü ve video formatındaki eşitsizlik olabilir. Hokey veri kümesindeki ve Hollywood-Test veri kümesindeki videolar farklı formatlara sahiptir ve ayrıca Hollywood-Development ve Hollywood-Test'teki tüm videolar aynı formatta değildir. Hareket özelliklerini çıkarmak için kullanılan prosedür (Bölüm 3.1.1.3.1'de açıklanmıştır) video codec bileşenlerinden hareket bilgilerini kullandığından video formatı önemli bir rol oynar. Burada kullanılan prosedür, çıkarılan özellikleri video bölümünün uzunluğuyla normalleştirerek ve piksel hareketlerini önceden tanımlanmış sayıda alt bölge üzerinde toplayarak bunu azaltmaya çalışsa da, bir videonun uzunluğu ve çözünürlüğü de bir miktar etkiye sahip olacaktır. çerçevenin. Hokey veri kümesindeki videolar, her biri bir saniyelik çok kısa bölümlerdir ve küçük çerçeve boyutuna ve düşük kaliteye sahiptir. Oysa Hollywood veri setindeki video bölümleri daha uzundur ve daha büyük çerçeve boyutuna ve daha iyi kaliteye sahiptir. Bu soruna yönelik bir çözüm, tüm videoları aynı formata dönüştürmek olabilir, ancak bu durumda bile hatalı video kodlaması nedeniyle sorun ortaya çıkabilir. Diğer çözüm ise hareket özelliklerini çıkarmak için Optik akışa dayalı bir yaklaşım kullanmak olabilir (Bölüm 3.1.1.3.2'de açıklanmıştır). Ancak daha önce de açıklandığı gibi bu yaklaşım sıkıcıdır ve videoda hareket nedeniyle bulanıklık olduğunda işe yaramayabilir.

4.4.1.2. Kan

Kan özelliği sınıflandırıcısının test setindeki performansı bir şans kadar iyidir. Sonuçlar için Şekil 4.4'e bakın. Kan özelliği çıkarmak için kullanılan kan dedektörü, bir görüntüde kan içeren bölgeleri tespit etmede çok iyi sonuçlar gösterdiğinden, burada sorun özellik çıkarmayla ilgili değildir. Kan dedektörünün web'deki görüntüler üzerindeki performansı için lütfen Şekil 3.4'e, Hollywood veri setindeki örnek çerçeveler üzerindeki performansı için ise Şekil 4.6'ya bakın. Buradan, kan özelliği çıkarıcının oldukça iyi bir iş çıkardığı ve sorunun özellik çıkarımıyla ilgili olmadığı açıktır. Dolayısıyla sorunun sınıflandırıcı eğitiminde olduğu ve eğitim verilerinin sınırlı olmasından kaynaklandığı sonucuna varılabilir.


Eğitim için kullanılan VSD2014 veri setinde kan içeren video bölümlerine, bu bölümlerde bulunan kan miktarını temsil eden etiketler (“Fark Edilemez”, “Düşük”, “Orta” ve “Yüksek”) eklenmiştir. Bu veri setinde "Yüksek" etiketiyle açıklamalı çok az sayıda segment vardır ve bunun sonucunda SVM sınıflandırıcıları, kan içeren çerçevelerin özellik gösterimini etkili bir şekilde öğrenememektedir. Bu özellik sınıflandırıcının performansı, yüksek miktarda kan içeren birçok çerçeve örneğini içeren daha büyük bir veri kümesiyle eğitilerek geliştirilebilir. Alternatif olarak bu sınıflandırıcıyı eğitmek için Google'daki görseller de kullanılabilir.

4.4.1.3. Ses

Ses özelliği sınıflandırıcısı, test setindeki en iyi performansa sahip ikinci sınıflandırıcıdır (bkz. Şekil 4.4) ve bu, şiddet tespitinde sesin önemini göstermektedir. Her ne kadar görsel özellikler şiddet içeren içeriğin iyi bir göstergesi olsa da, sesin daha önemli rol oynadığı bazı sahneler de vardır. Örneğin kavga, silah sesi ve patlama içeren sahneler. Bu sahneler, MFCC'ler ve Enerji-entropisi gibi karakteristik seslere ve ses özelliklerine sahiptir ve bu şiddet içeren sahnelerle ilişkili ses modellerini tespit etmek için kullanılabilir. Bu çalışmada, şiddet tespitine ilişkin önceki birçok çalışmada olduğu gibi (Acar ve ark. [1], Jiang ve ark. [33], Lam ve ark. [36) ses içeriğini tanımlamak için MFCC özellikleri kullanılmıştır (bkz. Bölüm 3.1.1.1). ], vb.) şiddet içeren sahnelerle ilişkili ses imzalarını tespit etmede MFCC özelliklerinin etkinliğini göstermiştir. Özellik sınıflandırıcının performansını daha da artırmak için enerji entropisi, perde ve güç spektrumu gibi diğer ses özellikleri de MFCC özellikleriyle birlikte kullanılabilir. Ancak şunu da unutmamak gerekir ki, ses tek başına şiddeti tespit etmek için yeterli değildir ve yalnızca Silah Atışı ve Patlamalar gibi benzersiz ses imzalarına sahip birkaç şiddet sınıfının tespitinde önemli bir rol oynar.

4.4.1.4. SentiBank

SentiBank özellik sınıflandırıcısı, tüm özellik sınıflandırıcıları arasında en iyi performansı göstermiştir (bkz. Şekil 4.4) ve sistemin genel performansına güçlü bir şekilde katkıda bulunmuştur. Bu, SentiBank'ın şiddet gibi karmaşık görsel duyguları tespit etmedeki gücünü gösteriyor. Şekil 4.7, şiddet içeren ve şiddet içermeyen çerçeveler için ilk 50 ANP'nin ortalama puanlarını göstermektedir. Görüldüğü gibi şiddet ve şiddet içermeyen sınıflar için en yüksek ortalama puanlara sahip ANP'lerin listesi oldukça farklıdır ve SentiBank'ın şiddet sınıfını şiddet içermeyen sınıftan ayırma konusunda çok iyi bir performans göstermesinin nedeni de budur. ANP'nin şiddet sınıfına ilişkin listesindeki tüm sıfatların şiddeti tanımlamadığını unutmayın. Bunun birçok farklı nedeni olabilir; bunlardan biri, SentiBank'ta kullanılan 1.200 ANP'den yalnızca birkaçının şiddete ilişkin duyguları (korku, terör, öfke, kızgınlık vb.) tanımlaması olabilir. Lütfen Plutchik'in Duygu Çarkı'nı ve VSO'daki her duygu kategorisi için ANP'lerin dağılımını gösteren Şekil 4.8'e bakın.


Şekil 4.6: Kan dedektörünün Hollywood veri setindeki örnek çerçevelerdeki performansını gösteren şekil. İlk sütundaki görüntüler (A ve D) giriş görüntüleridir, ikinci sütundaki görüntüler (B ve E) kan olasılık haritalarıdır ve son sütundaki görüntüler (C ve F) ikilileştirilmiş kan olasılık haritalarıdır.

4.4.2. Füzyon Ağırlıkları

Daha önce de belirtildiği gibi (Bölüm 3.1.3), nihai sınıflandırma puanları, ağırlıklı toplam yaklaşımı kullanılarak bireysel sınıflandırıcı puanlarının geç birleştirilmesiyle hesaplanır. Burada kullanılan ağırlıklar, Eşit Hata Oranını (EER) en aza indirmek amacıyla bir ızgara arama yaklaşımı kullanılarak hesaplanır. Dolayısıyla ağırlıklar sistemin genel sınıflandırma performansının belirlenmesinde önemli bir rol oynamaktadır. Tüm bu ağırlıkların test setinde hesaplandığını unutmayın. Tablo 4.2'de, ızgara arama tekniği kullanılarak elde edilen sekiz şiddet sınıfının her biri için sınıflandırıcıların ağırlıkları sunulmaktadır. Elde edilen ağırlıklardan ağırlık dağılımına ilişkin şu gözlemler yapılabilir: (i) Şiddet sınıflarının çoğunda en ayırt edici özellik olması nedeniyle en yüksek ağırlık SentiBank'a verilmektedir. (ii) Ses, sesin çok önemli bir rol oynadığı Silah Atışları, Patlamalar ve Kavgalar gibi şiddet sınıflarında en yüksek ağırlığı almıştır. (iii) Kan, Çığlıklar, Silah Sesleri ve Ateşli Silahlar gibi şiddet sınıfları için yüksek ağırlıklar almıştır. Bu şiddet sınıflarından herhangi birine ait bir video parçasının da kan içerebilmesi nedeniyle bu ilginçtir. (iv) Hareket, en az performans gösteren özellik olduğundan şiddet sınıflarının çoğunda en az ağırlığı almıştır. Ancak çok fazla hareketin beklenebileceği sınıf Dövüşleri için daha yüksek bir ağırlığa sahip olduğu da gözlemlenebilir.


Şiddet sınıflarının her birine verilen ağırlıklar incelendiğinde şu gözlemler yapılabilir: (i) Ateşli Silahlar sınıfı için en yüksek dağılım ağırlıkları Ses (0,5) ve Kan (0,45) arasındadır. Silah seslerinin tespitinde ses özelliklerinin önemli bir rol oynaması ve silah seslerinin olduğu sahnelerin de çok fazla kan içermesi beklendiğinden bu beklenen bir durumdur. (ii) Ses (0,4) ve görsel özellikler (Hareket - 0,25 ve SentiBank - 0,30), Dövüş sınıfı için neredeyse eşit miktarda ağırlık almıştır. Kavga içeren sahnelerin tespitinde hem işitsel hem de görsel özellikler önemli olduğundan bu beklenen bir durumdur. (iii) Patlamalar sınıfı için en yüksek ağırlıklar Ses'e (0,9) atanır ve bu beklenen bir durumdur çünkü ses özellikleri patlamaların tespit edilmesinde çok önemlidir. (iv) Ateş, görsel özelliklerin yüksek ağırlığa sahip olmasının beklendiği bir şiddet sınıfıdır ve beklendiği gibi en iyi performans gösteren görsel özelliğe SentiBank (0,85) en yüksek ağırlığı vermektedir. (v) Şiddet sınıfı Soğuk


Şekil 4.7: İlk 50 SentiBank ANP'nin şiddet içeren ve şiddet içermeyen çerçeveler için ortalama puanlarını gösteren grafikler.


Şekil 4.8: Plutchik'in duygu çarkı ve VSO'da duygu başına ANP sayısı.


kollar herhangi bir soğuk silahın (örneğin bıçaklar, kılıçlar, oklar, teberler vb.) bulunduğu sahneleri içerir. Bu sınıf için görsel özelliklerin yüksek ağırlıkta olması beklenmektedir. Ve beklendiği gibi SentiBank (0,95) bu sınıf için en yüksek ağırlığa sahip. (vi) “Ateşli Silahlar”, silah ve ateşli silahların yer aldığı sahnelerin yer aldığı şiddet sınıfıdır. Yukarıdaki sınıfa benzer şekilde görsel özelliklerin de yüksek ağırlıklara sahip olması beklenmektedir. Bu sınıf için SentiBank (0,6) ve Blood (0,3) en yüksek ağırlık dağılımını aldı. Blood'a daha fazla ağırlık verilmesinin nedeni, silah içeren sahnelerin çoğunun aynı zamanda kan dökülmesinden de kaynaklanması olabilir. (vii) Blood sınıfı için Blood özelliğinin en yüksek ağırlığa sahip olması beklenir. Ancak feature Blood (0,05) yalnızca küçük bir ağırlık alırken, SentiBank (0,95) en yüksek ağırlığı aldı. Bu beklenen bir sonuç değildir ve bunun nedeni Kan özelliği sınıflandırıcısının test setindeki zayıf performansı olabilir. (viii) Ses özellikleri çığlıkların tespitinde önemli bir rol oynadığından, Sesin "Çığlıklar" sınıfı için daha yüksek ağırlıklara sahip olmasını beklemek sezgiseldir. Ancak burada elde edilen ağırlıklar bu sezgiye aykırıdır. Ses çok daha az ağırlık alırken SentiBank en yüksek ağırlığı aldı. Genel olarak, grid aramasından elde edilen ağırlıklar çoğu sınıf için az ya da çok beklendiği gibidir. Bireysel sınıflandırıcıların testteki performansı geliştirilirse daha iyi ağırlık dağılımı elde edilebilir.

4.4.3. Çok Sınıflı Sınıflandırma

Bu bölümde çok sınıflı sınıflandırma görevinde elde edilen sonuçlar tartışılmaktadır. Bu görevde elde edilen sonuçlar için lütfen Şekil 4.2'ye bakın. Şekilden aşağıdaki gözlemler çıkarılabilir: (i) Sistem, Ateşli Silah seslerini tespit etmede iyi bir performans göstermektedir (EER yaklaşık %30). (ii) Şiddet sınıfları, Soğuk silahlar, Kan ve Patlamalar için sistem orta düzeyde bir performans göstermektedir (EER yaklaşık %40). (iii) Geri kalan şiddet sınıfları için (Kavga, Çığlık, Ateş, Ateşli Silahlar) performans bir şans kadar iyidir (%45'in üzerinde EER). Bu sonuçlar, iyileştirme için çok geniş bir alan olduğunu göstermektedir, ancak şiddeti tespit etmenin önemsiz bir iş olmadığını ve farklı şiddet sınıfları arasında ayrım yapmanın daha da zor olduğunu unutmamak önemlidir. Şu ana kadar önerilen tüm yaklaşımlar yalnızca şiddetin varlığını veya yokluğunu tespit etmeye odaklanmış, şiddet kategorisinin tespitine odaklanmamıştır. Bu çalışmada önerilen yeni yaklaşım bu yöndeki ilk yaklaşımlardan biridir ve performansın karşılaştırılabileceği herhangi bir temel sistem bulunmamaktadır. Bu çalışmadan elde edilen sonuçlar, bu alanda gelecekte yapılacak çalışmalara temel teşkil edecektir.


Bu sistemde, yetişkinlere yönelik içerik tespitine benzer bir multimedya kavramı tespit görevinde iyi sonuçlar veren geç füzyon yaklaşımı izlenmektedir (Schulze ve ark. [52]). Dolayısıyla sistemin zayıf performansı izlenen yaklaşıma bağlanamaz. Sistemin performansı bireysel sınıflandırıcıların performansına ve her bir şiddet sınıfı için onlara atanan füzyon ağırlığına bağlıdır. Füzyon ağırlıkları, Izgara Arama tekniği kullanılarak EER'yi en aza indirecek şekilde ayarlandığından, sistemin genel performansı yalnızca bireysel sınıflandırıcıların performansına bağlıdır. Dolayısıyla sistemin bu görevdeki performansını artırmak için bireysel sınıflandırıcıların şiddeti tespit etme performansını artırmak gerekir.

4.4.4. İkili Sınıflandırma

İkili sınıflandırma görevinin sonuçları Şekil 4.3'te sunulmaktadır. Bu görev, çok sınıflı sınıflandırma görevinin bir uzantısıdır. Daha önce açıklandığı gibi, bu görevde, şiddet sınıflarından herhangi birinin çıktı olasılığı 0,5 eşiğinden fazlaysa bir video segmenti "Şiddet" olarak sınıflandırılır. Sistemin bu görevdeki performansı Hollywood-Test ve YouTube-Genelleme olmak üzere iki veri seti üzerinde değerlendirilmektedir. Sistemin bu veri setleri üzerindeki performansının şansa göre biraz daha iyi olduğu gözlemlenebilmektedir. Ayrıca Hollywood-Test veri setindeki performansın YouTube-Genelleme veri setine göre daha iyi olduğu da gözlemlenebilmektedir. Tüm sınıflandırıcılar, Hollywood-Test veri kümesine benzer video içeriğine sahip Hollywood-Development veri kümesindeki veriler üzerinde eğitildiğinden bu beklenen bir durumdur. Sistemin bu görev için elde ettiği kesinlik, geri çağırma ve doğruluk değerleri Tablo 4.3'te sunulmaktadır. Bu görevde en iyi performans gösteren ekibin MediaEval-2014'ten elde ettiği sonuçlar Tablo 4.4'te verilmektedir.


Değerlendirme için kullanılan süreç aynı olmadığından, aynı veri seti kullanılsa bile bu sonuçlar doğrudan karşılaştırılamaz. MediaEval-2014'te bir sistemin şiddet içeren video bölümleri için başlangıç ve bitiş karesi çıktısı vermesi bekleniyor ve temel gerçek ile çıktı karesi aralıkları arasındaki örtüşme %50'den fazla ise bu bir isabet olarak değerlendiriliyor. Lütfen Schedl ve ark. [51] MediaEval-2014'te izlenen süreç hakkında daha fazla bilgi için. Önerilen yaklaşımda sistem, giriş videosunun her 1 saniyelik bölümünü "Şiddet" veya "Şiddet Yok" sınıfına göre sınıflandırır ve sistem performansı bunu temel gerçekle karşılaştırarak hesaplanır. Burada kullanılan değerlendirme kriterleri, MediaEval-2014'te kullanılana kıyasla çok daha katı ve ayrıntılıdır. Burada sınıflandırma her 1 saniyelik bölüm için yapıldığından, daha kısa bölümlerin tespitini cezalandıracak bir stratejiye gerek yoktur. MediaEval'de en iyi performansa sahip sistemi seçmek için MAP metriği kullanılırken, önerilen sistemde sistemin EER'si optimize edilmiştir.


Bu sistemden elde edilen sonuçlar doğrudan MediaEval sonuçlarıyla karşılaştırılamasa da, sıkı değerlendirme kriterlerine rağmen bu sistemin performansının MediaEval-2014'teki en iyi performansa sahip sistemle karşılaştırılabilir, hatta daha iyi olduğu gözlemlenebilir. kullanılmış. Bu sonuçlar, önerilen yeni yaklaşım kullanılarak geliştirilen sistemin, şiddet tespiti alanında mevcut en gelişmiş sistemlerden daha iyi olduğunu göstermektedir.

4.5. Özet

Bu bölümde geliştirilen sistemin değerlendirilmesine ilişkin ayrıntılı bir tartışma sunulmaktadır. Bölüm 4.1'de bu çalışmada kullanılan veri setlerinin detayları açıklanmakta ve sonraki bölüm 4.2'de deney düzeneği tartışılmaktadır. Bölüm 4.3'te deneyler ve sonuçları sunulmuş, ardından Bölüm 4.4'te elde edilen sonuçlarla ilgili ayrıntılı bir tartışma yapılmıştır.




[1] http://www.images.google.com.tr


[2] http://www.youtube.com


[3] http://visilab.etsii.uclm.es/personas/oscar/FightDetection/index.html