paint-brush
Videolarda Şiddet Tespiti: Önerilen Yaklaşımile@kinetograph
144 okumalar

Videolarda Şiddet Tespiti: Önerilen Yaklaşım

Çok uzun; Okumak

Bu makalede araştırmacılar, sınıflandırma için sesli ve görsel ipuçlarından yararlanarak videolardaki şiddetin otomatik olarak tespit edilmesine yönelik bir sistem önermektedir.
featured image - Videolarda Şiddet Tespiti: Önerilen Yaklaşım
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


Yazarlar:

(1) Praveen Tirupattur, Central Florida Üniversitesi.

Bağlantı Tablosu

3. Önerilen Yaklaşım

Bu bölümde, bu çalışmada izlenen yaklaşımın ayrıntılı bir açıklaması sunulmaktadır. Önerilen yaklaşım iki ana aşamadan oluşmaktadır: Eğitim ve Test. Eğitim aşamasında sistem, sınıflandırıcıları eğitim veri setinden çıkarılan görsel ve işitsel özelliklerle eğiterek videodaki şiddet kategorisini tespit etmeyi öğrenir. Test aşamasında sistemin belirli bir video için şiddeti tespit etmedeki doğruluğu hesaplanarak sistem değerlendirilir. Bu aşamaların her biri aşağıdaki bölümlerde ayrıntılı olarak açıklanmaktadır. Önerilen yaklaşıma genel bakış için lütfen Şekil 3.1'e bakın. Son olarak sistemi değerlendirmek için kullanılan metrikleri açıklayan bir bölüm sunulmaktadır.

3.1. Eğitim

Bu bölümde eğitim aşamasında yer alan adımların detayları tartışılmaktadır. Önerilen eğitim yaklaşımının üç ana adımı vardır: Özellik çıkarma, Özellik Sınıflandırma ve Özellik birleştirme. Bu üç adımın her biri aşağıdaki bölümlerde ayrıntılı olarak açıklanmaktadır. Bu aşamanın ilk iki adımında şiddet içeren ve şiddet içermeyen video segmentlerinden işitsel ve görsel özellikler çıkarılıyor ve iki sınıflı SVM sınıflandırıcılarını eğitmek için kullanılıyor. Daha sonra özellik birleştirme adımında sistemin hedeflediği her şiddet türü için özellik ağırlıkları hesaplanır. Bu özellik ağırlıkları, olası ağırlık kombinasyonları üzerinde bir ızgara araştırması yapılarak ve doğrulama seti üzerinde sistemin performansını optimize eden en iyi kombinasyonun bulunmasıyla elde edilir. Buradaki optimizasyon kriteri sistemin EER'sinin (Eşit Hata Oranı) minimizasyonudur. Bu ağırlıkları bulmak için, hedeflenen tüm kategorilerdeki şiddet içerikli videoları içeren, eğitim setinden ayrı bir veri seti kullanılıyor. Hedeflenen kategorilerin ayrıntıları için lütfen Bölüm 1'e bakın.


Şekil 3.1: Sistemin genel görünümünü gösteren şekil. Her biri Ses, Kan, Hareket ve SentiBank özellikleri için olmak üzere dört farklı SVM sınıflandırıcısı eğitilmiştir. Web'deki görüntüler, video karelerindeki kanı tespit edecek bir kan modeli geliştirmek için kullanılır. Sınıflandırıcıları tüm özelliklere yönelik eğitmek için VSD2104 veri kümesindeki veriler kullanılır. Bu sınıflandırıcıların her biri ayrı ayrı şiddet içeren bir video parçasının olasılığını verir. Bu bireysel olasılıklar daha sonra geç füzyon tekniği kullanılarak birleştirilir ve bireysel olasılıkların ağırlıklı toplamı olan nihai çıktı olasılığı, sistem tarafından çıktı olarak sunulur. Sisteme girdi olarak sunulan video birer saniyelik bölümlere ayrılarak çıktı olarak her bölümün şiddet içerme olasılığı elde edilmektedir.

3.1.1. Özellik çıkarma

Birçok araştırmacı Şiddet tespit problemini farklı işitsel ve görsel özellikler kullanarak çözmeye çalışmıştır. Şiddet tespiti ile ilgili araştırmalara ilişkin detaylı bilgi Bölüm 2'de sunulmaktadır. Önceki çalışmalarda şiddeti tespit etmek için en sık kullanılan görsel özellikler hareket ve kan, en sık kullanılan ses özelliği ise MFCC'dir. Önerilen bu yaklaşım, bu üç ortak düşük seviyeli özelliğin yanı sıra, görüntülerdeki duyguları temsil eden görsel bir özellik olan SentiBank'ı da (Borth ve diğerleri [4]) içermektedir. Her bir özelliğin ayrıntıları ve şiddet tespitindeki önemi ve kullanılan çıkarma yöntemleri aşağıdaki bölümlerde açıklanmaktadır.

3.1.1.1. MFCC-Özellikleri

Şiddet içeren sahnelerde çok sık karşılaşılan silah sesi, patlama vb. olayların tespitinde ses özellikleri çok önemli rol oynuyor. Birçok araştırmacı şiddet tespiti için ses özelliklerini kullanmış ve iyi sonuçlar üretmiştir. Her ne kadar daha önceki çalışmalardan bazıları enerji entropisine bakmış olsa da [Nam et al. [41]] ses sinyalinde çoğu, videolardaki ses içeriğini tanımlamak için MFCC özelliklerini kullandı. Bu MFCC özellikleri ses ve ses tanımada yaygın olarak kullanılır.


Bu çalışmada, sistem geliştirilirken DVM sınıflandırıcısını eğitmek için VSD2014 veri setinde sağlanan MFCC özellikleri kullanılmıştır. Değerlendirme sırasında, pencere boyutu ses akışındaki kare başına ses örnekleri sayısına ayarlanarak, giriş videosunun ses akışından MFCC özellikleri çıkarılır. Bu, ses örnekleme hızının videonun fps (saniyedeki kare sayısı) değerine bölünmesiyle hesaplanır. Örneğin ses örnekleme hızı 44.100 Hz ise ve video 25 fps ile kodlanmışsa her pencerede 1.764 ses örneği bulunur. Pencere örtüşme bölgesi sıfıra ayarlanır ve her pencere için 22 MFCC hesaplanır. Bu kurulumla her video karesi için 22 boyutlu bir MFCC özellik vektörü elde edilir.

3.1.1.2. Kan Özellikleri

Kan, aşırı şiddet içeren sahnelerde en sık görülen görünür unsurdur. Örneğin dayak, bıçaklama, silah sesleri ve patlama içeren sahneler. Şiddet tespiti konusunda daha önce yapılan pek çok çalışmada, şiddetin önemli bir göstergesi olması nedeniyle kanı temsil eden piksellerin tespiti kullanılmıştır. Bir çerçevedeki kanı tespit etmek için, daha önceki çalışmaların çoğunda önceden tanımlanmış bir renk tablosu kullanılmıştır; örneğin Nam ve ark. [41] ve Lin ve Wang [38]. Kohonen'in Kendi Kendini Düzenleyen Haritasının (SOM) (Clarin ve ark. [12]) kullanımı gibi kan tespitine yönelik diğer yaklaşımlar da daha önceki bazı çalışmalarda kullanılmıştır.


Bu çalışmada kanı temsil eden pikselleri tespit etmek için bir renk modeli kullanılmıştır. Piksellerin kırmızı, yeşil ve mavi değerleri için her biri bir boyutlu üç boyutlu histogram kullanılarak temsil edilir. Her boyutta 32 kutu vardır ve her kutunun genişliği 8'dir (32 × 8 = 256). Bu kan modeli iki adımda oluşturulur. İlk adımda kan içeren piksellerin RGB (Kırmızı, Yeşil, Mavi) değerleri kullanılarak kan modeli ön yükleme işlemine tabi tutulur. 3 boyutlu ikili histogram, kan içeren bu piksellerin RGB değerleriyle doldurulur. Modele her yeni kan pikseli eklendiğinde kan pikselinin ait olduğu kutudaki değer 1 artırılır. Histogramı doldurmak için yeterli sayıda kanlı piksel kullanıldığında kutulardaki değerler tüm değerlerin toplamına göre normalleştirilir. Kutuların her birindeki değerler artık bir pikselin RGB değerleri göz önüne alındığında kan gösterme olasılığını temsil ediyor. Kan modelini doldurmak için Google'dan indirilen kan içeren çeşitli görüntülerden kan içeren pikseller kırpılır. Yalnızca kan piksellerini içeren bölgelerin kırpılması manuel olarak yapılır. Her biri 20 piksel × 20 piksel boyutunda kırpılmış bölgelerin örnekleri için lütfen Şekil 3.2 resmine bakın.


Şekil 3.2: Kan içeren 20 x 20 boyutunda örnek kırpılmış bölgeleri gösteren şekil.


Model ön yüklemeye alındıktan sonra Google'dan indirilen görüntülerdeki kanı tespit etmek için kullanılır. Önyüklemeli modeli daha da genişletmek için yalnızca kanı temsil etme olasılığı yüksek olan pikseller kullanılır. Görüntülerin indirilmesi ve kan modelinin uzatılması otomatik olarak yapılır. Google'dan kan içeren görselleri indirmek için "kanlı görseller", "kanlı sahneler", "kanama", "gerçek kan sıçraması", "kan damlayan" gibi arama kelimeleri kullanılıyor. İndirilen görsellerden bazı örnekleri Şekil 3.3'te görebilirsiniz. Kan modeline kan olasılığı yüksek piksel değerleri en az bir milyon piksel değerine ulaşıncaya kadar eklenir.


Bu kan modeli tek başına kanı doğru bir şekilde tespit etmek için yeterli değildir. Bu kan modelinin yanı sıra kan dışı bir modele de ihtiyaç vardır. Bunu oluşturmak için, önceki yaklaşıma benzer şekilde, Google'dan kan içermeyen görüntüler indirilir ve bu görüntülerden elde edilen RGB piksel değerleri, kansız modeli oluşturmak için kullanılır. Bu kansız modeli oluşturmak için kullanılan bazı örnek görüntüler Şekil 3.3'te gösterilmektedir. Şimdi bu kanlı ve kansız modeller kullanılarak, bir pikselin kanı temsil etme olasılığı şu şekilde hesaplanır:



Şekil 3.3: Kanlı ve kansız modeller oluşturmak için Google'dan indirilen örnek görselleri gösteren şekil.


Bu formül kullanılarak belirli bir görüntü için kanı temsil eden her pikselin olasılığı hesaplanır ve Kan Olasılık Haritası (BPM) oluşturulur. Bu harita, giriş görüntüsüyle aynı boyuta sahiptir ve her piksel için kan olasılık değerlerini içerir. Bu BPM, nihai ikilileştirilmiş BPM'yi oluşturmak için bir eşik değeri kullanılarak ikilileştirilir. BPM'yi ikilileştirmek için kullanılan eşik tahmin edilir (Jones ve Rehg [35]). Bu ikili BPM'den kan oranı, kan olasılık oranı, bağlı en büyük bileşenin boyutu, ortalama, varyans vb. değerleri içeren 14 uzunluğunda 1 boyutlu bir özellik vektörü oluşturulur. Bu özellik vektörü her kare için çıkarılır. videoda yer alır ve SVM sınıflandırıcısını eğitmek için kullanılır. BPM'si ve ikilileştirilmiş BPM'si ile birlikte örnek bir görüntü Şekil 3.4'te sunulmaktadır. Bu şekilden bu yaklaşımın kan içeren piksellerin tespitinde çok iyi performans gösterdiği görülmektedir.


Şekil 3.4: Oluşturulan kan modelinin kan tespitindeki performansını gösteren şekil. İlk sütunda giriş görüntüleri, ikinci sütunda kan olasılık haritaları ve son sütunda ikili kan olasılık haritaları bulunur.

3.1.1.3. Hareket Özellikleri

Hareket, şiddet tespiti için yaygın olarak kullanılan bir diğer görsel özelliktir. Deniz ve ark. [21], Nievas ve ark. [42] ve Hassner ve ark. [28] şiddet tespitinde hareketin ana özellik olarak kullanıldığı örneklerden bazılarıdır. Burada hareket, bir videodaki ardışık iki kare arasındaki uzay-zamansal değişimin miktarını ifade eder. Şiddet içeren sahnelerde önemli miktarda şiddet beklendiğinden hareket, şiddetin iyi bir göstergesi olarak değerlendiriliyor. Örneğin, yüz yüze kavgaların olduğu sahnelerde, bacaklar, eller gibi insan vücudu parçalarının hızlı hareketi varken, patlamaların olduğu sahnelerde, hareket nedeniyle birbirinden ayrılan kısımlarda çok fazla hareket var. patlama.


Aktivite tespiti için hareket bilgisini kullanma fikri psikolojiden kaynaklanmaktadır. İnsan algısı üzerine yapılan araştırmalar, kinematik hareket modelinin eylemlerin algılanması için yeterli olduğunu göstermiştir (Blake ve Shiffrar [2]). Bilgisayarlı görme alanındaki araştırma çalışmaları (Saerbeck ve Bartneck [50], Clarke ve diğerleri [13] ve Hidaka [29]), hız ve ivme gibi nispeten basit dinamik özelliklerin bir insan tarafından algılanan duygularla ilişkili olduğunu da göstermiştir.


Bu çalışmada bir video bölümündeki hareket miktarını hesaplamak için iki farklı yaklaşım değerlendirilmiştir. İlk yaklaşım, video codec bileşeninin içine yerleştirilmiş hareket bilgisini kullanmak, sonraki yaklaşım ise hareketi algılamak için optik akışı kullanmaktır. Bu yaklaşımlar aşağıda sunulmaktadır.


3.1.1.3.1. Codec'i kullanma

Bu yöntemde hareket bilgisi video kodeğinden çıkarılır. Hareket vektörü adı verilen kare başına her pikseldeki hareketin büyüklüğü codec'ten alınır. Bu hareket vektörü iki boyutlu bir vektördür ve video dizisinden bir kareyle aynı boyuta sahiptir. Bu hareket vektöründen çerçevedeki hareket miktarını temsil eden bir hareket özelliği oluşturulur. Bu hareket özelliğini oluşturmak için öncelikle hareket vektörü x ve y ekseni boyunca sırasıyla üç ve dört bölgeye dilimlenerek eşit büyüklükte on iki alt bölgeye bölünür. Bu alt bölgelerin her birindeki her pikseldeki x ve y ekseni boyunca hareket miktarı toplanır ve bu toplamlar, her kare için iki boyutlu bir hareket histogramı oluşturmak için kullanılır. Bu histogram bir çerçevenin hareket vektörünü temsil eder. Örnek bir videodan bir kare için toplu hareket vektörlerinin görselleştirmesini görmek için Şekil 3.5'te soldaki görüntüye bakın. Bu görselleştirmede hareket vektörleri 16 × 16 piksel boyutundaki alt bölgeler için toplanmıştır. Bu bölgelerdeki hareketin büyüklüğü ve yönü, görüntünün üzerine yerleştirilen yeşil kesikli çizgilerin uzunluğu ve yönü kullanılarak temsil edilir.

3.1.1.3.2. Optik Akışı Kullanma

Hareketi algılamaya yönelik bir sonraki yaklaşım Optik akışı kullanır (Wikipedia [57]). Burada, bir karedeki her pikseldeki hareket, Yoğun Optik Akış kullanılarak hesaplanır. Bunun için OpenCV (Bradski [5]) tarafından sağlanan Gunner Farneback algoritmasının (Farneb¨ack [24]) uygulanması kullanılır. Uygulama OpenCV'de bir fonksiyon olarak sağlanmıştır ve fonksiyon ve parametreler hakkında daha fazla ayrıntı için lütfen OpenCV (OpticalFlow [43]) tarafından sağlanan belgelere bakın. 0,5, 3, 15, 3, 5, 1,2 ve 0 değerleri sırasıyla pyr ölçeği, seviyeler, kazanma boyutu, yinelemeler, poli n, poli sigma ve bayraklar fonksiyon parametrelerine aktarılır. Her pikseldeki hareket vektörleri Optik akış kullanılarak hesaplandıktan sonra, yukarıdaki Bölüm 3.1.1.3.1'de bahsedilen aynı işlem kullanılarak bir çerçeveden hareket özelliği çıkarılır. Bir çerçeveden çıkarılan toplu hareket vektörlerine ilişkin bir izlenim edinmek için Şekil 3.5'teki sağdaki görsele bakın. Hareket vektörleri, Codec bilgisi ve Optik akış kullanılarak çıkarılan özellikler arasında daha iyi bir karşılaştırma sağlamak amacıyla önceki yaklaşımda olduğu gibi 16x16 piksel boyutundaki alt bölgeler için toplanır.


Videolardan hareket bilgisinin çıkarılmasına yönelik bu iki yaklaşımın değerlendirilmesinden sonra aşağıdaki gözlemler yapılmıştır. Birincisi, hareket vektörleri önceden hesaplanıp video codec'lerinde saklandığından, Codec'lerden hareket çıkarmak optik akışı kullanmaktan çok daha hızlıdır. İkincisi, optik akışı kullanarak hareket çıkarma, bir çerçevede bulanık bölgeler olduğunda çok verimli değildir. Bu bulanıklık genellikle sahnedeki ani hareketlerden kaynaklanır ve şiddet içeren sahnelerde çok sık görülür. Bu nedenle şiddeti tespit etmek amacıyla hareket bilgisinin çıkarılması için optik akışın kullanılması umut verici bir yaklaşım değildir. Bu nedenle, bu çalışmada video codec bileşenlerinde saklanan bilgiler, hareket özelliklerinin çıkarılması için kullanılmıştır. Hareket özellikleri videodaki her kareden çıkarılır ve bir SVM sınıflandırıcısını eğitmek için kullanılır.


Şekil 3.5: Codec ve optik akış kullanılarak çıkarılan karelerden hareket bilgileri.

3.1.1.4. SentiBank Özellikleri

Yukarıda bahsedilen düşük seviyeli özelliklere ek olarak Borth ve diğerleri tarafından tanıtılan SentiBank özelliği. [4] de uygulanır. SentiBank, büyük ölçekli Görsel Duygu Ontolojisine (VSO) [1] dayanan görsel içeriğin orta düzey bir temsilidir. SentiBank, her biri Sıfat İsim Çifti (ANP) olarak tanımlanan 1.200 anlamsal kavramdan ve bunlara karşılık gelen otomatik sınıflandırıcılardan oluşur. Bu tür ANP'ler, nesnelere veya sahnelere karşılık gelen isimlerle ilişkilendirilecek güçlü duygusal sıfatları birleştirir (örneğin, "güzel gökyüzü", "iğrenç böcek" veya "sevimli bebek"). Ayrıca, her bir ANP (1) güçlü bir duyguyu yansıtır, (2) bir duyguyla bağlantıya sahiptir, (3) Flickr veya YouTube gibi platformlarda sıklıkla kullanılır ve (4) makul bir tespit doğruluğuna sahiptir. Ek olarak, VSO'nun insanlar, hayvanlar, nesneler, doğal veya insan yapımı yerler gibi geniş bir yelpazedeki farklı kavram sınıflarını kapsayacak kadar kapsamlı ve çeşitli olması amaçlanıyor ve bu nedenle analiz edilen içerik türü hakkında ek bilgiler sağlıyor. Çünkü SentiBank, Borth ve ark.'nın duygu analizinde düşük seviyeli görsel özelliklere kıyasla üstün performansını ortaya koydu. [4], artık ilk kez video karelerinden şiddet gibi karmaşık duyguları tespit etmek için kullanılıyor.


SentiBank, her biri bir görüntüdeki 1.200 anlamsal kavramdan birini tespit etmek üzere eğitilmiş 1.200 SVM'den oluşur. Her SVM, görüntünün belirli bir duyarlılık içerip içermediğine bağlı olarak 0/1 ikili çıktısını veren ikili bir sınıflandırıcıdır. Bir videodaki belirli bir kare için, 1.200 SVM'nin tümünün çıktısını içeren bir vektör, SentiBank özelliği olarak kabul edilir. Bu özelliği çıkarmak için python tabanlı bir uygulama kullanılır. SVM sınıflandırıcısının eğitimi için eğitim videolarındaki her kareden çıkarılan SentiBank özellikleri kullanılır. SentiBank özellik çıkarma işlemi, önceden eğitilmiş 1.200 SVM'den çıktı toplamayı gerektirdiğinden birkaç saniye sürer. Özellik çıkarma için harcanan süreyi azaltmak amacıyla, her bir çerçeve için SentiBank özelliği, çoklu işlem kullanılarak paralel olarak çıkarılır.

3.1.2. Özellik Sınıflandırması

Özellik çıkarımından sonraki işlem hattındaki bir sonraki adım, özellik sınıflandırmasıdır ve bu bölümde bu adımın ayrıntıları verilmektedir. Sınıflandırıcının seçimi ve kullanılan eğitim teknikleri, iyi sınıflandırma sonuçlarının alınmasında çok önemli bir rol oynamaktadır. Bu çalışmada sınıflandırma için DVM'ler kullanılmıştır. Bu seçimin ardındaki temel neden, şiddet tespiti konusunda daha önce yapılan çalışmalarda, işitsel ve görsel özellikleri sınıflandırmak için SVM'lerin kullanılması ve iyi sonuçlar üretilmesidir. Bölüm 2'de bahsedilen çalışmaların hemen hemen hepsinde, kullanılan çekirdek fonksiyonları farklılık gösterse de, sınıflandırma için DVM'ler kullanılmaktadır.


Eğitim setinde bulunan tüm videolardan, Bölüm 3.1.1'de anlatılan süreç kullanılarak işitsel ve görsel özellikler çıkarılmaktadır. Bu özellikler daha sonra iki gruba ayrılır; biri sınıflandırıcıyı eğitmek için, diğeri ise eğitilen sınıflandırıcının sınıflandırma doğruluğunu test etmek için. Burada kullanılan sınıflandırıcılar SVM'ler olduğundan, hangi çekirdeğin kullanılacağı ve hangi çekirdek parametrelerinin ayarlanacağı konusunda bir seçim yapılması gerekir. En iyi çekirdek tipini ve çekirdek parametrelerini bulmak için ızgara arama tekniği kullanılır. Bu ızgara aramasında, en iyi sınıflandırma sonuçlarını veren en iyi kombinasyonu bulmak için Doğrusal, RBF (Radyal Temel Fonksiyon) ve Ki-Kare çekirdekleri ve bunların parametreleri için bir değer aralığı test edilir. Bu yaklaşımı kullanarak, her özellik türü için bir tane olmak üzere dört farklı sınıflandırıcı eğitilir. Bu eğitilmiş sınıflandırıcılar daha sonra bir sonraki adımda özellik ağırlıklarının bulunmasında kullanılır. Bu çalışmada scikit-learn (Pedregosa ve diğerleri [45]) ve LibSVM (Chang ve Lin [9]) tarafından sağlanan SVM uygulaması kullanılmıştır.

3.1.3. Özellik Füzyonu

Özellik birleştirme adımında, özellik sınıflandırıcılarının her birinden gelen çıktı olasılıkları, bir video bölümündeki şiddetin nihai puanını ve içinde mevcut olan şiddet sınıfını elde etmek için birleştirilir. Bu füzyon, özellik sınıflandırıcılarının her birinden gelen olasılıkların ağırlıklı toplamının hesaplanmasıyla yapılır. Bir videonun ait olduğu şiddet sınıfını tespit etmek için prosedür aşağıdaki gibidir. Öncelikle hedeflenen şiddet sınıflarının her birine ait videolardan işitsel ve görsel özellikler çıkarılmaktadır. Bu özellikler daha sonra şiddet içeren videoların her birinin olasılığını elde etmek için eğitimli ikili SVM sınıflandırıcılarına aktarılır. Şimdi, özellik sınıflandırıcılarının her birinden gelen bu çıktı olasılıkları, her özellik sınıflandırıcısına her bir şiddet sınıfı için bir ağırlık atanarak ve ağırlıklı toplam hesaplanarak birleştirilir. Özellik sınıflandırıcılarının her birine atanan ağırlıklar, bir özelliğin belirli bir şiddet sınıfının tespit edilmesindeki önemini temsil eder. Sistemin doğru şiddet sınıfını tespit edebilmesi için bu özellik ağırlıklarının her şiddet sınıfına uygun şekilde ayarlanması gerekir.


Ağırlıkları bulmak için iki yaklaşım vardır. İlk yaklaşım, her bir şiddet türü için özellik sınıflandırıcının ağırlıklarını manuel olarak ayarlamaktır. Bu yaklaşım, bir şiddet sınıfının tespitinde bir özelliğin önemi hakkında çok fazla sezgi gerektirir ve hataya çok açıktır. Diğer yaklaşım, olası ağırlıklar aralığından bir ağırlık kümesinin örneklendiği bir ızgara arama mekanizması kullanarak ağırlıkları bulmaktır. Bu durumda, her özellik sınıflandırıcı için olası ağırlık aralığı [0,1] olup, tüm özellik sınıflandırıcıların ağırlıklarının toplamının 1 olması kısıtlamasına tabidir. Bu çalışmada ikinci yaklaşım kullanılmış ve tüm 1'e eşit olan ağırlık kombinasyonları numaralandırılır. Bu ağırlık kombinasyonlarının her biri, bir şiddet sınıfı için sınıflandırıcı olasılıklarının ağırlıklı toplamını hesaplamak için kullanılır ve en yüksek toplamı üreten ağırlık kombinasyonundan elde edilen ağırlıklar, karşılık gelen şiddet sınıfı için sınıflandırıcıların her birine atanır. Bu ağırlıkların hesaplanmasında, ağırlıkların eğitim setine aşırı uyumunu önlemek amacıyla eğitim setinden farklı bir veri seti kullanılır. Ağırlık hesaplaması için kullanılan veri setinde bu çalışmada hedeflenen tüm şiddet sınıflarına ait videolar bulunmaktadır. Eğitilmiş SVM sınıflandırıcılarının her biri doğası gereği ikili olsa da, bu sınıflandırıcılardan elde edilen çıktı değerlerinin, bir videonun ait olduğu belirli şiddet sınıfını bulmak için ağırlıklı toplam kullanılarak birleştirilebileceğini unutmamak önemlidir.

3.2. Test yapmak

Bu aşamada, belirli bir giriş videosu için şiddet içeren her bölüm, içinde bulunan şiddet sınıfıyla birlikte tespit edilir. Belirli bir video için şiddet içeren segmentleri ve içindeki şiddet kategorisini tespit etmek için aşağıdaki yaklaşım kullanılır. İlk olarak, her kareden özellik çıkarmak yerine, görsel ve işitsel özellikler videonun ilk karesinden başlayarak her 1 saniyede bir kareden çıkarılır. Özniteliklerin çıkarıldığı bu kareler, videonun 1 saniyelik bir bölümünü temsil eder. Bu 1 saniyelik video bölümlerinden elde edilen özellikler daha sonra, her bir video bölümünün şiddet içeren veya şiddet içermeyen puanlarını almak üzere eğitimli ikili SVM sınıflandırıcılarına aktarılır. Daha sonra, her bir şiddet kategorisi için bireysel sınıflandırıcılardan elde edilen çıktı değerlerinin ağırlıklı toplamları, füzyon aşamasında bulunan karşılık gelen ağırlıklar kullanılarak hesaplanır. Dolayısıyla, 'X' saniye uzunluğundaki belirli bir video için sistem, 'X' uzunluğunda bir vektör üretir. Bu vektördeki her öğe, her şiddet sınıfını bir puan değeriyle eşleştiren bir sözlüktür. Bu yaklaşımın kullanılmasının nedeni, öncelikle videoda şiddetin olduğu zaman aralıklarını tespit etmek ve sistemin şiddeti tespit etme hızını arttırmaktır. Özellik çıkarma işlemi, özellikle Sentibank özelliğinin çıkarılması zaman alıcıdır ve bunu her kare için yapmak sistemi yavaşlatacaktır. Ancak bu yaklaşım, şiddeti her karede değil her saniyede tespit ettiği için sistemin doğruluğunu olumsuz etkiliyor.

3.3. Değerlendirme Metrikleri

Bir sınıflandırma sisteminin performansını ölçmek için kullanılabilecek birçok ölçüm vardır. İkili sınıflandırma için kullanılan ölçümlerden bazıları Doğruluk, Kesinlik, Geri Çağırma (Hassasiyet), Özgüllük, F-puanı, Eşit Hata Oranı (EER) ve Eğri Altındaki Alandır (AUC). Ortalama Hassasiyet (AP) ve Ortalama Ortalama Hassasiyet (MAP) gibi diğer bazı ölçümler, bir sorgu sonucunda sıralı bir liste döndüren sistemler için kullanılır. Makine Öğrenimi ve Veri Madenciliği araştırmalarında giderek daha fazla kullanılan bu önlemlerin çoğu, Bilgi Erişimi (Rijsbergen [49]) ve Biyometri gibi diğer disiplinlerden ödünç alınmıştır. Bu önlemlere ilişkin ayrıntılı bir tartışma için Parker'ın [44] ve Sokolova ve Lapalme'nin [53] çalışmalarına bakın. ROC (Alıcı Çalışma Karakteristiği) eğrisi, ikili sınıflandırma sistemlerini değerlendirmek veya karşılaştırmak için yaygın olarak kullanılan bir başka yöntemdir. AUC ve EER gibi ölçümler ROC eğrisinden hesaplanabilir.


Bu çalışmada ROC eğrileri şu amaçlarla kullanılmıştır: (i) Bireysel sınıflandırıcıların performansını karşılaştırmak. (ii) Çoklu Sınıf sınıflandırma görevinde sistemin farklı şiddet sınıflarını tespit etme performansını karşılaştırın. (iii) İkili sınıflandırma görevinde sistemin Youtube ve Hollywood-Test veri setindeki performansını karşılaştırın. Burada kullanılan diğer ölçümler Hassasiyet, Geri Çağırma ve EER'dir. Bu önlemler, şiddetin tespiti konusunda daha önce yapılan çalışmalarda en sık kullanılan önlemler olduğu için kullanılmıştır. Bu sistemde parametreler (füzyon ağırlıkları) EER'yi en aza indirecek şekilde ayarlanır.

3.4. Özet

Bu bölümde, bu çalışmada şiddetin tespitine yönelik izlenen yaklaşımın ayrıntılı bir açıklaması sunulmaktadır. Birinci bölüm eğitim aşamasını, ikinci bölüm ise test aşamasını ele almaktadır. Birinci bölümde eğitim aşamasında yer alan farklı adımlar ayrıntılı olarak anlatılmıştır. Öncelikle görsel ve işitsel özelliklerin çıkarılması ele alınmakta ve hangi özelliklerin kullanıldığı ve nasıl çıkarıldığına dair detaylar sunulmaktadır. Daha sonra, çıkarılan özellikleri sınıflandırmak için kullanılan sınıflandırma teknikleri tartışılmaktadır. Son olarak, özellik füzyonu için özellik ağırlıklarının hesaplanmasında kullanılan süreç tartışılmaktadır. İkinci bölümde şiddet içeren video bölümlerinin çıkarılması ve bu bölümlerdeki şiddet sınıfının tespit edilmesi için test aşamasında kullanılan süreç ele alınmaktadır.


Özetlemek gerekirse, bu yaklaşımda izlenen adımlar özellik çıkarma, özellik sınıflandırma, özellik birleştirme ve test etme adımlarıdır. İlk üç adım eğitim aşamasını, son adım ise test aşamasını oluşturur. Eğitim aşamasında, videodan işitsel ve görsel özellikler çıkarılır ve bunlar, her özellik için bir ikili SVM sınıflandırıcısını eğitmek için kullanılır. Daha sonra doğrulama veri seti üzerinde sistemin EER'sini en aza indiren özellik ağırlıklarını bulmak için ayrı bir veri seti kullanılır. Son test aşamasında, öncelikle görsel ve işitsel özellikler, giriş test videosunun 1 saniyelik video segmenti başına bir kez çıkarılır. Daha sonra bu özellikler, şiddeti temsil eden bu özelliklerin olasılıklarını elde etmek için eğitimli SVM sınıflandırıcılarına aktarılır. Bu çıktı olasılıklarının ağırlıklı toplamı, özellik birleştirme adımında elde edilen ağırlıklar kullanılarak her şiddet türü için hesaplanır. Ağırlıklı toplamı maksimum olan şiddet türü, karşılık gelen 1 saniyelik video bölümüne etiket olarak atanır. Bu etiketler kullanılarak şiddet içeren segmentler ve bunların içerdiği şiddet sınıfı sistem tarafından çıktı olarak sunulmaktadır. Bu sistemin deneysel kurulumu ve değerlendirilmesi bir sonraki bölümde sunulmaktadır.




[1] http://visual-sentiment-ontology.appspot.com