Yazarlar:
(1) Praveen Tirupattur, Central Florida Üniversitesi.
Şiddet Tespiti, şiddet içeren etkinliklerin bir videodan tespit edileceği etkinlik tanımanın bir alt görevidir. Aynı zamanda bir tür multimedya olay tespiti olarak da düşünülebilir. Bu sorunu çözmek için halihazırda bazı yaklaşımlar önerilmiştir. Önerilen bu yaklaşımlar üç kategoride sınıflandırılabilir: (i) Yalnızca görsel özelliklerin kullanıldığı yaklaşımlar. (ii) Yalnızca ses özelliklerinin kullanıldığı yaklaşımlar. (iii) Hem işitsel hem de görsel özelliklerin kullanıldığı yaklaşımlar. Buradaki ilgi kategorisi, hem videonun hem de sesin kullanıldığı üçüncü kategoridir. Bu bölüm, bu kategorilerin her birine ait olan önceki yaklaşımlardan bazılarına genel bir bakış sunmaktadır.
Hem işitsel hem de görsel ipuçlarını kullanarak şiddeti tespit etmeye yönelik ilk girişim Nam ve arkadaşlarına aittir. [41]. Çalışmalarında, şiddet içeren sahneleri tespit etmek ve videoların içeriğe dayalı olarak aranmasına olanak sağlayacak şekilde indeksler oluşturmak için hem işitsel hem de görsel özelliklerden yararlanılıyor. Burada, her çekimin şiddet içeren veya şiddet içermeyen olarak sınıflandırılması için uzay-zamansal dinamik aktivite imzası çıkarılır. Bu uzaysal-zamansal dinamik aktivite özelliği, çekimde mevcut olan dinamik hareket miktarına dayanmaktadır.
Çekimdeki kareler arasındaki uzaysal hareket ne kadar fazla olursa özellik o kadar anlamlı olur. Bu yaklaşımın arkasındaki mantık, aksiyon sahnelerinin çoğunun hızlı ve önemli miktarda insan veya nesne hareketini içermesidir. Bir çekimin uzay-zamansal aktivite özelliğini hesaplamak için, çekimden hareket dizileri elde edilir ve çekimin uzunluğuna göre normalleştirilir, böylece yalnızca daha kısa uzunluklara ve kareler arasında yüksek uzaysal harekete sahip çekimlerin daha yüksek değere sahip olduğundan emin olunur. etkinlik özelliğinden yararlanın.
Bunun dışında silah atışları veya patlamalardan kaynaklanan alevleri tespit etmek için piksellerin kareler arasındaki yoğunluk değerlerindeki ani değişimler incelenir. Kamera fenerlerinden kaynaklanan yoğunluk değişimi gibi yanlış pozitifleri ortadan kaldırmak için sarı, turuncu ve kırmızı gibi alev renklerine yakın renk değerlerine sahip önceden tanımlanmış bir renk tablosu kullanılır. Şiddet içeren sahnelerin çoğunda yaygın olan kan tespitine benzer şekilde, bir çerçeve içindeki piksel renkleri, kana benzer renkler içeren önceden tanımlanmış bir renk tablosuyla eşleştirilir. Bu görsel özellikler tek başına şiddetin etkili bir şekilde tespit edilmesi için yeterli değildir. Bu nedenle ses özellikleri de dikkate alınır.
Ses sinyalinin enerji seviyesindeki ani değişiklik, ses işareti olarak kullanılır. Her kare için enerji entropisi hesaplanır ve bu değerdeki ani değişim, patlama veya silah sesi gibi şiddet olaylarını tanımlamak için kullanılır. Şiddet içeren çekimlerin daha yüksek doğrulukla elde edilmesi için işitsel ve görsel ipuçları zaman açısından senkronize edilmiştir. Bu makalenin ana katkılarından biri şiddeti tespit etmek için hem işitsel hem de görsel ipuçlarının gerekliliğini vurgulamaktır.
Gong ve ark. [27] ayrıca filmlerdeki şiddeti tespit etmek için hem görsel hem de işitsel ipuçlarını kullandı. Şiddetin tespitine yönelik üç aşamalı bir yaklaşım anlatılıyor. İlk aşamada videodaki her çekim için düşük seviyeli görsel ve işitsel özellikler çıkarılmaktadır. Bu özellikler, potansiyel şiddet içeren içeriğe sahip aday çekimleri tespit etmek üzere bir sınıflandırıcıyı eğitmek için kullanılır. Bir sonraki aşamada aday çekimlerin tespiti için üst düzey ses efektleri kullanılıyor. Bu aşamada, yüksek seviyeli ses efektlerini tespit etmek için SVM sınıflandırıcıları, güç spektrumu, perde, MFCC (Mel-Frekans Cepstral Katsayıları) ve harmoniklik belirginliği (Cai) gibi düşük seviyeli ses özellikleri kullanılarak ses efektinin her kategorisi için eğitilir. ve diğerleri [7]). Her bir SVM'nin çıktısı, [0,1] arasında sürekli bir değer olan bir sigmoid'e olasılık haritalaması olarak yorumlanabilir (Platt ve diğerleri [46]). Son aşamada, ilk iki aşamanın olasılıksal çıktıları güçlendirme kullanılarak birleştirilir ve bir atış için nihai şiddet puanı, ilk iki aşamanın puanlarının ağırlıklı toplamı olarak hesaplanır.
Bu ağırlıklar bir doğrulama veri seti kullanılarak hesaplanır ve ortalama hassasiyeti maksimuma çıkarması beklenir. Gong ve arkadaşlarının çalışması. [27] yalnızca evrensel film yapımı kurallarına uyulan filmlerde şiddetin tespit edilmesine odaklanmaktadır. Örneğin, aksiyon sahneleri sırasındaki hızlı tempolu ses. Şiddet içeren içerik, patlamalar ve silah sesleri gibi şiddetle ilişkili hızlı sahneler ve sesli olaylar tespit edilerek tespit edilir. Kullanılan eğitim ve test verileri, birçok şiddet sahnesi içeren dört Hollywood aksiyon filminden oluşan bir koleksiyondan alınmıştır. Bu yaklaşım her ne kadar iyi sonuçlar vermiş olsa da, sadece bazı film yapım kurallarına uyan filmlerde şiddeti tespit edecek şekilde optimize edildiğini ve kullanıcılar tarafından Facebook, Youtube gibi sitelere yüklenen videolarda işe yaramayacağını belirtmek gerekir. , vesaire.
Lin ve Wang'ın [38] çalışmasında, bir video dizisi çekimlere bölünür ve her çekim için içindeki hem ses hem de video özellikleri şiddet içeren veya şiddet içermeyen olarak sınıflandırılır ve çıktılar ortak eğitim kullanılarak birleştirilir. Ses bölümündeki şiddeti tespit etmek için değiştirilmiş bir pLSA algoritması (Hofmann [30]) kullanılır. Ses bölümü, her biri bir saniyelik ses kliplerine bölünür ve güç spektrumu, MFCC, perde, Sıfır Çapraz Hız (ZCR) oranı ve harmoniklik belirginliği gibi düşük seviyeli özellikleri içeren bir özellik vektörü ile temsil edilir (Cai ve diğerleri [7]) . Bu vektörler, sesli bir kelime dağarcığını ifade eden küme merkezleri elde etmek için kümelenir. Daha sonra her ses bölümü, bu sözcük dağarcığı kullanılarak bir ses belgesi olarak temsil edilir. Beklenti Maksimizasyonu algoritması (Dempster ve diğerleri [20]), daha sonra ses bölümlerinin sınıflandırılması için kullanılacak bir ses modelini uydurmak için kullanılır. Bir video bölümündeki şiddeti tespit etmek için üç yaygın görsel şiddet olayı kullanılır: hareket, alev/patlamalar ve kan. Hareket yoğunluğu, hızlı hareket eden alanları tespit etmek ve her kare için hareket özelliklerini çıkarmak için kullanılır; bu daha sonra bir kareyi şiddet içeren veya şiddet içermeyen olarak sınıflandırmak için kullanılır. Bir çerçevedeki alev ve patlamaları tespit etmek ve sınıflandırmak için renkli modeller ve hareket modelleri kullanılmaktadır. Benzer şekilde kan içeren bölgeyi tespit etmek için renk modeli ve hareket yoğunluğu kullanılıyor ve eğer bir kare için önceden tanımlanmış bir değerden büyükse şiddet içeren olarak sınıflandırılıyor. Video segmentinin nihai şiddet puanı, yukarıda belirtilen üç ayrı puanın ağırlıklı toplamı ile elde edilir. Burada kullanılan özellikler Nam ve diğerleri tarafından kullanılanlarla aynıdır. [41]. Video ve ses akışından elde edilen sınıflandırma puanlarını birleştirmek için ortak eğitim kullanılır. Eğitim ve test için beş Hollywood filminden oluşan bir veri seti kullanıldı ve şiddet içeren sahnelerin tespitinde 0,85 civarında hassasiyet ve 0,90 civarında hatırlama elde edildi. Bu çalışma bile sadece filmlerdeki şiddetin tespitini hedef alıyor, internetteki videolarda değil. Ancak sonuçlar, hareket ve kan gibi görsel özelliklerin şiddet tespitinde çok önemli olduğunu gösteriyor.
Şu ana kadar bahsedilen tüm yaklaşımlar hem işitsel hem de görsel ipuçlarını kullanıyor, ancak şiddeti tespit etmek için video veya ses kullanan başka yaklaşımlar da var ve yumruk dövüşleri gibi yalnızca belirli bir şiddet türünü tespit etmeye çalışan yaklaşımlar da var. Bu yaklaşımlara kısa bir genel bakış aşağıda sunulacaktır.
Videolarda anlamsal bağlamı tespit etmek için yalnızca sesin kullanıldığı tek çalışma Cheng ve arkadaşlarına aittir. [11], burada silah seslerini, patlamaları ve araba frenini tanımak için Gauss karışım modellerine ve Gizli Markov modellerine dayanan hiyerarşik bir yaklaşım kullanılır. Datta ve ark. [14], çoğu yaklaşımın yaptığı gibi şiddeti sahne düzeyinde değil, nesne düzeyinde analiz ederek yalnızca yumruk dövüşü, tekmeleme, nesnelerle vurma vb. içeren videolarda kişiden kişiye şiddeti tespit etmeye çalıştı. Burada bir sahnedeki hareketli nesneler tespit edilir ve yalnızca kişileri temsil eden nesnelerin tespit edilmesi için kişi modeli kullanılır. Buradan, kişinin uzuvlarının hareket yörüngesi ve yönelim bilgisi, kişiler arası kavgaları tespit etmek için kullanılıyor.
Clarin ve ark. [12] hareketli görüntülerdeki şiddeti tespit etmek için DOVE adında otomatik bir sistem geliştirdi. Burada şiddet içeren sahneleri tespit etmek için yalnızca kan kullanılıyor. Sistem, her sahneden önemli kareleri çıkarır ve pikselleri deri, kan veya deri dışı/kan dışı etiketlerle etiketlemek için bunları eğitimli bir Kendi Kendini Düzenleyen Haritaya aktarır. Etiketlenen pikseller daha sonra bağlantılı bileşenler aracılığıyla birlikte gruplandırılıyor ve olası şiddet açısından gözlemleniyor. Piksel bölgelerinde deri ve kan bileşenlerinde büyük bir değişiklik olması durumunda sahnenin şiddet içerdiği kabul edilir. Kavga tespitine ilişkin diğer bir çalışma Nievas ve arkadaşlarına aittir. [42], burada Kelime Çantası çerçevesi, Uzay-Zaman İlgi Noktaları (STIP - Laptev [37]) ve Hareket Ölçeğiyle değişmez özellik dönüşümü (MoSIFT - Chen ve Hauptmann [10]) eylem tanımlayıcıları ile birlikte kullanılır. Yazarlar, kavgalar ve kavgasızlar olmak üzere iki gruba ayrılmış, 1000 videodan oluşan yeni bir video veri seti sundular. Her grupta 500 video bulunur ve her videonun süresi bir saniyedir. Bu veri kümesiyle yapılan deneyler, aksiyon filmlerindeki kavgaları içeren bir veri kümesinde %90 doğruluk elde etti.
Deniz ve ark. [21], ana özellik olarak aşırı hızlanma modellerini kullanarak videolardaki şiddeti tespit etmek için yeni bir yöntem önerdi. Bu yöntem, son teknoloji aksiyon tanıma sistemlerinden 15 kat daha hızlı olup, aynı zamanda kavga içeren sahnelerin tespitinde de oldukça yüksek bir doğruluğa sahiptir. Bu yaklaşım, yalnızca doğruluğun değil hızın da önemli olduğu gerçek zamanlı şiddet tespit sistemlerinde çok faydalıdır. Bu yaklaşım, ani hareketi tespit etmek için ardışık iki karenin güç spektrumunu karşılaştırır ve hareket miktarına bağlı olarak bir sahne şiddet içeren veya şiddet içermeyen olarak sınıflandırılır. Bu yöntem, hareketi algılamak için özellik izlemeyi kullanmaz, bu da onu bulanıklaşmaya karşı dayanıklı hale getirir. Hassner ve ark. [28] kalabalık sahnelerde şiddetin gerçek zamanlı tespiti için bir yaklaşım tanıttı. Bu yöntem, akış vektörü büyüklüklerinin zaman içindeki değişimini dikkate alır. Kısa kare sekanslara yönelik bu değişikliklere Şiddetli Akışlar (ViF) tanımlayıcıları adı verilir. Bu tanımlayıcılar daha sonra doğrusal bir Destek Vektör Makinesi (SVM) kullanılarak şiddet içeren ve şiddet içermeyen sahneleri sınıflandırmak için kullanılır. Bu yöntem yalnızca kareler arasındaki akış bilgisini kullandığından ve üst düzey şekil ve hareket analizinden vazgeçtiğinden, gerçek zamanlı olarak çalışabilmektedir. Bu çalışma için yazarlar, Youtube'dan şiddet içeren kalabalık davranışları içeren videolar indirerek kendi veri setlerini oluşturdular.
Tüm bu çalışmalar videolardan şiddeti tespit etmek için farklı yaklaşımlar kullanıyor ve hepsi eğitim ve test için kendi veri setlerini kullanıyor. Hepsinin kendine göre şiddet tanımı var. Bu, bağımsız temel veri kümelerinin ve ortak bir şiddet tanımının bulunmaması nedeniyle şiddetin tespitinde büyük bir sorun olduğunu ortaya koymaktadır; bu olmadan farklı yaklaşımlar arasındaki karşılaştırma anlamsızdır.
Bu sorunu çözmek için Demarty ve ark. [16], multimedya kıyaslama girişimi MediaEval-2011'in [1] bir parçası olarak filmlerdeki şiddet bölümlerinin otomatik olarak algılanması için bir kıyaslama sundu. Bu kıyaslama, ortak bir şiddet tanımı ve değerlendirme protokolleri ve ölçümleri ile tutarlı ve önemli bir veri kümesi sağladığından çok faydalıdır. Sağlanan veri kümesinin ayrıntıları Bölüm 4.1'de ayrıntılı olarak tartışılmaktadır. Videolarda şiddetin tanınmasına ilişkin son çalışmalar bu veri setini kullanmıştır ve bunlardan bazılarına ilişkin ayrıntılar aşağıda verilmektedir.
Acar ve ark. [1], filmlerde şiddet tespiti için tek sınıf ve iki sınıf SVM'ler kullanarak görsel ve işitsel özellikleri denetimli bir şekilde birleştiren bir yaklaşım önerdi. Düşük seviyeli görsel ve işitsel özellikler, filmlerin video çekimlerinden çıkarılır ve daha sonra SVM'leri eğitmek için erken füzyon tarzında birleştirilir. Ses içeriğini tanımlamak için MFCC özellikleri çıkarılmış ve görsel içerik için SIFT (Ölçekle Değişmeyen Özellik Dönüşümü - Lowe [39]) tabanlı Kelime Çantası yaklaşımı kullanılmıştır.
Jiang ve diğerleri. [33], yerel yama yörüngelerinin görünümünden ve hareketinden elde edilen bir dizi özelliğe dayalı olarak şiddeti tespit etmek için bir yöntem önerdiler (Jiang ve ark. [34]). Bu yama yörüngelerinin yanı sıra SIFT, STIP ve MFCC özellikleri gibi diğer özellikler de çıkarılır ve farklı şiddet kategorilerini tespit etmek üzere bir SVM sınıflandırıcısını eğitmek için kullanılır. Doğruluğu artırmak için puan ve özellik yumuşatma yapılır.
Lam ve ark. [36], MediaEval tarafından sağlanan veri kümelerini ve değerlendirme protokollerini kullanarak şiddet içeren sahne tespit görevi için düşük seviyeli işitsel/görsel özelliklerin performansını değerlendirdi. Bu çalışmada hareket ve MFCC ses özelliklerinin yanı sıra hem yerel hem de global görsel özellikler kullanılmıştır. Tüm bu özellikler, bir çekimdeki her bir anahtar kare için çıkarılır ve o çekim için tek bir özellik vektörü oluşturacak şekilde bir araya toplanır. Bir SVM sınıflandırıcısı, bu özellik vektörüne dayanarak çekimleri şiddet içeren veya şiddet içermeyen olarak sınıflandırmak üzere eğitilir. Eyben ve ark. [23] şiddeti tespit etmek için görsel-işitsel sınıflandırmanın yanı sıra geniş ölçekli segmental özellik çıkarımı uyguladı. Ses özelliği çıkarma, açık kaynaklı özellik çıkarma araç seti openSmile(Eyben ve Schuller [22]) ile yapılır. Ton-Doygunluk-Değeri (HSV) histogramı, optik akış analizi ve Laplacian kenar tespiti gibi düşük seviyeli görsel özellikler hesaplanır ve şiddet tespiti için kullanılır. Sınıflandırma için doğrusal SVM sınıflandırıcıları kullanılır ve füzyon için basit bir puan ortalaması kullanılır.
Özetle, yukarıda açıklanan yöntemlerin neredeyse tamamı, yalnızca birkaç beklentiyle, farklı işitsel ve görsel özellikler kullanarak filmlerdeki şiddeti tespit etmeye çalışmaktadır [Nievas ve ark. [42], Hassner ve ark. [28]], güvenlik kameralarından veya diğer gerçek zamanlı video sistemlerinden gelen video verilerini kullanır. Ayrıca bu çalışmaların hepsinin aynı veri setini kullanmadığı ve her birinin kendine özgü şiddet tanımına sahip olduğu da görülüyor. Şiddetli Sahne Tespiti (VSD) için MediaEval veri setinin 2011 yılında kullanıma sunulması bu sorunu çözmüştür. Veri setinin güncel versiyonu olan VSD2014, Hollywood filmlerinin yanı sıra Youtube'dan gelen video içeriklerini de içeriyor ve araştırmacıları, kullanıcı tarafından oluşturulan video içeriklerine yönelik yaklaşımlarını test etmeye teşvik ediyor.
Bölüm 3'te sunulan önerilen yaklaşım, Bölüm 2'de tartışılan şiddet tespiti üzerine daha önceki çalışmalardan esinlenmiştir. Önerilen yaklaşımda, şiddeti tespit etmek için hem işitsel hem de görsel ipuçları kullanılmaktadır. Ses içeriğini tanımlamak için MFCC özellikleri kullanılırken, video içeriğini tanımlamak için kan, hareket ve SentiBank özellikleri kullanılır. Bu özelliklerin her birini sınıflandırmak için SVM sınıflandırıcıları kullanılır ve sınıflandırıcı puanlarını birleştirmek için geç füzyon uygulanır.
Bu yaklaşım, şiddetin tespiti konusunda daha önceki çalışmalara dayansa da önemli katkıları şunlardır: (i) Farklı şiddet sınıflarının tespiti. Şiddet tespiti konusunda daha önce yapılan çalışmalar yalnızca videodaki şiddetin varlığını tespit etmeye odaklanıyordu. Önerilen bu yaklaşım, bu sorunu çözen ilk yaklaşımlardan biridir. (ii) Bir videonun görsel içeriğini tanımlamak için SentiBank özelliğinin kullanılması. SentiBank, bir görüntüdeki duyguları tanımlamak için kullanılan görsel bir özelliktir. Bu özellik daha önce videolardaki yetişkinlere yönelik içeriği tespit etmek için kullanılıyordu (Schulze ve diğerleri [52]). Bu çalışmada ilk kez şiddet içerikli içeriklerin tespit edilmesi amacıyla kullanıldı. (iii) Kanı temsil eden pikselleri tespit etmek için web'deki görüntüler kullanılarak oluşturulan 3 boyutlu renk modelinin kullanılması. Bu renk modeli çok sağlamdır ve kan tespitinde çok iyi sonuçlar vermiştir. (iv) Hareket özellikleri oluşturmak için bir video codec bileşenine gömülü bilgilerin kullanılması. Bu yaklaşım diğerleriyle karşılaştırıldığında çok hızlıdır çünkü her pikselin hareket vektörleri önceden hesaplanır ve video codec'inde saklanır. Önerilen bu yaklaşımın ayrıntılı bir açıklaması bir sonraki bölüm olan Bölüm 3'te sunulmaktadır.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .
[1] http://www.multimediaeval.org