Yazarlar:
(1) Praveen Tirupattur, Central Florida Üniversitesi.
Sosyal ağ sitelerine yüklenen multimedya içeriğinin miktarı ve çocukların bunlara erişme kolaylığı, çocuklarını web'deki şiddet içeren ve yetişkinlere yönelik içeriğe maruz kalmaktan korumak isteyen ebeveynler için sorun teşkil etmektedir. YouTube ve Facebook gibi web sitelerine video yükleme sayısı artıyor. Facebook'ta (Blog-FB [3]) video paylaşımlarında son bir yılda %75 oranında bir artış yaşanmakta ve YouTube'a her gün 120.000'den fazla video yüklenmektedir (Wesch [56], Gill ve ark. [ 26]). Bu web sitelerine yüklenen videoların %20'sinin şiddet içeren veya yetişkinlere yönelik içerik içerdiği tahmin edilmektedir (Sparks [54]). Bu, çocukların bu güvenli olmayan içeriklere erişmesini veya yanlışlıkla bu içeriklere maruz kalmasını kolaylaştırır. Şiddet içerikli içerik izlemenin çocuklar üzerindeki etkileri psikolojide iyi araştırılmıştır (Tompkins [55], Sparks [54], Bushman ve Huesmann [6] ve Huesmann ve Taylor [32]) ve bu çalışmaların sonuçları şiddet içeren içerikleri izlemenin İçeriğin çocukların duyguları üzerinde önemli bir etkisi vardır. Başlıca etkiler, saldırgan veya korku dolu davranış olasılığının artması ve başkalarının acı ve ıstırabına karşı daha az duyarlı hale gelmedir. Huesmann ve Eron [31] televizyonda saatlerce şiddet izleyen ilkokul çağındaki çocukları kapsayan bir çalışma yürüttüler. Bu çocukları yetişkinliklerine kadar gözlemleyerek, 8 yaşındayken çok fazla televizyonda şiddet içeren programlar izleyenlerin yetişkinliklerinde suç eylemleri nedeniyle tutuklanma ve yargılanma olasılıklarının daha yüksek olduğunu buldular. Flood [25] ve Mitchell ve ark. tarafından yapılan benzer çalışmalar. [40] yetişkinlere yönelik içeriğe maruz kalmanın çocuklar üzerinde de zararlı etkileri olduğunu ileri sürmektedir. Bu, videolarda otomatik şiddet ve yetişkinlere yönelik içerik tespiti alanında yapılan araştırmaları motive etti.
Yetişkinlere yönelik içerik tespiti (Chan ve ark. [8], Schulze ve ark. [52], Pogrebnyak ve ark. [47]) üzerinde iyi çalışılmış ve çok fazla ilerleme kaydedilmiştir. Öte yandan şiddet tespiti daha az çalışılmış ve ancak yakın geçmişte ilgi görmeye başlamıştır. Geçmişte şiddetin tespitine yönelik çok az yaklaşım önerilmiş ve bu yaklaşımların her biri farklı görsel ve işitsel özellikler kullanarak şiddeti tespit etmeye çalışmıştır. Örneğin Nam ve ark. [41] şiddet içeren sahneleri tanımlamak için birden fazla görsel-işitsel özelliği birleştirdi. Çalışmalarında, önceden tanımlanmış renk tabloları kullanılarak alevler ve kan tespit edildi ve çeşitli temsili ses efektlerinden (silah sesleri, patlamalar vb.) de yararlanıldı. Datta ve ark. [14] yumruk dövüşü, tekme vb. gibi insan şiddetini tespit etmek için hızlandırılmış hareket vektörüne dayalı bir yaklaşım önerdi. Cheng ve ark. [11] tipik ses olaylarını (örneğin silah sesleri, patlamalar ve araba freni) tespit ederek silah sesleri ve araba yarışı sahnelerinin yerini belirlemek için hiyerarşik bir yaklaşım sundu.
Şiddet tespiti için önerilen diğer yaklaşımlar 2. Bölüm'de tartışılmaktadır. Bu yaklaşımların tümü esas olarak yalnızca Hollywood filmlerindeki şiddetin tespitine odaklanmış, video paylaşım videolarındaki ve YouTube veya Facebook gibi sosyal medya sitelerindeki şiddet tespitine odaklanmamıştır. Hollywood filmlerinde şiddetin tespiti, bu filmlerin bazı film yapımı kurallarına uyması nedeniyle nispeten kolaydır. Örneğin, heyecan verici aksiyon sahneleri sergilemek için, yüksek hızlı görsel hareket ve hızlı tempolu ses yoluyla hızlı tempolu atmosfer yaratılır. Ancak YouTube ve Facebook gibi video paylaşım sitelerindeki videolar bu film yapım kurallarına uymaz ve çoğu zaman düşük ses ve görüntü kalitesine sahiptir. Kullanıcı tarafından oluşturulan videoların bu özellikleri, bunlardaki şiddetin tespit edilmesini oldukça zorlaştırmaktadır.
Şiddetin tespitine yönelik yaklaşıma değinmeden önce “Şiddet” kavramının tanımını yapmak önemlidir. Şiddet tespitine yönelik önceki yaklaşımların tümü, aynı şiddet tanımını takip etmemiş ve farklı özellikler ve farklı veri kümeleri kullanmıştır. Bu durum farklı yaklaşımların karşılaştırılmasını oldukça zorlaştırmaktadır. Bu sorunun üstesinden gelmek ve bu alandaki araştırmaları teşvik etmek için Demarty ve arkadaşları tarafından Şiddetli Sahne Tespiti (VSD) adlı bir veri seti tanıtıldı. [15] 2011 yılında yayınlanmıştır ve bu veri setinin en güncel versiyonu VSD2014'tür. Bu son veri setine göre bir videodaki “Şiddet”, “fiziksel şiddet içerdiği için 8 yaşındaki bir çocuğun izlemesine izin verilmeyen herhangi bir sahne” anlamına geliyor. Schedl ve ark. [51]. Bu tanımın yukarıda belirtilen psikoloji alanındaki araştırma bulgularına dayanarak formüle edildiğine inanılmaktadır. Bu tanımdan şiddetin fiziksel bir varlık olmayıp oldukça genel, soyut ve aynı zamanda oldukça subjektif bir kavram olduğu görülmektedir. Dolayısıyla şiddetin tespiti önemsiz bir iş değildir.
Bu çalışmanın amacı, yalnızca Hollywood filmlerinde değil, YouTube ve Facebook gibi video paylaşım sitelerindeki videolarda da şiddeti otomatik olarak tespit edecek bir sistem oluşturmaktır. Bu çalışmada daha önceki yaklaşımların ele almadığı bir videodaki şiddet kategorisi de tespit edilmeye çalışılmaktadır. Bu çalışmada hedeflenen şiddet kategorileri; kan varlığı, soğuk silah varlığı, patlamalar, kavgalar, çığlıklar, ateş varlığı, ateşli silahlar ve silah sesleridir. Bunlar, video bölümlerine açıklama eklemek için VSD2014'te tanımlanan ve kullanılan kavramların alt kümesini temsil eder. VSD2014'teki "kanlı sahneler" ve "araba kovalamacası" kategorileri, VSD2014'te bu kavramlarla açıklamalı çok fazla video bölümü bulunmadığından seçilmedi. Bu türden bir başka kategori ise “Öznel Şiddet”tir. Bu kategoriye ait sahnelerde gözle görülür şiddet bulunmadığından ve dolayısıyla tespit edilmesi çok zor olduğundan seçilmemiştir. Bu çalışmada şiddet tespiti için hem işitsel hem de görsel özellikler kullanılmış, çünkü hem işitsel hem de görsel bilgilerin birleştirilmesi sınıflandırmada daha güvenilir sonuçlar sağlamaktadır.
Multimedya içeriğindeki şiddeti otomatik olarak tespit edebilen böyle bir sistem geliştirmenin avantajları çoktur. Filmleri şiddet miktarına göre derecelendirmek için kullanılabilir. Bu, sosyal ağ siteleri tarafından şiddet içeren videoların platformlarına yüklenmesini tespit etmek ve engellemek için kullanılabilir. Ayrıca, filmlerin aranmasına ve göz atılmasına yardımcı olan sahne karakterizasyonu ve tür sınıflandırması için de kullanılabilir. Gerçek zamanlı kamera sistemlerinden gelen video akışlarındaki şiddetin tanınması, havalimanları, hastaneler, alışveriş merkezleri, halka açık yerler, cezaevleri, psikiyatri koğuşları, okul oyun alanları vb. yerlerde video gözetimi için çok faydalı olacaktır. Ancak şiddetin gerçek zamanlı tespiti, çok daha zordur ve bu çalışmada bununla başa çıkmak için hiçbir girişimde bulunulmamıştır.
İlgili çalışmalara genel bir bakış, önerilen yaklaşımın ayrıntılı açıklaması ve değerlendirme daha sonra sunulmaktadır. Aşağıdaki bölümler şu şekilde düzenlenmiştir. Bölüm 2'de şiddetin tespiti alanında daha önce yapılan bazı çalışmalar ayrıntılı olarak anlatılmaktadır. Bölüm 3'te özellik sınıflandırıcıların eğitimi ve test edilmesi için kullanılan yaklaşımın detayları sunulmaktadır. Ayrıca özellik çıkarma ve sınıflandırıcı eğitiminin ayrıntılarını da içerir. Bölüm 4, kullanılan veri kümelerinin ayrıntılarını, deney düzeneğini ve deneylerden elde edilen sonuçları açıklamaktadır. Son olarak Bölüm 5'te sonuçlar ve ardından gelecekteki olası çalışmalar sunulmaktadır.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .