Yazarlar:
(1) Dinesh Kumar Vishwakarma, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojisi Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan;
(2) Mayank Jindal, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojileri Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan
(3) Ayush Mittal, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojileri Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan
(4) Aditya Sharma, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojisi Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan.
Önceki literatürdeki veri kümeleri, film türlerinin tek tip bileşiminden yoksundur. Bu nedenle, IMDB1'den indirilen yaklaşık 2000 benzersiz Hollywood film fragmanından oluşan bir EMTD (İngilizce Film Fragmanı Veri Seti) öneriyoruz. EMTD, 5 türden 2000 benzersiz fragman içerir: aksiyon, komedi, korku, romantik, bilim kurgu. Veri seti IMDB'den web kazıma prosedürüyle şu şekilde çıkarılır: (1) IMDB'de bulunan film başlıklarının listesini getirin (yukarıda belirtilen türle ortak en az 1 tür olacak şekilde), (2) fragman dahil her film başlığına karşılık gelen meta verileri kazıyın indirme bağlantısını kullanın ve (3) bağlantıya karşılık gelen fragmanları (.mp4) bir klasöre indirin ve fragman adı, açıklamalar, konu, anahtar kelimeler ve türler dahil olmak üzere filmle ilgili tüm bilgileri/meta verileri şu biçimde listeleyin: bir CSV dosyası. Bu çalışmada veri seti, Tablo 1'de gösterildiği gibi tren seti (1700 treyler) ve doğrulama seti (300 treyler) olarak bölünmüştür.
Filmlerde çoğunlukla bu türlerin görülmesi nedeniyle çalışma yukarıda belirtilen türler üzerinden yapılmıştır. Ayrıca mimarimizin performansını ilk önce küçük bir tür kümesi üzerinde keşfetmek istiyoruz, bu nedenle geniş bir tür kümesine gitmek yerine yalnızca 5 tür seçmeyi tercih ediyoruz.