Yazarlar:
(1) Pinelopi Papalampidi, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi;
(2) Frank Keller, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi;
(3) Mirella Lapata, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi.
Veri Kümeleri Modelimiz, gümüş standartta TP ek açıklamaları (sahne düzeyinde)[3] ve ilgili videoları[4] içeren 122 senaryo içeren TRIPOD veri kümesinin [41, 42] genişletilmiş bir versiyonu olan TRIPODL üzerinde eğitildi. Her film için YouTube'dan, resmi ve (ciddi) hayran temelli fragmanlar veya eski filmlerin modern fragmanları da dahil olmak üzere mümkün olduğunca çok sayıda fragman topladık. Algoritmamızın ürettiği fragmanları değerlendirmek için ayrıca 41 filmden oluşan yeni bir dizi topladık. Bu filmler, resmi film fragmanlarını içeren Moviescope veri kümesinden[5] [11] seçilmiştir. Uzatılan set, senaryolar veya TP ek açıklamaları gibi herhangi bir ek bilgi içermiyor. TRİPODL istatistikleri Tablo 1'de sunulmaktadır.
Film ve Fragman İşleme Önceki bölümlerde öne sürülen modelleme yaklaşımı, senaryo sahneleri ile film çekimleri arasındaki örtüşmeyi bildiğimizi varsayar. Bu eşleştirmeyi, Dinamik Zaman Bükme (DTW; [36, 42]) kullanarak senaryolardaki diyalogları altyazılarla otomatik olarak hizalayarak elde ediyoruz. İlk önce videoyu bu eşleştirmeye dayalı olarak sahnelere bölüyoruz ve ardından PySceneDetect[6] kullanarak her sahneyi çekimlere bölüyoruz. Toplamda 100'den az kare içeren çekimler, fragmanın bir parçası olarak hem işlenmesi hem de görüntülenmesi için çok kısa olduğundan, atılır.
Üstelik her çekim için görsel ve işitsel özellikleri çıkarıyoruz. Üç farklı görsel özellik türünü göz önünde bulunduruyoruz:
(1) Çekim başına bir anahtar kare örnekliyoruz ve ImageNet [14] üzerinde nesne tanıma için önceden eğitilmiş ResNeXt-101 [56] kullanarak özellikleri çıkarıyoruz. (2) Kareleri her 10 kareden 1'i sıklıkta örnekliyoruz (bellek sorunlarıyla karşılaştığımızdan dolayı daha uzun süreli çekimler için bu zaman aralığını arttırıyoruz) ve Kinetics'te önceden eğitilmiş iki akışlı I3D ağını kullanarak hareket özelliklerini çıkarıyoruz [ 10]. (3) Detectron2'de [54] uygulanan Faster-RCNN'yi [18] her anahtar karedeki kişi örneklerini tespit etmek ve ilgili bölgesel temsillerle birlikte en yüksek güvene sahip olan atış başına ilk dört sınırlayıcı kutuyu tutmak için kullanırız. Öncelikle tüm bireysel gösterimleri aynı alt boyuta yansıtırız ve L2 normalizasyonunu gerçekleştiririz. Daha sonra, görsel çekim temsilini tek tek vektörlerin toplamı olarak ele alıyoruz. Ses modalitesi için, ses bölümlerini 521 ses sınıfına (örneğin, araçlar, müzik, patlama) sınıflandırmak için AudioSet-YouTube derleminde [16] önceden eğitilmiş YAMNet'i kullanıyoruz; Sahnede bulunan her ses bölümü için sondan bir önceki katmandan özellikler çıkarıyoruz. Son olarak, Evrensel Cümle Kodlayıcıyı (USE; [12]) kullanarak altyazılardan ve senaryo sahnelerinden metinsel özellikleri [42] çıkarıyoruz.
Değerlendirme yapabilmek için filmdeki hangi karelerin fragmana değer olup olmadığını bilmemiz gerekiyor. Bunu ilgili fragmanı çekimlere bölerek ve her çekim için filmdeki tüm çekimlerle görsel benzerliğini hesaplayarak yapıyoruz. En yüksek benzerlik değerlerine sahip çekimler pozitif etiketler alır (yani fragmanda yer almaları gerekir). Bununla birlikte, fragmanlar aynı zamanda filmde olmayan çekimler de içerdiğinden (örneğin, metin içeren siyah ekranlar veya yalnızca son filmde yer almayan materyaller), aynı zamanda, altında fragman çekimlerini filmle eşlemediğimiz bir eşik de belirliyoruz. çekimler. Bu sayede film çekimleri için gümüş standartta ikili etiketler oluşturuyoruz.
Duygu Etiketleri TRIPOD duygu ek açıklamaları içermediğinden bunun yerine, doğal dil konuşmalarında duygu ve duygu sınıflandırması için son teknoloji performansa sahip, sağduyuya dayalı bir çerçeve olan COSMIC [17] aracılığıyla gümüş standartlı etiketler elde ederiz. Spesifik olarak, Friends dizisinin bölümlerinden diyaloglar içeren ve alanımıza diğer duygu sınıflandırma veri kümelerinden daha uygun olan MELD [43] üzerinde COSMIC'i eğitiyoruz (örneğin, [9, 29]). Eğitimden sonra TRIPOD senaryoları için cümle düzeyinde duygu tahminleri üretmek üzere COSMIC'i kullanıyoruz. Bir sahnenin duygusu, cümlelerinin çoğunluğunun duygusuna karşılık gelir. TP'ler için kullanılan aynı bire çok eşlemeyi kullanarak sahneye dayalı duygu etiketlerini çekimlere yansıtıyoruz.
[3] https://github.com/ppapalampidi/TRIPOD
[4] https://datashare.ed.ac.uk/handle/10283/3819
[5] http://www.cs.virginia.edu/ pc9za/research/moviescope.html
[6] https://github.com/Breakthrough/PySceneDetect