Yazarlar:
(1) Pinelopi Papalampidi, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi;
(2) Frank Keller, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi;
(3) Mirella Lapata, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi.
Bilgi Damıtmanın Yararlılığı Treyler oluşturma görevi için kritik olduğundan, öncelikle TP tanımlamasını geliştirip geliştirmediğimizi araştırıyoruz. Gerçek sahne düzeyinde TP etiketlerine sahip film setini geliştirme ve test setine ayırdık ve bir filmde TP başına ilk 5 (@5) ve ilk 10 (@10) çekimi seçtik. Değerlendirme ölçütü olarak, bir modelin filmden seçilen 5 veya 10 çekimden en az bir gerçekçi çekimi doğru şekilde tanımladığı TP'lerin yüzdesini ölçen Kısmi Anlaşmayı (PA; [41]) dikkate alıyoruz (ayrıntılar için Ek'e bakın) ).
Tablo 2 test setindeki sonuçlarımızı özetlemektedir. Aşağıdaki karşılaştırma sistemlerini göz önünde bulunduruyoruz: Rastgele, eşit olarak dağıtılmış bölümlerden çekimler seçer (ortalama 10 çalıştırma); Teori , senaryo teorisine göre çekimlere TP atar (örneğin, filmin %10'unda “Fırsat”, %25'inde “Plan Değişikliği” vb.); Dağıtım, atışları eğitim verilerindeki beklenen konumlarına göre seçer; GRAPHTP, senaryolar üzerine eğitilmiş [42]'nin orijinal modelidir (sahne düzeyinde TP tahminlerini çekimlere yansıtırız); Transformatör, grafikle ilgili bilgilerin bulunmadığı bir temel modeldir. TP tanımlaması için kendi modelimiz olan GRAPHTRAILER'ı çeşitli varyantlarda kullanıyoruz: senaryolara erişim olmadan ve erişimle, yalnızca tahmin tutarlılığı kaybıyla (P), hem tahmin hem de temsil kayıplarıyla (P + R) eğitilmiş ve karşılaştırmalı ortak eğitim rejimimiz .
GRAPHTRAILER'ın Transformer modelinin yanı sıra tüm bazlardan daha iyi performans gösterdiğini gözlemliyoruz. İkincisi çekimler arasındaki uzun menzilli bağımlılıkları kodlasa da, GRAPHTRAILER ayrıca grafikte öğrenilen seyrek bağlantıların doğrudan kodlanmasından da yararlanır. Dahası, öngörü tutarlılığı kaybı (P) yoluyla eş zamanlı olmayan bilgi damıtması performansı daha da artırır; bu da senaryolarda yer alan bilginin videodan çıkarılabilecekleri tamamlayıcı olduğunu öne sürer. Gösterim tutarlılık kaybını (P + R) eklediğimizde performansın büyük bir farkla bozulduğuna, oysa önerilen eğitim yaklaşımının (karşılaştırmalı eklem) en iyi performansı gösterdiğine dikkat edin. Son olarak ön eğitim, küçük de olsa daha fazla kazanım sağlar ve bu da senaryoya dayalı ağın faydalarının altını çizer.
Fragman Kalitesi Şimdi GRAPHTRAILER'ın fragman oluşturma algoritmasını uzatılmış 41 filmlik set üzerinde değerlendiriyoruz (bkz. Tablo 1). Değerlendirme ölçütü olarak doğruluğu, yani doğru tanımlanmış fragman çekimlerinin yüzdesini kullanıyoruz ve istenen uzunluğa (∼2 dakika) ulaşmak için fragmanlar için toplam 10 çekimlik bir bütçeyi dikkate alıyoruz.
GRAPHTRAILER'ı çeşitli denetimsiz yaklaşımlarla (Tablo 3'teki ilk blok) karşılaştırıyoruz: Tüm çekimler arasında ve GRAPHTRAILER tarafından tanımlanan TP'ler arasında rastgele seçim; Ayrıca, düğümlerin çekim olduğu ve kenarların aralarındaki benzerlik derecesini gösterdiği, tamamen bağlantılı bir grafiğe dayalı iki grafik tabanlı sistem de uyguluyoruz. Bu grafiğin TP'ler hakkında bilgisi yoktur, genel çok modlu gösterimler arasındaki benzerlik hesaplanarak oluşturulmuştur. TEXTRANK [35], çekimleri merkeziliklerine göre seçmek için bu grafik üzerinde çalışırken, TP'siz GRAPHTRAILER, TP ve duyarlılık kriterleri kaldırılmış olarak grafiği geçer (Denklem 2). Stokastisite içeren ve teklif üreten (Random, GRAPHTRAILER) denetimsiz sistemler için en iyi teklif fragmanını değerlendiriyoruz. Tablo 3'ün ikinci bloğu, eğitim için gürültülü römork etiketlerini kullanan denetimli yaklaşımları sunmaktadır. Bunlar arasında yalnızca görsel bilgileri dikkate alan ve film ile fragman çekimleri arasındaki çapraz dikkati hesaplayan CCANet [53] ve senaryoları, duyguları veya TP'leri dikkate almadan bir çekimin fragmanda yer alıp almayacağını belirlemeye yönelik ikili görev için eğitilmiş bir Vanilla Transformer yer alıyor. . Denetimli GRAPHTRAILER, Transformer ile aynı veriler üzerinde eğitilmiş video tabanlı ağımızdan oluşur.
GRAPHTRAILER denetimsiz yöntemler arasında en iyi performansı gösterir. İlginç bir şekilde, TEXTRNK rastgele olmaktan daha kötüdür ve bu durum, fragman oluşturma gibi görevlerin standart özetleme problemleri olarak görülemeyeceğini göstermektedir. TP'siz GRAPHTRAILER hala TEXTRANS ve rastgele TP seçiminden daha iyi performans gösteriyor.[7] Denetimli yaklaşımlarla ilgili olarak, tüm yöntemleri standart bir mimariyle (Transformer) kullanmanın, görsel benzerliği kullanan karmaşık modellerden (CCANet) daha iyi performansa yol açtığını bulduk. Grafikle ilgili bilgileri (Denetimli GRAPHTRAILER) ekleyerek daha fazla iyileştirme elde ediyoruz.
GRAPHTRAILER geliştirme seti üzerinde iki ablasyon çalışması gerçekleştiriyoruz. İlk çalışma, ikili ağın farklı eğitim rejimlerinin alt treyler üretim performansını nasıl etkilediğini değerlendirmeyi amaçlamaktadır. Tablo 4'te asenkron eğitimin temel modele göre gözle görülür bir gelişme sağlamadığını görüyoruz. Ancak tahmin ve gösterim tutarlılığı kayıplarını kullanarak iki ağı (video ve senaryo tabanlı) ortaklaşa eğittiğimizde performans yaklaşık %3 oranında artar. Senaryoya dayalı ağ daha fazla veriyle önceden eğitildiğinde küçük bir artış daha gözlemleniyor.
İkinci ablasyon çalışması, G grafiği üzerinde rastgele yürüyüşler gerçekleştirmek için kullanılan kriterlerle ilgilidir. Tablo 5'te gösterildiği gibi, seçilen yoldaki düğümleri anahtar olaylara yakın olmaya zorladığımızda (benzerlik + TP'ler) performans artar. Yalnızca duyarlılığa (benzerlik + duyarlılık) güvendiğimizde performans biraz düşer. Bu, çoğunlukla yüzeysel görsel çekiciliğe [53, 57] veya görsel-işitsel duyarlılık analizine [47] odaklanan önceki yaklaşımların aksine, duygu bilgisinin kendi başına yeterli olmadığını ve bir fragmana iyi uymayan aykırı değerleri teşvik edebileceğini göstermektedir. Öte yandan duygu bilgisi anlatı yapısına ilişkin bilgi (benzerlik + TP'ler + duygu) ile birleştirildiğinde en yüksek doğruluğu gözlemliyoruz. Bu, fragman oluşturmayla ilgili iki teorinin (yani anlatı yapısı ve duygulara dayalı) tamamlayıcı olduğu ve birleştirilebileceği yönündeki hipotezimizi daha da doğruluyor.
Son olarak, film başına birden fazla fragmanımız olduğundan (geliştirme seti için), bunların çekimleri arasındaki örtüşmeyi (Üst sınır) ölçebiliriz. Ortalama örtüşme %86,14 olup, treyler üreticileri arasında iyi bir anlaşma olduğunu ve insan performansı ile otomatik modeller arasında büyük bir fark olduğunu göstermektedir.
Son olarak, film başına birden fazla fragmanımız olduğundan (geliştirme seti için), bunların çekimleri arasındaki örtüşmeyi (Üst sınır) ölçebiliriz. Ortalama örtüşme %86,14 olup, treyler üreticileri arasında iyi bir anlaşma olduğunu ve insan performansı ile otomatik modeller arasında büyük bir fark olduğunu göstermektedir.
İnsan Değerlendirmesi Ayrıca üretilen treylerlerin kalitesini değerlendirmek için bir insan değerlendirme çalışması da yürüttük. İnsan değerlendirmesi için, bir alt sınır olarak TP'siz Rastgele seçimi, en iyi performansa sahip iki denetimsiz modeli (yani, TP'li ve TP'siz GRAPHTRAILER) ve iki denetimli modeli dahil ediyoruz: Treyler üretimi için önceki son teknoloji olan CCANet, ve otomatik metriklere göre en iyi performans gösteren model olan modelimizin denetimli versiyonu.[8] Uzatılan setteki tüm filmlerin fragmanlarını hazırladık. Daha sonra Amazon Mechanical Turk (AMT) kalabalık çalışanlarından bir filmin tüm fragmanlarını izlemelerini, sağlanan bilgilerle (S1) ve fragmanın çekiciliğiyle (S2) ilgili soruları yanıtlamalarını ve en iyi ve en kötü fragmanı seçmelerini istedik. Film başına beş farklı jüri üyesinin değerlendirmelerini topladık.
Tablo 6, TP'li GRAPHTRAILER'ın diğer tüm sistemlerden ortalama olarak daha bilgilendirici (Q1) ve çekici (Q2) römorklar sağladığını göstermektedir. TP'siz GRAPHTRAILER ve Denetimli GRAPHTRAILER çoğunlukla en iyi olarak seçilmelerine rağmen, aynı sıklıkla en kötü olarak da seçilirler. En iyi-en kötü ölçeklendirmeyi [31] kullanarak standartlaştırılmış puanları (z-puanları) hesapladığımızda, TP'li GRAPHTRAILER en iyi performansı elde eder (bunun da nadiren en kötü olarak seçildiğini unutmayın), ardından Denetimli GRAPHTRAILER gelir. İlginçtir ki, TP'siz GRAPHTRAILER çoğunlukla en iyi olarak seçilir (%24,40), bu da filmleri grafik olarak modellemenin ve çekimleri tek tek seçmek yerine rastgele yürüyüşler gerçekleştirmenin genel yaklaşımının tutarlı fragmanlar oluşturmaya yardımcı olduğunu gösterir. Ancak aynı model çoğu zaman en kötü model olarak da seçiliyor ve bu da bu naif yaklaşımın tek başına iyi kalitede treyler garanti edemeyeceğini gösteriyor.
Yaklaşımımızı temel alarak oluşturulan fragmanların video örneklerini Ek Materyal'e dahil ediyoruz. Ayrıca, Ek'te grafik geçiş algoritmamızın adım adım grafiksel bir örneğini sunuyoruz.
Spoiler uyarısı! Modelimiz oluşturulan fragmanlarda spoilerlardan açıkça kaçınmıyor. Algoritma 1'de film grafiğini geçerken spoiler ile ilgili bir kriterle deneyler yaptık. Özellikle, "spoiler duyarlı" grafik komşuluklarındaki çekimleri seçerken bir ceza ekledik. Bu tür mahalleleri, doğası gereği bir filmdeki en büyük spoiler olan son iki TP'den en kısa yolu ölçerek belirledik. Ancak algoritmamızın bu çeşidi daha düşük performansla sonuçlandı ve bu nedenle bunu daha fazla takip etmedik. Modeli filmin son bölümlerinden heyecan verici kareler seçmekten caydırdığı için böyle bir kriterin fragman dizileri önermek açısından yararlı olmadığına inanıyoruz. Bu yüksek gerilimli çekimler ilginç fragmanlar oluşturmak için önemlidir ve gerçekten de gerçek hayattaki fragmanlara dahil edilir. Veri setimizdeki profesyonel fragmanların üçte birinden fazlası son iki TP'den çekimler içeriyor ("Büyük aksilik", "Doruk"). Bu konuyu Ek'te daha detaylı tartışacağız.
Ayrıca oluşturulan fragmanları manuel olarak inceledik ve spoilerlerin çok yaygın olmadığını gördük (yani, test setinden 12 fragmandan oluşan rastgele bir örnekte bir büyük spoiler atışı belirledik), bunun nedeni muhtemelen büyük bir spoiler seçme olasılığının genellikle düşük olmasıdır. Spoiler'a duyarlı bir çekim dahil edilse bile, bağlamdan çıkarıldığında bu, filmin sonunu ortaya çıkarmak için yeterli olmayabilir. Ancak ekstra kriter olarak algoritmamıza kolayca entegre edilebilecek daha ayrıntılı spoiler tanımlama tekniklerini araştırmayı gelecekteki çalışmalara bırakıyoruz.
[7] Test setindeki performans daha düşüktür çünkü geliştirme seti birden fazla fragman içerirken yalnızca resmi fragmandaki fragman etiketlerini dikkate alıyoruz.
[8] Gerçek hayattaki fragmanları, sonradan işlendiğinden (örn. montaj, seslendirme, müzik) ve dolayısıyla otomatik fragmanlarla doğrudan karşılaştırılamadığından, insan değerlendirmesine dahil etmiyoruz.