paint-brush
Görev Ayrıştırma Yoluyla Film Fragmanı Oluşturma: Uygulama Ayrıntılarıile@kinetograph

Görev Ayrıştırma Yoluyla Film Fragmanı Oluşturma: Uygulama Ayrıntıları

Çok uzun; Okumak

Bu makalede araştırmacılar, denetlenen yöntemleri aşarak, anlatı yapısını belirleyerek ve duyguyu tahmin ederek fragmanlar oluşturmak için filmleri grafikler olarak modelliyor.
featured image - Görev Ayrıştırma Yoluyla Film Fragmanı Oluşturma: Uygulama Ayrıntıları
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Yazarlar:

(1) Pinelopi Papalampidi, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi;

(2) Frank Keller, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi;

(3) Mirella Lapata, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi.

Bağlantı Tablosu

B. Uygulama Detayları

Değerlendirme Metrikleri Önceki çalışma [41] TP tanımlama modellerinin performansını üç ölçüt açısından değerlendirmektedir: Toplam Anlaşma (TA), yani doğru şekilde tanımlanan TP sahnelerinin yüzdesi, Kısmi Anlaşma (PA), yani TP yüzdesi en az bir altın standart sahnenin tanımlandığı olaylar ve Mesafe (D), yani belirli bir TP için öngörülen ve altın standart sahne seti arasındaki sahne sayısı cinsinden minimum mesafe, senaryo uzunluğuna göre normalleştirilir. Sonuçları kısmi anlaşma metriğiyle raporluyoruz. Çekimler için (sahneler yerine) gümüş standart etiketlere (altın yerine) göre değerlendirme yaptığımız ve sonuç olarak bir sahne içindeki tüm çekimlerin eşit derecede önemli olduğunu düşündüğümüz için artık tam bir anlaşmayı kullanamayız. Çok benzer sonuçlar verdiğinden ve model çeşitleri arasında ayrım yapmaya yardımcı olmadığından mesafe metriğini de kullanmıyoruz.


Hiperparametreler Önceki çalışmayı [42] takip ederek, tüm özellik türlerini (örneğin, metinsel, görsel ve işitsel) aynı alt boyut olan 128'e yansıtıyoruz. Daha büyük boyutların parametre sayısını önemli ölçüde artırdığını ve muhtemelen aşağıdaki nedenlerden dolayı daha kötü sonuçlar verdiğini bulduk. küçük veri kümesi boyutu.


Transformatör kodlayıcıları kullanarak sahneleri (senaryoya göre) ve çekimleri (videoya göre) bağlamsallaştırıyoruz. Kodlayıcıda 2, 3, 4, 5 ve 6 katmanla denemeler yaptık ve en iyi sonuçları 3 katmanla elde ettik. İleri besleme (FF) boyutu için hem standart boyut olan 2.048'i hem de daha küçük boyut olan 1.024'ü denedik ve ilkinin daha iyi sonuç verdiğini gördük. Bir sahnenin temsilini bir dizi giriş cümlesi temsilinden hesaplamak için başka bir transformatör kodlayıcı kullanırız. Bu kodlayıcı 4 katmana ve 1.024 FF boyutuna sahiptir. Her iki kodlayıcı da 8 dikkat kafası ve 0,3 bırakma kullanır.


Grafik seyrekleştirme sırasında (yani, en üstteki komşuların seçimi), farklı ayrıntı düzeyi ve boyutlarından dolayı sahne ve çekim tabanlı ağlar için farklı komşuluk seçeneklerini dikkate alırız. [42]'yi takiben, sahne ağı için [1-6] komşuları dikkate alıyoruz ve çekim ağı için komşuluk boyutunu [6-12]'ye arttırıyoruz.



Şekil 4. Bir filmin farklı bölümlerine (geliştirme seti) karşılık gelen fragman çekimlerinin TP'lere göre dağılımı. Fragman çekimleri çoğunluğu başlangıç ve ortasından olsa da filmin her bölümünden, hatta sonundan geliyor.


Tablo 7. Geliştirme setinde belirli bir TP türü olarak etiketlenmiş en az bir atış içeren fragmanların yüzdesi (%). İlk iki TP (hikayenin girişini sunan), özellikle büyük spoiler içeren son ikisiyle karşılaştırıldığında, fragmanlarda daha sık görülüyor.


Tablo 8. Treylerleri üç eşit parçaya böldüğümüzde (geliştirme seti) treyler bölümü başına ortalama mutlak duygu yoğunluğu.