Yazarlar:
(1) Pinelopi Papalampidi, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi;
(2) Frank Keller, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi;
(3) Mirella Lapata, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi.
Değerlendirme Metrikleri Önceki çalışma [41] TP tanımlama modellerinin performansını üç ölçüt açısından değerlendirmektedir: Toplam Anlaşma (TA), yani doğru şekilde tanımlanan TP sahnelerinin yüzdesi, Kısmi Anlaşma (PA), yani TP yüzdesi en az bir altın standart sahnenin tanımlandığı olaylar ve Mesafe (D), yani belirli bir TP için öngörülen ve altın standart sahne seti arasındaki sahne sayısı cinsinden minimum mesafe, senaryo uzunluğuna göre normalleştirilir. Sonuçları kısmi anlaşma metriğiyle raporluyoruz. Çekimler için (sahneler yerine) gümüş standart etiketlere (altın yerine) göre değerlendirme yaptığımız ve sonuç olarak bir sahne içindeki tüm çekimlerin eşit derecede önemli olduğunu düşündüğümüz için artık tam bir anlaşmayı kullanamayız. Çok benzer sonuçlar verdiğinden ve model çeşitleri arasında ayrım yapmaya yardımcı olmadığından mesafe metriğini de kullanmıyoruz.
Hiperparametreler Önceki çalışmayı [42] takip ederek, tüm özellik türlerini (örneğin, metinsel, görsel ve işitsel) aynı alt boyut olan 128'e yansıtıyoruz. Daha büyük boyutların parametre sayısını önemli ölçüde artırdığını ve muhtemelen aşağıdaki nedenlerden dolayı daha kötü sonuçlar verdiğini bulduk. küçük veri kümesi boyutu.
Transformatör kodlayıcıları kullanarak sahneleri (senaryoya göre) ve çekimleri (videoya göre) bağlamsallaştırıyoruz. Kodlayıcıda 2, 3, 4, 5 ve 6 katmanla denemeler yaptık ve en iyi sonuçları 3 katmanla elde ettik. İleri besleme (FF) boyutu için hem standart boyut olan 2.048'i hem de daha küçük boyut olan 1.024'ü denedik ve ilkinin daha iyi sonuç verdiğini gördük. Bir sahnenin temsilini bir dizi giriş cümlesi temsilinden hesaplamak için başka bir transformatör kodlayıcı kullanırız. Bu kodlayıcı 4 katmana ve 1.024 FF boyutuna sahiptir. Her iki kodlayıcı da 8 dikkat kafası ve 0,3 bırakma kullanır.
Grafik seyrekleştirme sırasında (yani, en üstteki komşuların seçimi), farklı ayrıntı düzeyi ve boyutlarından dolayı sahne ve çekim tabanlı ağlar için farklı komşuluk seçeneklerini dikkate alırız. [42]'yi takiben, sahne ağı için [1-6] komşuları dikkate alıyoruz ve çekim ağı için komşuluk boyutunu [6-12]'ye arttırıyoruz.