paint-brush
Görev Ayrıştırma Yoluyla Film Fragmanı Oluşturma: Problem Formülasyonuile@kinetograph

Görev Ayrıştırma Yoluyla Film Fragmanı Oluşturma: Problem Formülasyonu

Çok uzun; Okumak

Bu makalede araştırmacılar, denetlenen yöntemlerin ötesine geçerek, anlatı yapısını belirleyerek ve duyguyu tahmin ederek fragmanlar oluşturmak için filmleri grafikler olarak modelliyor.
featured image - Görev Ayrıştırma Yoluyla Film Fragmanı Oluşturma: Problem Formülasyonu
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Yazarlar:

(1) Pinelopi Papalampidi, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi;

(2) Frank Keller, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi;

(3) Mirella Lapata, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi.

Bağlantı Tablosu

3. Problemin Formülasyonu

Fragman oluşturma, M çekimlerden (LM) oluşan tam uzunlukta bir filmden L çekimlerin seçilmesini gerektirir. Filmler, farklı alt kurgular veya doğrusal olmayan bir şekilde gelişen olaylar içerebilen karmaşık hikayeler sunarken, "doldurucular" adı verilen gereksiz olaylar ana hikayeyi zenginleştirir. Dolayısıyla ardışık çekimlerin zorunlu olarak anlamsal olarak ilişkili olduğunu varsayamayız. Olaylar arasındaki ilişkileri daha iyi araştırmak için filmleri grafikler halinde temsil ediyoruz [42]. G = (V, E), V köşelerinin çekim olduğu ve E kenarlarının anlamsal benzerliklerini temsil ettiği bir grafiği göstersin. Ayrıca, yalnızca önceki çekimlerden gelecek çekimlere doğru yönlendirilmiş kenarlara izin vererek, G'deki çekimlerin orijinal zamansal sırasını da dikkate alıyoruz. G, i atışından gelecekteki j atışına geçiş olasılığını kaydeden üst üçgen geçiş matrisi T ile tanımlanır.


G dahilinde, bazı çekimlerin filmdeki önemli olayları (Şekil 2'deki kalın daireler) tanımladığını, tüm çekimlerin ise yoğunluğunun bir puanla gösterilen (Şekil 2'deki yeşil/kırmızı tonları) bir duyguya (olumlu veya olumsuz) sahip olduğunu varsayıyoruz. . G'yi geçmek ve fragman çekimlerinin dizilerini seçmek için bir algoritma öneriyoruz. Aşağıda, ilk önce bu algoritmayı açıklayacağız (Bölüm 3.1) ve ardından G grafiğinin nasıl öğrenildiğini ve TP tanımlama yoluyla anahtar olayların nasıl tespit edildiğini tartışacağız [41] (Bölüm 3.2). Son olarak atışa dayalı duyarlılık puanlarının nasıl tahmin edildiğini de açıklıyoruz (Bölüm 3.5).

3.1. Film Grafiği Geçişi




Toplamda L çekim seçiyoruz (hedef fragman uzunluğuna bağlı olarak) ve Şekil 2'de (koyu çizgi) gösterildiği gibi bir teklif fragmanı dizisi alıyoruz. Her adımda, oluşturulan duyarlılık akışını ve şu ana kadar belirlenen TP'leri takip ediyoruz (Algoritma 1'de sırasıyla 10 ve 13-14. satırlar). Bir çekim veya yakın komşuları yola eklenmişse fragmanda sunulmak üzere bir TP olayı seçilmiştir.

3.2. TP Tanımlaması





Video tabanlı model, çekim düzeyindeki TP etiketlerine erişimi varsayar. Ancak TP tanımlaması için bildiğimiz tek veri seti senaryolara dayalı sahne düzeyinde etiketler içeren TRIPOD'dur [41]. Daha ince taneli etiketler elde etmek için, basit bire-çok eşlemenin ardından sahneye dayalı açıklamaları çekimlere yansıtırız (ayrıntılar için Bölüm 4'e bakın). Eğitim sinyalimiz kaçınılmaz olarak gürültülü olduğundan, senaryolara erişimin video tabanlı modeli her TP için daha temsili olan çekimleri seçmeye teşvik edeceğini varsayıyoruz. Başka bir deyişle senaryolar ayrıcalıklı bilgiyi ve örtülü bir denetim sinyalini temsil ederken, çıkarım sırasında ek ön işleme ihtiyacını da azaltır. Üstelik senaryolar, örneğin karakterler ve onların bir sahnedeki rolleri ya da onların eylemleri ve duyguları (kameranın gördüklerini tanımlayan çizgilerle iletilen) hakkında zengin miktarda ek bilgi sağlar. Aksi takdirde bu bilgilerin videoda doğru şekilde yerelleştirilmesi zor olabilir. Ayrıca, senaryoların etiketlenmemiş metin derlemelerini elde etmek nispeten kolaydır ve ağımızı önceden eğitmek için kullanılabilir.


Şekil 2. GRAPHTRAILER: Bir film, düğümleri çekimlerden oluşan ve kenarları aralarındaki ilişkileri gösteren bir grafiktir. Her çekim bir duyarlılık puanıyla (pozitif/negatif değerler için yeşil/kırmızı tonlar) ve önemli olayları açıklayan etiketlerle (kalın daireler) karakterize edilir. Algoritmamız, teklif fragmanı dizileri oluşturmak için grafikte (kalın çizgi) yürüyüşler gerçekleştirir.

3.3. Bilgi Damıtma

Şimdi, veri akışları (multimodal vs. salt metin) ve bunların semantik birimlere bölünmesi (çekimler vs. sahneler) açısından filmin farklı görünümlerini kapsayan iki ağ için ortak eğitim rejimimizi açıklıyoruz.



Şekil 3. İki ağ, filmin farklı görüntülerini farklı ayrıntı dereceleriyle işler. Video tabanlı ağ, filmin video akışını temel alan çok modlu, ince taneli çekim temsillerini giriş olarak alır. Senaryo tabanlı ağ, kaba taneli ve filmin senaryosunu temel alan metinsel sahne temsillerini işler. Ağlar, aralarında tahmin ve temsil tutarlılığını güçlendiren kayıplarla TP tanımlama konusunda ortaklaşa eğitilir.


Temsil Tutarlılık Kaybı İki grafik tabanlı temsil (yani video çekimleri ve senaryo sahneleri üzerinden) arasında tutarlılığı sağlamak amacıyla iki ağ arasında ikinci bir düzenleme kaybı kullanılmasını öneriyoruz. Bu kaybın amacı iki yönlüdür: karşılaştırmalı temsil öğrenimi üzerine önceki çalışmada gösterildiği gibi iki ağ için TP tahminlerini geliştirmek [38, 39, 48] ve ayrıca çekimler arasında daha doğru bağlantıların öğrenilmesine yardımcı olmak (çekimlerin- tabanlı grafik, fragman oluşturma algoritmamıza girdi görevi görür; Bölüm 3.1). Bir filmdeki müstakil olayları anlatan senaryo sahneleriyle karşılaştırıldığında, video çekimleri yalnızca birkaç saniye uzunluğundadır ve anlamları çevredeki bağlama dayanır. Karşılık gelen senaryo sahnesine benzer semantiği korumak için bir çekim için grafik komşuluğunu zorlayarak, çekim tabanlı grafikte uygun komşuların seçimini teşvik edeceğimizi varsayıyoruz.



3.4. Kendi Kendini Denetleyen Ön Eğitim

Ön eğitim, film videolarından daha erişilebilir olan senaryolardan daha iyi sahne temsillerini öğrenmeyi amaçlamaktadır (örneğin, daha az telif hakkı sorunu ve daha az hesaplama yükü), bu bilginin tutarlılık kayıplarımız yoluyla video tabanlı ağa aktarılacağı umuduyla.


3.5. Duygu Tahmini

Son olarak modelimiz, duygunun bir çekimden diğerine nasıl aktığını hesaba katıyor. TP tanımlaması için kullandığımız aynı ortak mimari (Bölüm 3.3) ve eğitim rejimi ile atış başına duyarlılık puanlarını tahmin ediyoruz. Video tabanlı ağ, duyarlılık etiketlerine sahip çekimler (yani olumlu, olumsuz, nötr) üzerinde eğitilirken, senaryo tabanlı ağ, duyarlılık etiketlerine sahip sahneler üzerinde eğitilir (Bölüm 4, etiketlerin nasıl elde edildiğini açıklar). Eğitimden sonra, duyarlılık akışını yakalamak ve yüksek ve düşük yoğunluklu çekimler arasında ayrım yapmak için atış başına duyarlılık etiketleri üzerinden bir olasılık dağılımı tahmin ediyoruz (ayrıntılar için Ek'e bakın).