Yazarlar:
(1) Pinelopi Papalampidi, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi;
(2) Frank Keller, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi;
(3) Mirella Lapata, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi.
Film fragmanları birçok işlevi yerine getirir: izleyicileri hikayeyle tanıştırır, filmin ruh halini ve sanatsal tarzını aktarır ve izleyicileri filmi izlemeye teşvik eder. Bu çeşitli işlevler, otomatik römork üretimini zorlu bir çaba haline getiriyor. Bunu iki alt göreve ayırıyoruz: anlatı yapısının belirlenmesi ve duygu tahmini. Filmleri, düğümlerin çekim olduğu ve kenarların aralarındaki anlamsal ilişkileri gösterdiği grafikler olarak modelliyoruz. Bu ilişkileri, senaryolardan alınan ayrıcalıklı metinsel bilgilerden (örn. karakterler, eylemler, durumlar) yararlanan ortak karşılaştırmalı eğitim kullanarak öğreniyoruz. Denetimsiz bir algoritma daha sonra grafiğin üzerinden geçerek insan yargıçların rekabetçi denetimli yaklaşımlar tarafından oluşturulanlara tercih ettiği fragmanlar üretir.
Fragmanlar, filmlerin tanıtımını yapmak için kullanılan kısa videolardır ve genellikle ticari başarı açısından kritik öneme sahiptir. Fragmanların temel işlevi filmi çeşitli izleyicilere pazarlamak olsa da, fragmanlar aynı zamanda izleyicilerin filmi izleme isteği uyandırmak için tasarlanmış bir tür ikna edici sanat ve tanıtım anlatımıdır. Fragman yapımı sanatsal bir çaba olarak görülse de film endüstrisi, fragman yapımına yön veren stratejiler geliştirmiştir. Bir düşünce ekolüne göre, fragmanların üç perdeden oluşan bir anlatı yapısı sergilemesi gerekir[1]. İlk perde hikayenin karakterlerini ve kurgusunu oluşturuyor, ikinci perde ana çatışmayı tanıtıyor, üçüncü perde ise çıtayı yükseltiyor ve sondan teaserlar sunuyor. Başka bir düşünce ekolü daha çok hikayenin iniş ve çıkışları tarafından tanımlanan fragmanın ruh hali ile ilgilidir[2]. Bu yaklaşıma göre, fragmanların izleyiciyi cezbetmek için ilk başta orta yoğunlukta olması, ardından hikaye hakkında önemli bilgiler vermek için düşük yoğunlukta olması ve ardından fragmanın sonunda doruğa ulaşıncaya kadar yoğunluğun giderek artması gerekir.
Fragmanları otomatik olarak oluşturmak için, kişi tanımlama, eylem tanıma ve duygu tahmini gibi düşük seviyeli görevlerin yanı sıra, olaylar arasındaki bağlantıları ve nedenselliklerini anlamanın yanı sıra karakterler ve onların durumları hakkında çıkarımlar yapmak gibi daha yüksek seviyeli görevleri de gerçekleştirmemiz gerekir. hareketler. Görevin karmaşıklığı göz önüne alındığında, tüm bu bilgilerin film fragmanı çiftlerinden doğrudan öğrenilmesi binlerce örnek gerektirecektir; bunların işlenmesi ve ek açıklamalar yapılması zor olacaktır. Bu nedenle, otomatik fragman oluşturmaya yönelik önceki yaklaşımların [24,46,53] yalnızca görsel-işitsel özelliklere odaklanmış olması şaşırtıcı değildir.
Editörlerin yaratıcı sürecinden esinlenerek, fragman oluşturma konusunda aşağıdan yukarıya bir yaklaşım benimsiyoruz ve bunu iki dik, daha basit ve iyi tanımlanmış alt göreve ayırıyoruz. Birincisi anlatı yapısının belirlenmesi, yani filmdeki en önemli olayların ortaya çıkarılmasıdır. Senaryo yazımında yaygın olarak benimsenen bir teori [13,22,51], bir filmin olay örgüsünde dönüm noktaları (TP'ler; Şekil 1'deki tanımlarına bakınız) olarak bilinen beş tür anahtar olayın bulunduğunu ileri sürer. İkinci alt görev, çekimler ile uyandırılan duygular arasındaki yoğunluk akışının bir tahmini olarak gördüğümüz duygu tahminidir.
Denetimsiz grafik tabanlı bir yaklaşımı izleyerek teklif fragmanları oluşturuyoruz. Filmleri, düğümleri çekim olan ve kenarları çekimler arasındaki önemli anlamsal bağlantıları gösteren grafikler olarak modelliyoruz (bkz. Şekil 2). Ek olarak, düğümler, bunların önemli olaylar (örn. TP'ler) olup olmadığını belirten etiketler ve duygu yoğunluğunu (olumlu veya olumsuz) işaret eden puanlar taşır. Algoritmamız fragman sekansları oluşturmak için bu film grafiğini geçer. Bunlar, bir insan editör tarafından incelenecek ve değiştirilecek teklifler olarak kullanılabilir.
Hem TP tanımlama hem de duyarlılık tahmini görevleri, film içeriğinin daha düşük düzeyde anlaşılmasından faydalanmaya hazırdır. Aslında karakterleri ve yerleri tanımlamak, eylemleri tanımak ve anlamsal birimleri yerelleştirmek için kullanıma hazır modüller kullanabiliriz. Ancak bu tür yaklaşımlar, eğitim ve çıkarım sırasındaki ön işleme süresini ve bellek gereksinimlerini önemli ölçüde artırır ve hata yayılımından zarar görür. Bunun yerine, senaryolardan ayrıcalıklı bilgi, yani yalnızca eğitim sırasında mevcut olan bilgi olarak yararlandığımız karşılaştırmalı bir öğrenme rejimi öneriyoruz. Senaryolar, filmin sahnelere nasıl bölündüğünü, karakterlerin kim olduğunu, ne zaman ve kiminle konuştuklarını, nerede olduklarını ve ne yaptıklarını ortaya koyar (yani, "sahne başlıkları" aksiyonun nerede gerçekleştiğini açıklarken, "aksiyon satırları" aksiyonun nerede gerçekleştiğini açıklar). kameranın gördüğü şey). Spesifik olarak, senaryolara dayalı bir metinsel ağ ve videoya dayalı çok modlu bir ağ olmak üzere iki ayrı ağ kuruyoruz ve bunları yardımcı karşılaştırmalı kayıplar kullanarak ortaklaşa eğitiyoruz. Metinsel ağ ayrıca, ilgili filmleri toplayıp işlemeye gerek kalmadan, kendi kendini denetleyen öğrenme yoluyla geniş senaryo koleksiyonları üzerinde önceden eğitilebilir. Deneysel sonuçlar, bu karşılaştırmalı eğitim yaklaşımının faydalı olduğunu, içerik ve çekicilik açısından insanlar tarafından olumlu değerlendirilen fragmanların ortaya çıkmasına yol açtığını göstermektedir.
[1] https://www.studiobinder.com/blog/how-to-make-a-movie-trailer
[2] https://www.derek-lieu.com/blog/2017/9/10/the-matrix-is-a-trailereditors-dream