Yazarlar:  (1) Pinelopi Papalampidi, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi;  (2) Frank Keller, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi;  (3) Mirella Lapata, Dil, Biliş ve Hesaplama Enstitüsü, Bilişim Okulu, Edinburgh Üniversitesi.  Bağlantı Tablosu   Özet ve Giriş   Alakalı iş   Problem Formülasyonu   Deneysel kurulum   Sonuçlar ve Analiz   Sonuçlar ve Referanslar   A. Model Detayları   B. Uygulama Detayları   C. Sonuçlar: Ablasyon Çalışmaları  4. Deneysel Kurulum    Modelimiz, gümüş standartta TP ek açıklamaları (sahne düzeyinde)[3] ve ilgili videoları[4] içeren 122 senaryo içeren TRIPOD veri kümesinin [41, 42] genişletilmiş bir versiyonu olan TRIPODL üzerinde eğitildi. Her film için YouTube'dan, resmi ve (ciddi) hayran temelli fragmanlar veya eski filmlerin modern fragmanları da dahil olmak üzere mümkün olduğunca çok sayıda fragman topladık. Algoritmamızın ürettiği fragmanları değerlendirmek için ayrıca 41 filmden oluşan yeni bir dizi topladık. Bu filmler, resmi film fragmanlarını içeren Moviescope veri kümesinden[5] [11] seçilmiştir. Uzatılan set, senaryolar veya TP ek açıklamaları gibi herhangi bir ek bilgi içermiyor. TRİPODL istatistikleri Tablo 1'de sunulmaktadır. Veri Kümeleri  Film ve Fragman İşleme Önceki bölümlerde öne sürülen modelleme yaklaşımı, senaryo sahneleri ile film çekimleri arasındaki örtüşmeyi bildiğimizi varsayar. Bu eşleştirmeyi, Dinamik Zaman Bükme (DTW; [36, 42]) kullanarak senaryolardaki diyalogları altyazılarla otomatik olarak hizalayarak elde ediyoruz. İlk önce videoyu bu eşleştirmeye dayalı olarak sahnelere bölüyoruz ve ardından PySceneDetect[6] kullanarak her sahneyi çekimlere bölüyoruz. Toplamda 100'den az kare içeren çekimler, fragmanın bir parçası olarak hem işlenmesi hem de görüntülenmesi için çok kısa olduğundan, atılır.  Üstelik her çekim için görsel ve işitsel özellikleri çıkarıyoruz. Üç farklı görsel özellik türünü göz önünde bulunduruyoruz:  (1) Çekim başına bir anahtar kare örnekliyoruz ve ImageNet [14] üzerinde nesne tanıma için önceden eğitilmiş ResNeXt-101 [56] kullanarak özellikleri çıkarıyoruz. (2) Kareleri her 10 kareden 1'i sıklıkta örnekliyoruz (bellek sorunlarıyla karşılaştığımızdan dolayı daha uzun süreli çekimler için bu zaman aralığını arttırıyoruz) ve Kinetics'te önceden eğitilmiş iki akışlı I3D ağını kullanarak hareket özelliklerini çıkarıyoruz [ 10]. (3) Detectron2'de [54] uygulanan Faster-RCNN'yi [18] her anahtar karedeki kişi örneklerini tespit etmek ve ilgili bölgesel temsillerle birlikte en yüksek güvene sahip olan atış başına ilk dört sınırlayıcı kutuyu tutmak için kullanırız. Öncelikle tüm bireysel gösterimleri aynı alt boyuta yansıtırız ve L2 normalizasyonunu gerçekleştiririz. Daha sonra, görsel çekim temsilini tek tek vektörlerin toplamı olarak ele alıyoruz. Ses modalitesi için, ses bölümlerini 521 ses sınıfına (örneğin, araçlar, müzik, patlama) sınıflandırmak için AudioSet-YouTube derleminde [16] önceden eğitilmiş YAMNet'i kullanıyoruz; Sahnede bulunan her ses bölümü için sondan bir önceki katmandan özellikler çıkarıyoruz. Son olarak, Evrensel Cümle Kodlayıcıyı (USE; [12]) kullanarak altyazılardan ve senaryo sahnelerinden metinsel özellikleri [42] çıkarıyoruz.  Değerlendirme yapabilmek için filmdeki hangi karelerin fragmana değer olup olmadığını bilmemiz gerekiyor. Bunu ilgili fragmanı çekimlere bölerek ve her çekim için filmdeki tüm çekimlerle görsel benzerliğini hesaplayarak yapıyoruz. En yüksek benzerlik değerlerine sahip çekimler pozitif etiketler alır (yani fragmanda yer almaları gerekir). Bununla birlikte, fragmanlar aynı zamanda filmde olmayan çekimler de içerdiğinden (örneğin, metin içeren siyah ekranlar veya yalnızca son filmde yer almayan materyaller), aynı zamanda, altında fragman çekimlerini filmle eşlemediğimiz bir eşik de belirliyoruz. çekimler. Bu sayede film çekimleri için gümüş standartta ikili etiketler oluşturuyoruz.    TRIPOD duygu ek açıklamaları içermediğinden bunun yerine, doğal dil konuşmalarında duygu ve duygu sınıflandırması için son teknoloji performansa sahip, sağduyuya dayalı bir çerçeve olan COSMIC [17] aracılığıyla gümüş standartlı etiketler elde ederiz. Spesifik olarak, Friends dizisinin bölümlerinden diyaloglar içeren ve alanımıza diğer duygu sınıflandırma veri kümelerinden daha uygun olan MELD [43] üzerinde COSMIC'i eğitiyoruz (örneğin, [9, 29]). Eğitimden sonra TRIPOD senaryoları için cümle düzeyinde duygu tahminleri üretmek üzere COSMIC'i kullanıyoruz. Bir sahnenin duygusu, cümlelerinin çoğunluğunun duygusuna karşılık gelir. TP'ler için kullanılan aynı bire çok eşlemeyi kullanarak sahneye dayalı duygu etiketlerini çekimlere yansıtıyoruz. Duygu Etiketleri  Bu makale   . arxiv'de CC BY-SA 4.0 DEED lisansı altında mevcuttur  [3] https://github.com/ppapalampidi/TRIPOD  [4] https://datashare.ed.ac.uk/handle/10283/3819  [5] http://www.cs.virginia.edu/ pc9za/research/moviescope.html  [6] https://github.com/Breakthrough/PySceneDetect

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

Bu ses hikayenin orijinal dilinde üretilmiştir!

Görev Ayrıştırma Yoluyla Film Fragmanı Oluşturma: Deneysel Kurulum

About Author

YORUMLAR

ETİKETLERİ ASIN

BU YAZI

Related Stories

Floki'den Valhalla Hindistan'ın Sri Lanka Turuna Yardımcı Sponsor Olarak Katıldı

AI/ML Datalake için Referans Mimarisi Oluşturmaya Yönelik Mimar Kılavuzu

Claude Sonnet 3.5 Sistem Bilgi Sızıntısı: Adli Analiz

State of the Noonion: Building, Selling and Storytelling @ HackerNoon

Floki'den Valhalla Hindistan'ın Sri Lanka Turuna Yardımcı Sponsor Olarak Katıldı

AI/ML Datalake için Referans Mimarisi Oluşturmaya Yönelik Mimar Kılavuzu

Claude Sonnet 3.5 Sistem Bilgi Sızıntısı: Adli Analiz

State of the Noonion: Building, Selling and Storytelling @ HackerNoon

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps