paint-brush
Durum ve Diyaloğa Dayalı Derin Ağların Çok Düzeyli Profilinin Oluşturulması: Deneylerile@kinetograph

Durum ve Diyaloğa Dayalı Derin Ağların Çok Düzeyli Profilinin Oluşturulması: Deneyler

Çok uzun; Okumak

Bu makalede araştırmacılar, film türü sınıflandırması için durum, diyalog ve meta veri özelliklerinden yararlanan çok modlu bir çerçeve önermektedir.
featured image - Durum ve Diyaloğa Dayalı Derin Ağların Çok Düzeyli Profilinin Oluşturulması: Deneyler
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Yazarlar:

(1) Dinesh Kumar Vishwakarma, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojisi Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan;

(2) Mayank Jindal, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojileri Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan

(3) Ayush Mittal, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojileri Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan

(4) Aditya Sharma, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojisi Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan.

Bağlantı Tablosu

5. Deneyler

Bu bölümde farklı modaliteler ve ön özellikli birleştirilmiş modeller üzerindeki çeşitli model mimarilerini inceleyeceğiz. Daha sonra çalışmamızı standart LMTD-9 veri kümesinin yanı sıra önerdiğimiz veri kümesi üzerinde de doğrulayarak doğruluyoruz. Son olarak modelimizin sağlamlığını araştırmak için karşılaştırmalı bir çalışma tartışılmaktadır. Tüm deneyler, 128 GB DDR4 RAM ve Nvidia Titan RTX (24 GB) GPU yapılandırmasına sahip GPU iş istasyonlarında gerçekleştirildi.

5.1. Veri kümeleri

Çerçevemizi doğrulamak için önerilen veri setimizi ve standart LMTD-9 [2] veri setimizi kullanıyoruz. Kapsamlı ayrıntılar şu şekilde belirtiliyor:

5.1.1. İngilizce film fragmanı veri kümesi (EMTD)

EMTD: Önerilen veri setimiz, Bölüm 3'te belirtildiği gibi tamamı IMDB'den alınan 1700 benzersiz fragmandan oluşan ayrı bir eğitim seti ve 300 benzersiz fragmandan oluşan bir doğrulama seti içerir.

5.1.2. Etiketli film fragmanı veri kümesi (LMTD-9)

LMTD [16], [20], fragman bağlantısı, fragman meta verileri, konu/özet, 22 farklı etikete/türe ait yaklaşık 9 bin film fragmanından oluşan benzersiz fragman kimliğini içeren çok etiketli, büyük ölçekli bir film fragmanı veri kümesidir. Doğrulama amacıyla LMTD-9'un [2] yalnızca 1980'den sonra piyasaya sürülen Hollywood fragmanlarını ve tür listemize özgü fragmanları içeren bir doğrulama seti (alt bölümü) kullanılır. Veri kümesi, farklı video kalitesi ve en boy oranlarına sahip, değişen uzunluklarda fragmanlar içerir.

5.2. Farklı modellerde sınıflandırma sonuçları

Bu bölümde farklı çerçeve varyasyonları ile deneylerimizi tartışacağız. Ayrı modalitelere ve önceden birleştirilmiş özelliklere dayalı 3 farklı çerçeveyle denemeler yaptık.


  • MS (Video kareleri analizi): Video karelerindeki tek Durum tabanlı özellikleri dikkate alan model.


  • MD (Diyaloglar-meta veri analizi): Sesteki diyalogları ve meta verilerdeki açıklamaları özellik olarak dikkate alan model.


  • MSD (Çok modlu analiz): Video karelerindeki duruma dayalı özellikleri, sesteki diyalogları ve meta verilerdeki açıklamaları özellik olarak dikkate alan model.





MSD için Bölüm 4.2.3'te önerilen ve önceden kaynaştırılmış özelliklere sahip mimari kullanılır. Ancak girdi yapısı biraz değiştirildi. Bölüm 4.4'te tanımlanan derlem MSD için kullanılır. LMTD-9 ve EMTD'de MSD için Hassasiyet, Geri Çağırma ve F1 puanı Tablo 5'te gösterilmektedir. Bununla birlikte, MSD'nin MS ve MD ile AU (PRC) karşılaştırması bir sonraki bölümde tartışılacaktır.


Farklı türlerin performansları arasında bazı farklılıklar görülebilir. Ana türlere ait fragmanların çoğu hassas bir şekilde sınıflandırılıyor (F1 puanı 0,84 ve üzeri), bu da önerilen modelin iyi performans gösterdiğini gösteriyor. Aksiyon türü, EMTD ve LMTD-9'da sırasıyla 0,88 ve 0,89'luk F1 puanıyla beş tür arasında en iyi performans gösteren tür oldu. Romantizm türünün F1 puanı açısından tüm türler arasında en az performans gösteren tür olduğu görüldü. Her iki türe de mutlu, gülümse, gülmek vb. benzer kelimelerin hakim olması nedeniyle birçok romantik tür fragmanının yanlışlıkla komedi olarak sınıflandırıldığı gözlemleniyor.


Şekil 5: MD için hassas geri çağırma eğrisi A) EMTD B) LMTD-9


Şekil 6: MS için hassas geri çağırma eğrisi A) EMTD B) LMTD-9


Şekil 7: Hassasiyet Geri Çağırma Eğrileri MSD A) EMTD B) LMTD-9

5.3. Avustralya (PRC) Karşılaştırması

AU (PRC), yani kesinlik-geri çağırma eğrisinin altındaki alan, çok etiketli sınıflandırma problemiyle uğraştığımız için sınıflandırma sonuçlarımızı karşılaştırmak için hesaplanır. AU (PRC) ölçümü, çok etiketli veri kümesindeki sınıf dengesizliğinden kaynaklanan gürültü etkisini telafi ederek modelimizin gerçek performansını karşılaştırmaya yardımcı olur. AU (PRC) eğrileri, Şekil 5, Şekil 6 ve Şekil 7'de gösterildiği gibi her iki veri kümesindeki 3 modelin tümü için oluşturulmuştur. EMTD doğrulama kümesinde neredeyse benzer AU (PRC) değerleri bulduk: %92, MSD, MD ve MS'te sırasıyla %91 ve %88. Bununla birlikte, MSD'mizin LMTD9 veri kümesinde %82 AU (PRC) değerlerini verdiğini bulduk; bu değer diğer iki modelden, yani Tablo 6'da olduğu gibi sırasıyla MD ve MS'in %72 ve %80 AU (PRC)'sinden daha yüksektir.


Tablo 6: Farklı modellerde AU (PRC)


Ancak çalışmamız kapsamında denediğimiz diğer bazı modellerle genel karşılaştırma yapmak için sonuçlarını Tablo 6'da belirtiyoruz. En iyi mimariyi seçmek için modeller her iki doğrulama veri setinde AU (PRC) açısından karşılaştırılıyor. Özellikler Model Veri Kümesinin uygulanması EMTD LMTD-9 Diyalog (MD) E-Bi LSTM 0,87 0,66 ECnet 0,91 0,72 Durum (MS) ECnet 0,86 0,75 TFAnet 0,88 0,80 Birleştirilmiş Özellikler (MSD) ECnet 0,92 0,82 bahsedilen tüm modeller, Birleştirilmiş özellikler için en iyi model. Her ne kadar MD, EMTD'de ancak LMTD-9'da MSD ile karşılaştırılabilir AU (PRC) değerlerine sahip olsa da, MSD MD'den daha iyi performans göstermiştir. LMTD-9'daki MS için de durum benzerdir. MSD her iki veri setinde de eş zamanlı olarak iyi performans gösterirken, MS ve MD için ayrı ayrı durum doğru değildir. Böylece, çapraz veri kümesi doğrulamasıyla MSD'nin daha sağlam olduğu kanıtlanır. Önerilen MSD'nin en iyi performans gösteren model olduğu sonucuna vardık.

5.4. Temel karşılaştırma

Bu bölümde, Tablo 7'de gösterildiği gibi her tür için ayrı ayrı AU (PRC) metriğini kullanarak film türü sınıflandırmasına yönelik önceki yaklaşımlarla en son teknoloji karşılaştırmasını yaparak, önerdiğimiz modelin performansını doğruluyoruz. Tablo 7'de belirtilen tüm sonuçlar 7, iki ondalık basamağa kadar gösterilir ve Fish ve diğerleri hariç standart LMTD-9 veri setini temel alır. al. [22], sonuçları MMX trailer-20 veri setine dayanmaktadır. Çalışmasında romantizm türünü dikkate almamaktadır. Ancak diğer türler için Fish et. al [22] ve MSD kayda değerdir. MSD ortalama %20 oranında daha iyi performans gösteriyor. Düşük seviyeli görsel özelliklere dayalı sınıflandırma [23] 24 düşük seviyeli görsel özelliğe dayanmaktadır, SAS-MC-v2 [24] yalnızca fragman sınıflandırması için özeti kullanır, Fish et. al. [22] ve CTT-MMC-TN [25] üst düzey özelliklere dayanmaktadır. Düşük seviyeli özellik yaklaşımlarıyla karşılaştırıldığında [23], [24], MSD ortalama olarak %10 oranında daha iyi performans gösterir ve yüksek seviyeli özellikler kullanan yaklaşımlarla karşılaştırıldığında [22], [25], ortalama olarak %8 oranında daha iyi performans gösterir her tür için. Komedi türünün diğer dört türe göre çoğu eserde iyi performans gösterdiği, bilim kurgunun ise nispeten daha düşük AU (PRC) değerlerine sahip olduğu görülmektedir. Bunun nedeni, bilimkurgu türünün özellikleri diğer bazı benzer türlerle (aksiyon gibi) örtüştüğünden, bilimkurgu türünde uygun bir ayrımın bulunmamasından kaynaklanıyor olabilir.


Tablo 7: Önerilen modelin AU (PRC) kullanılarak benzer son teknolojilerle karşılaştırılması


Karşılaştırmalı çalışma, önerilen modelin mevcut yaklaşımlardan daha iyi performans gösterdiği ve mükemmel sonuçlar verdiği için sağlam olduğunu göstermektedir. Daha iyi performans, önerilen mimarinin hem bilişsel hem de duygusal özellikleri içermesi, modelin her türün önemli özelliklerini öğrenmesine yardımcı olması ve dolayısıyla türleri daha kesin bir şekilde tahmin etmesi nedeniyledir.