Yazarlar:  (1) Dinesh Kumar Vishwakarma, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojisi Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan;  (2) Mayank Jindal, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojileri Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan  (3) Ayush Mittal, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojileri Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan  (4) Aditya Sharma, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojisi Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan.  Bağlantı Tablosu   Özet ve Giriş   Arka Plan ve İlgili Çalışmalar   EMTD Veri Kümesi   Önerilen yöntem   Deneyler   Sonuç ve Referanslar  5. Deneyler  Bu bölümde farklı modaliteler ve ön özellikli birleştirilmiş modeller üzerindeki çeşitli model mimarilerini inceleyeceğiz. Daha sonra çalışmamızı standart LMTD-9 veri kümesinin yanı sıra önerdiğimiz veri kümesi üzerinde de doğrulayarak doğruluyoruz. Son olarak modelimizin sağlamlığını araştırmak için karşılaştırmalı bir çalışma tartışılmaktadır. Tüm deneyler, 128 GB DDR4 RAM ve Nvidia Titan RTX (24 GB) GPU yapılandırmasına sahip GPU iş istasyonlarında gerçekleştirildi.  5.1. Veri kümeleri  Çerçevemizi doğrulamak için önerilen veri setimizi ve standart LMTD-9 [2] veri setimizi kullanıyoruz. Kapsamlı ayrıntılar şu şekilde belirtiliyor:  5.1.1. İngilizce film fragmanı veri kümesi (EMTD)  EMTD: Önerilen veri setimiz, Bölüm 3'te belirtildiği gibi tamamı IMDB'den alınan 1700 benzersiz fragmandan oluşan ayrı bir eğitim seti ve 300 benzersiz fragmandan oluşan bir doğrulama seti içerir.  5.1.2. Etiketli film fragmanı veri kümesi (LMTD-9)  LMTD [16], [20], fragman bağlantısı, fragman meta verileri, konu/özet, 22 farklı etikete/türe ait yaklaşık 9 bin film fragmanından oluşan benzersiz fragman kimliğini içeren çok etiketli, büyük ölçekli bir film fragmanı veri kümesidir. Doğrulama amacıyla LMTD-9'un [2] yalnızca 1980'den sonra piyasaya sürülen Hollywood fragmanlarını ve tür listemize özgü fragmanları içeren bir doğrulama seti (alt bölümü) kullanılır. Veri kümesi, farklı video kalitesi ve en boy oranlarına sahip, değişen uzunluklarda fragmanlar içerir.  5.2. Farklı modellerde sınıflandırma sonuçları  Bu bölümde farklı çerçeve varyasyonları ile deneylerimizi tartışacağız. Ayrı modalitelere ve önceden birleştirilmiş özelliklere dayalı 3 farklı çerçeveyle denemeler yaptık.    Video karelerindeki tek Durum tabanlı özellikleri dikkate alan model. MS (Video kareleri analizi):    Sesteki diyalogları ve meta verilerdeki açıklamaları özellik olarak dikkate alan model. MD (Diyaloglar-meta veri analizi):    Video karelerindeki duruma dayalı özellikleri, sesteki diyalogları ve meta verilerdeki açıklamaları özellik olarak dikkate alan model.  MSD (Çok modlu analiz):  MSD için Bölüm 4.2.3'te önerilen ve önceden kaynaştırılmış özelliklere sahip mimari kullanılır. Ancak girdi yapısı biraz değiştirildi. Bölüm 4.4'te tanımlanan derlem MSD için kullanılır. LMTD-9 ve EMTD'de MSD için Hassasiyet, Geri Çağırma ve F1 puanı Tablo 5'te gösterilmektedir. Bununla birlikte, MSD'nin MS ve MD ile AU (PRC) karşılaştırması bir sonraki bölümde tartışılacaktır.  Farklı türlerin performansları arasında bazı farklılıklar görülebilir. Ana türlere ait fragmanların çoğu hassas bir şekilde sınıflandırılıyor (F1 puanı 0,84 ve üzeri), bu da önerilen modelin iyi performans gösterdiğini gösteriyor. Aksiyon türü, EMTD ve LMTD-9'da sırasıyla 0,88 ve 0,89'luk F1 puanıyla beş tür arasında en iyi performans gösteren tür oldu. Romantizm türünün F1 puanı açısından tüm türler arasında en az performans gösteren tür olduğu görüldü. Her iki türe de mutlu, gülümse, gülmek vb. benzer kelimelerin hakim olması nedeniyle birçok romantik tür fragmanının yanlışlıkla komedi olarak sınıflandırıldığı gözlemleniyor.   5.3. Avustralya (PRC) Karşılaştırması  AU (PRC), yani kesinlik-geri çağırma eğrisinin altındaki alan, çok etiketli sınıflandırma problemiyle uğraştığımız için sınıflandırma sonuçlarımızı karşılaştırmak için hesaplanır. AU (PRC) ölçümü, çok etiketli veri kümesindeki sınıf dengesizliğinden kaynaklanan gürültü etkisini telafi ederek modelimizin gerçek performansını karşılaştırmaya yardımcı olur. AU (PRC) eğrileri, Şekil 5, Şekil 6 ve Şekil 7'de gösterildiği gibi her iki veri kümesindeki 3 modelin tümü için oluşturulmuştur. EMTD doğrulama kümesinde neredeyse benzer AU (PRC) değerleri bulduk: %92, MSD, MD ve MS'te sırasıyla %91 ve %88. Bununla birlikte, MSD'mizin LMTD9 veri kümesinde %82 AU (PRC) değerlerini verdiğini bulduk; bu değer diğer iki modelden, yani Tablo 6'da olduğu gibi sırasıyla MD ve MS'in %72 ve %80 AU (PRC)'sinden daha yüksektir.   Ancak çalışmamız kapsamında denediğimiz diğer bazı modellerle genel karşılaştırma yapmak için sonuçlarını Tablo 6'da belirtiyoruz. En iyi mimariyi seçmek için modeller her iki doğrulama veri setinde AU (PRC) açısından karşılaştırılıyor. Özellikler Model Veri Kümesinin uygulanması EMTD LMTD-9 Diyalog (MD) E-Bi LSTM 0,87 0,66 ECnet 0,91 0,72 Durum (MS) ECnet 0,86 0,75 TFAnet 0,88 0,80 Birleştirilmiş Özellikler (MSD) ECnet 0,92 0,82 bahsedilen tüm modeller, Birleştirilmiş özellikler için en iyi model. Her ne kadar MD, EMTD'de ancak LMTD-9'da MSD ile karşılaştırılabilir AU (PRC) değerlerine sahip olsa da, MSD MD'den daha iyi performans göstermiştir. LMTD-9'daki MS için de durum benzerdir. MSD her iki veri setinde de eş zamanlı olarak iyi performans gösterirken, MS ve MD için ayrı ayrı durum doğru değildir. Böylece, çapraz veri kümesi doğrulamasıyla MSD'nin daha sağlam olduğu kanıtlanır. Önerilen MSD'nin en iyi performans gösteren model olduğu sonucuna vardık.  5.4. Temel karşılaştırma  Bu bölümde, Tablo 7'de gösterildiği gibi her tür için ayrı ayrı AU (PRC) metriğini kullanarak film türü sınıflandırmasına yönelik önceki yaklaşımlarla en son teknoloji karşılaştırmasını yaparak, önerdiğimiz modelin performansını doğruluyoruz. Tablo 7'de belirtilen tüm sonuçlar 7, iki ondalık basamağa kadar gösterilir ve Fish ve diğerleri hariç standart LMTD-9 veri setini temel alır. al. [22], sonuçları MMX trailer-20 veri setine dayanmaktadır. Çalışmasında romantizm türünü dikkate almamaktadır. Ancak diğer türler için Fish et. al [22] ve MSD kayda değerdir. MSD ortalama %20 oranında daha iyi performans gösteriyor. Düşük seviyeli görsel özelliklere dayalı sınıflandırma [23] 24 düşük seviyeli görsel özelliğe dayanmaktadır, SAS-MC-v2 [24] yalnızca fragman sınıflandırması için özeti kullanır, Fish et. al. [22] ve CTT-MMC-TN [25] üst düzey özelliklere dayanmaktadır. Düşük seviyeli özellik yaklaşımlarıyla karşılaştırıldığında [23], [24], MSD ortalama olarak %10 oranında daha iyi performans gösterir ve yüksek seviyeli özellikler kullanan yaklaşımlarla karşılaştırıldığında [22], [25], ortalama olarak %8 oranında daha iyi performans gösterir her tür için. Komedi türünün diğer dört türe göre çoğu eserde iyi performans gösterdiği, bilim kurgunun ise nispeten daha düşük AU (PRC) değerlerine sahip olduğu görülmektedir. Bunun nedeni, bilimkurgu türünün özellikleri diğer bazı benzer türlerle (aksiyon gibi) örtüştüğünden, bilimkurgu türünde uygun bir ayrımın bulunmamasından kaynaklanıyor olabilir.   Karşılaştırmalı çalışma, önerilen modelin mevcut yaklaşımlardan daha iyi performans gösterdiği ve mükemmel sonuçlar verdiği için sağlam olduğunu göstermektedir. Daha iyi performans, önerilen mimarinin hem bilişsel hem de duygusal özellikleri içermesi, modelin her türün önemli özelliklerini öğrenmesine yardımcı olması ve dolayısıyla türleri daha kesin bir şekilde tahmin etmesi nedeniyledir.  Bu makale   . arxiv'de CC BY-NC-SA 4.0 DEED lisansı altında mevcuttur

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

Bu ses hikayenin orijinal dilinde üretilmiştir!

Durum ve Diyaloğa Dayalı Derin Ağların Çok Düzeyli Profilinin Oluşturulması: Deneyler

About Author

YORUMLAR

ETİKETLERİ ASIN

BU YAZI

Related Stories

Dijital Göçebeler Dinleyin: Tayland'ın Yeni DTV Vizesi Hakkında Bilmeniz Gerekenler

HackerNoon Kendi Ana Dilinizde 🆕 ‼️ Teknoloji Blog Yazıları için 77 Dil Ana Sayfası

HackerNoon Yazma Yarışmasını mı Kazanmak İstiyorsunuz? İşte #crypto-api Yarışması Kazananlarının Önerileri

State of the Noonion: Building, Selling and Storytelling @ HackerNoon

Dijital Göçebeler Dinleyin: Tayland'ın Yeni DTV Vizesi Hakkında Bilmeniz Gerekenler

HackerNoon Kendi Ana Dilinizde 🆕 ‼️ Teknoloji Blog Yazıları için 77 Dil Ana Sayfası

HackerNoon Yazma Yarışmasını mı Kazanmak İstiyorsunuz? İşte #crypto-api Yarışması Kazananlarının Önerileri

State of the Noonion: Building, Selling and Storytelling @ HackerNoon

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps