paint-brush
Durum ve Diyaloğa Dayalı Derin Ağların Çok Düzeyli Profil Oluşturulması: Özet ve Girişile@kinetograph

Durum ve Diyaloğa Dayalı Derin Ağların Çok Düzeyli Profil Oluşturulması: Özet ve Giriş

Çok uzun; Okumak

Bu makalede araştırmacılar, film türü sınıflandırması için durum, diyalog ve meta veri özelliklerinden yararlanan çok modlu bir çerçeve önermektedir.
featured image - Durum ve Diyaloğa Dayalı Derin Ağların Çok Düzeyli Profil Oluşturulması: Özet ve Giriş
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Yazarlar:

(1) Dinesh Kumar Vishwakarma, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojisi Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan;

(2) Mayank Jindal, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojileri Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan

(3) Ayush Mittal, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojileri Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan

(4) Aditya Sharma, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojisi Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan.

Bağlantı Tablosu

Soyut

Otomatik film türü sınıflandırması, aktif ve önemli bir araştırma ve inceleme alanı olarak ortaya çıkmıştır. Kısa süreli film fragmanları, video içeriğinin bilişsel ve duyuşsal düzeydeki özelliklerden oluşması nedeniyle film hakkında faydalı bilgiler sağlar. Önceki yaklaşımlar ya bilişsel ya da duygusal içerik analizine odaklanıyordu. Bu yazıda, hem biliş hem de duygulanım temelli özellikleri dikkate alan yeni bir çok-modluluk: durum, diyalog ve meta veriye dayalı film türü sınıflandırma çerçevesi öneriyoruz. Aşağıdakileri hesaba katan ön özellikler füzyon tabanlı bir çerçeve: karşılık gelen türlerle faydalı duyguya dayalı eşleme sağlayan isimler ve fiiller içeren bir fragmanın düzenli anlık görüntüsünden elde edilen duruma dayalı özellikler, sesten diyalog (konuşma) tabanlı özellik, bilişsel ve duygulanım temelli video analizi için ilgili bilgileri birlikte sağlayan meta veriler. Ayrıca beş popüler türe ait 2000 Hollywood film fragmanını içeren İngilizce film fragmanı veri kümesini (EMTD) geliştiriyoruz: Aksiyon, Romantik, Komedi, Korku ve Bilim Kurgu ve doğrulama için standart LMTD-9 veri kümesi üzerinde çapraz doğrulama gerçekleştiriyoruz önerilen çerçeve. Sonuçlar, film türü sınıflandırması için önerilen metodolojinin, F1 puanları, kesinlik, geri çağırma ve kesinlik-geri çağırma eğrileri altındaki alan ile gösterildiği gibi mükemmel bir performans sergilediğini göstermektedir.


Anahtar Kelimeler: Film Türü Sınıflandırması, Evrişimli Sinir Ağı, İngilizce film fragmanı veri seti, Multimodal veri analizi.

1. Giriş

Filmler seyirciler için harika bir eğlence kaynağıdır ve toplumu birçok yönden etkiler. Bir filmin türünün manuel olarak belirlenmesi, kişinin zevkine göre değişiklik gösterebilir. Bu nedenle, otomatik film türü tahmini aktif bir araştırma ve inceleme alanıdır. Film fragmanları, filmin türlerini tahmin etmek için yararlı bir kaynak haline geliyor. Çok kısa bir sürede film hakkında faydalı bilgiler sağlıyorlar. Film fragmanları iki tür içerikten oluşur: bilişsel içerik ve duygusal içerik.


Bilişsel içerik, film fragmanının belirli bir video karesindeki olayların, nesnelerin ve kişilerin kompozisyonunu tanımlarken, Duygusal içerik, bir film fragmanındaki hisler veya duygular gibi psikolojik özelliklerin türlerini tanımlar [1]. Bilişsel içeriğe örnek olarak oyun alanı, bina, insan, köpek vb. verilebilir. Duygusal içeriğe örnek olarak mutluluk, üzüntü, öfke vb. hisler/duygular gösterilebilir. Hem bilişsel hem de duygulanım temelli içerik, öngörüde bulunmak için öne çıkan özellikler sağlar. filmin türleri.


Bu makalede, film fragmanlarının video, ses ve meta veri (konu/açıklama) içeriğini kullanarak film türlerini tahmin etmeyi amaçlayan, çok modlu durum, diyalog ve meta veriye dayalı yeni bir film türü sınıflandırma çerçevesi öneriyoruz. Roman çerçevemiz film fragmanından hem bilişsel hem de duygusal özellikleri çıkarmaya odaklanıyor. Bunu gerçekleştirmek için video karesinden ilgili isim ve fiillerden oluşan (durumlardan oluşturulan) bir cümle çıkarılır. İsimler, fragmanların bilişsel içeriği hakkında ilgili bilgileri verir ve fiiller, karşılık gelen türlerle faydalı, duyguya dayalı haritalama sağlar. Örneğin gülmek, kıkırdamak, gıdıklamak gibi fiiller 'komedi' türüyle duygulanım temelli bir eşleme sağlar. Saldırmak, dövmek, vurmak gibi fiiller 'aksiyon' türüyle duygulanım temelli bir haritalama sağlar. Durumların yanı sıra diyalog ve meta veriye dayalı özellikler, olay açıklamalarını (bilişsel içerik) ve psikolojik özellikleri (duygusal içerik) içerdiğinden bilişsel ve duygusal içeriğe de katkıda bulunur.


Tıpkı standart makine öğrenimi sürecinde olduğu gibi çalışma birden fazla aşamada gerçekleştirilir. 1. aşama, 5 popüler türe ait 2000 Hollywood film fragmanını içeren EMTD'yi oluşturduğumuz veri seti oluşturma aşamasıdır: Aksiyon, Romantik, Komedi, Korku ve Bilim Kurgu. 2. aşama, tekrarlanan tüm karelerin kaldırıldığı ve yeniden boyutlandırıldığı video fragmanlarının ön işlemesini içerir. Önemli isim ve fiilleri içeren cümleler faydalı çerçevelerden çıkarılmıştır. Fragmanlardan diyaloglar alabilmeniz için film fragmanlarının ses transkriptlerini de hazırlıyoruz. 3. aşamada, fragmanlardan önemli özellikleri çıkartan ve öğrenen önerilen mimariyi tasarlıyor ve eğitiyoruz. Son olarak 4. aşamada, önerdiğimiz mimarinin performansı PrecisionRecall Curve (AU (PRC)) metriği altında alan kullanılarak değerlendirilmektedir. Çalışmamızın önemli katkıları şunlardır:


  • Beş popüler ve farklı türe ait İngilizce Hollywood film fragmanlarını içeren yeni bir EMTD (İngilizce Film Fragmanı Veri Seti) öneriyoruz: Aksiyon, Romantik, Komedi, Korku ve Bilim Kurgu.


  • Bu çalışma, bilişsel ve duygulanım temelli özellikleri kullanarak film türlerini tahmin etmek için yeni bir yaklaşım önermektedir. Önceki literatürün hiçbiri, bilgimiz dahilinde film fragmanlarından çıkarılan diyalog, durum ve meta veriye dayalı özelliklerin bir kombinasyonuna odaklanmamıştır. Bu nedenle şunları gerçekleştiriyoruz: isimler ve fiiller kullanılarak duruma dayalı analiz, konuşma tanımayı kullanarak diyaloga dayalı analiz ve fragmanlarla birlikte sunulan meta verilerle meta veriye dayalı analiz.


  • Önerilen mimari aynı zamanda standart LMTD-9 [2] veri seti üzerinde çapraz veri seti testi yapılarak da değerlendirilir. Sonuçlar, önerilen mimarinin mükemmel performans gösterdiğini ve çerçevenin üstün performansını ortaya koyduğunu göstermektedir.


Makalenin geri kalan kısmı şu şekilde düzenlenmiştir: Bölüm 2'de, film türü sınıflandırmasına ilişkin geçmiş literatür gözden geçirilmekte ve önerilen çalışmanın arkasındaki motivasyon vurgulanmaktadır. Bölüm 3'te önerilen EMTD'yi tartışıyoruz. Bölüm 4'te önerilen mimarinin ayrıntılı bir tanımını sunuyoruz. Bölüm 5'te, önerilen çerçevenin performansını değerlendirip iki farklı veri kümesine göre doğrulayacağız. Makale 6. Bölümde sonlandırılmaktadır.