paint-brush
Durum ve Diyaloğa Dayalı Derin Ağların Çok Düzeyli Profilinin Çıkarılması: Önerilen Metodolojiile@kinetograph
125 okumalar

Durum ve Diyaloğa Dayalı Derin Ağların Çok Düzeyli Profilinin Çıkarılması: Önerilen Metodoloji

Çok uzun; Okumak

Bu makalede araştırmacılar, film türü sınıflandırması için durum, diyalog ve meta veri özelliklerinden yararlanan çok modlu bir çerçeve önermektedir.
featured image - Durum ve Diyaloğa Dayalı Derin Ağların Çok Düzeyli Profilinin Çıkarılması: Önerilen Metodoloji
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Yazarlar:

(1) Dinesh Kumar Vishwakarma, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojisi Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan;

(2) Mayank Jindal, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojileri Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan

(3) Ayush Mittal, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojileri Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan

(4) Aditya Sharma, Biyometrik Araştırma Laboratuvarı, Bilgi Teknolojisi Bölümü, Delhi Teknoloji Üniversitesi, Delhi, Hindistan.

Bağlantı Tablosu

4. Önerilen Metodoloji

4.1. Açıklamalar

Filmin konusu/açıklamaları bir filmi tanımlamak için önemli bir özelliktir. Çoğu durumda vizyona giren bir filmin konusu ya çok kısa oluyor ya da bazı durumlarda hiç bahsedilmiyor. Bunu göz önünde bulundurarak, Bölüm 4.2'de ayrıntılı olarak tartışıldığı gibi, film türünü tahmin etmek için film fragmanlarından alınan diyaloglarla birleştirilmiş açıklamaları kullanmayı seçiyoruz. Açıklamalar, Bölüm 3'te belirtildiği gibi meta veri olarak IMDB web sitesinden alınmıştır.


Şekil 1: Çerçevenin boru hattı

4.2. Diyalog

Bu bölümde, film türlerini tahmin etmek için fragmanın sesindeki diyalogların bir listesini (birleştirilmiş açıklama/konudan diyaloglara) işleyecek bir mimari öneriyoruz. Bu akışa yönelik önemli adımlar şunları içerir: (1) Film fragmanından konuşmayı (diyalog) çıkarmak ve (2) Konuşma ve meta verilere dayanarak türleri tahmin etmek için bir model tasarlamak.

4.2.1. Veri ön işleme

(.wav) formatındaki ses dosyaları (.mp4) video fragmanlarından çıkarılır. Daha sonra ses dosyası küçük ses kliplerine bölünür ve [17]'de önerildiği gibi diyaloglara dönüştürülür. Tüm metin bir girdi külliyatı oluşturmak için toplanır. Açıklama/grafik (meta verilerde mevcutsa) da bu külliyatla birleştirilir. Çalışmamız yalnızca İngilizce dilindeki fragmanlara yöneliktir. Tıpkı film senaryoları gibi, fragmanlardan alınan konuşmalar da metin derlememize ek olarak çalışabilir, bu da metin bağlamı ile filmin türü arasındaki ilişkinin daha iyi anlaşılmasına yardımcı olabilir. Eğitim/test aşamamızda her fragman için tek bir kayıttan oluşan derlem oluşturulduktan sonra aşağıdaki ön işleme adımları gerçekleştirildi: tüm metni küçük harfe dönüştürmek, rakamları, noktalama işaretlerini, durdurulan sözcükleri ve web bağlantılarını ortadan kaldırmak. Yukarıda elde edilen metin, eğitim/test için modele/önceden eğitilmiş modele girdi olarak beslemek için kullanılır.


Tablo 2: Kısaltmalar ve anlamları

4.2.2. Özellik Çıkarma (Diyalog)


4.2.3. ECnet (Gömme – Evrişim ağı)

Bilişsel tabanlı tür tespit mimarisi oluşturmak için, fragmanın bir metin bütünü biçimindeki önemli özelliklerinin bir model tarafından öğrenilmesi gerekir. Bu, Gömme ve CNN (Evrişim Sinir Ağı) katmanlarının bir kombinasyonu kullanılarak elde edilebilir. Çoklu etiket sınıflandırma ağının katmanları Tablo 3'te gösterilmektedir. Gömme, NLP problemlerinde kelimeleri sayısal vektörler biçiminde matematiksel gösterime dönüştürmek için kullanılan popüler tekniklerden biridir.


Şekil 2: ECnet mimarisi


Girdiyi mimariye gerçekten göndermeden önce, kelime dağarcığının tasarlanması ve her veri noktası için korpus boyutunun sabitlenmesi gerekir. 10.395 kelimelik bir kelime dağarcığı tasarlanmış olup, her bir derlemdeki kelime sayısının maksimum uzunluğu, eğitim derlemimizdeki en uzun cümlenin uzunluğu olacak şekilde (bizim örneğimizde 330) ayarlanmıştır. Bir derlemdeki sözcük sayısı maksimum uzunluktan azsa, bütünce 0'larla doldurulur. 2-3 dakikalık bir film fragmanı için 330 kelime yeterli görülüyor çünkü fragmanın bazı kısımlarında konuşma olmayabilir (sadece vokal olabilir).


Şimdi giriş verilerindeki her bir derlem için, Şekil 2'deki gibi mimarimizin ilk katmanına beslenen (330,) şeklinde bir girişe sahibiz (330, her veri noktasındaki kelime sayısıdır), yani , gömme katmanı. Önerilen mimarimizde her kelime için gömme uzunluğu 64 olarak alındığından, gömme katmanı bir boyut çıktısı (330, 64) vermektedir.


Tablo 3: ECnet mimarisinin parametreleri


Gömme katmanından sonra, gömme katmanının çıktısı ile 1 boyutlu bir evrişim katmanı beslenir. Yine evrişim katmanı (330, 64,) çıktı şeklini verir. Aynı çıktıyı elde etmek için, dolguyu evrişim katmanının girişine eşit şekilde uyguluyoruz. Daha sonra, veri boyutunu (330, 64,)'den (165, 64,)'ye düşürmek için bir maksimum havuzlama katmanı kullanılır. Çıktıyı daha yoğun bir katmana göndermek için iki boyutlu veriyi tek boyutlu veriye dönüştürmek için mimariyi düzleştirilmiş bir katman takip eder.


Tablo 3'te gösterildiği gibi, düzleştirme katmanı, yoğun bir katmana girdi olarak beslenen ve (32,) şeklinde bir çıktı şekli veren (10560,) şeklinde bir çıktı verir. Son olarak, beş türümüzü ifade eden (5,) çıktı şeklini döndüren mimariye son yoğun katman uygulanır. Mimarimizin son yoğun katmanında, çoklu etiketli sınıflandırma problemimize en uygun aktivasyon fonksiyonu olarak “sigmoid”i kullanıyoruz.

4.3. Durum

Bu bölümde film fragmanlarındaki görsel özellikler üzerine önerdiğimiz çalışmalar yer almaktadır. Bu akışın temel adımları şunları içerir: (1) fragmandan video kareleri almak, (2) karelerden durumları çıkarmak ve (3) son olarak fragmanları türlere göre sınıflandırmak için mimari oluşturmak.


Görsel özellikler için videodan çıkarılan her kareye göre durum ve olaylar çıkarılarak yeni bir durum tabanlı video analiz modeli önerilmiştir. Böylece modeli eğitmek/test etmek için bunları bir araya toplayarak bir derlem oluşturulur.


Bildiğimiz kadarıyla tür sınıflandırması için durum, olay ve diyalog analizini birleştirerek yeni bir çerçeve öneriyoruz. Çerçeve hakkında daha fazla ayrıntı aşağıdaki bölümlerde açıklanmaktadır.

4.3.1. Videodan Kare Çıkarma


Bazı film fragmanları alt kümeleri kullanılarak yapılan çeşitli deneylerden sonra, karelerdeki fazlalığı önlemek için her 10❑ℎ kareyi almanın faydalı olduğu bulunmuştur (bir videodaki ardışık kareler benzer görünmektedir). Dolayısıyla, gereksiz kareler çıkarıldıktan sonra, dikkate alınan son video kareleri Denklem (1) olarak ifade edilebilir. (9):



Sonraki bölümlerde bu çerçeveleri her treyler için ele alacağız.

4.3.2. Özellik Çıkarma (Durum)


Şekil 3: Yukarıdaki çerçeveler için durumlar: (a) askerler açık havada yürüyor. (b) yüzü kanlı, ağacın yanında duran perili kadın (c) insanlar bir odada doğum gününü kutluyor. (d) bir adam yarış pistinde sprint atıyor



Ve S durumunun bir I görüntüsüne ait olma olasılığı Denklem 2'deki gibi gösterilebilir. (11).




𝛼 sinirimizin parametresini belirtir; ağ. Artık bir görüntüdeki anlamsal rolleri belirli bir sırayla tanımlayabiliriz. Böylece ayrıca Denklem. (12) Eşitliğe indirgenebilir. (13).



Denk. (13) Denklem olarak daha da basitleştirilebilir. (14).



Belirli bir görüntü/kare için, Denklem 2'de tanımlanan maksimum değer olasılığına sahip durum. (14) o görüntü için değerlendirilecek.



Artık görev, gelecek bölümlerde tartışılacağı gibi model mimarisini önerdiğimiz bir metin sınıflandırma görevine dönüştürülmüştür. Bir sonraki adıma geçmeden önce metin ön işlemesi gerçekleştirilir: Bölüm 4.2.1'de belirtildiği gibi tüm metnin küçük harfe dönüştürülmesi, rakamların, noktalama işaretlerinin ve durdurulan kelimelerin ortadan kaldırılması. Aynı adımlar, film fragmanı türünü tahmin etmek için test prosedüründe de gerçekleştirilir.

4.3.3. TFAnet (Terim Frekanslı Yapay Sinir Ağı)

Görsel özelliklerin çıkarılmasından sonra, fragmanların son türlerini sınıflandırmak için sağlam bir mimariye ihtiyaç vardır. Bu model diyalog akışında önerdiğimiz modelden farklıdır. Burada, Şekil 4'te gösterildiği gibi yoğun ve kayıp katmanlardan oluşan derin bir ağdan oluşan TFAnet (Terim Frekanslı Yapay Sinir Ağı) önerilmektedir.


Önerilen mimariye gelmeden önce, [19]'da TF-IDF kullanılarak metin gösterimini tartışacağız. Bu mimari için her veri noktasının derlemindeki kelime sayımında kullanılması önerilmektedir. Bu nedenle, film fragmanı türlerini sınıflandırmak için külliyattaki kelime sayısını özellikler olarak kullanıyoruz. Kelime dağarcığı setimize çok sayıda kelimeyi özellik olarak dahil etmek amacıyla, EMTD'mizde, modeli eğitirken yanımızda büyük bir derleme elde etmek için geniş bir yayınlanma tarihi aralığına ait fragmanlar kullanılır. Öznitelik olarak külliyatımızdan unigram, bigram ve trigramların bir kombinasyonu kullanılmış ve TF-IDF (terim frekansı-ters belge frekansı) algoritması metnimizi sayısal biçimde temsil etmektedir. Alınan toplam n-gram özellik sayısı 34.684 civarındadır. Artık metin tabanlı özelliklerimiz matematiksel forma dönüştürüldü, böylece bir sonraki (yapay sinir ağı) fragmanın türlerini sınıflandırmak için eğitildi.


Tablo 4: TFAnet'in parametreleri


TFAnet'in (Term Frekanslı Yapay Sinir Ağı) mimarisi Tablo 4'te gösterilmektedir. Yukarıda tartışıldığı gibi giriş şekli (34684,)'dir. Bu girdi, şeklin (64) çıktısını veren yoğun bir katmana verilir. Daha sonra aşırı uyumu azaltmak için 0,4 oranında bir bırakma katmanı uygulanır. Yine yoğun bir katman uygulanarak şekil çıktısı (32) ve ardından 0,2 oranında bir düşme katmanı elde ediliyor. Son olarak, bir aktivasyon fonksiyonu olarak sigmoid ile beş türü tahmin etmek için (5) şeklinde bir çıktı veren yoğun bir katman uygulanır.


Şekil 4: TFAnet Mimarisi


MSD modelinin eğitim aşamasının algoritması Algoritma 1 olarak yazılmıştır.


Test aşamasının süreci Algoritma 2 ile anlaşılabilmektedir.