paint-brush
VEATIC: Bağlam Veri Kümesinde Video Tabanlı Duygu ve Duygu Takibi: VEATIC Veri Kümesiile@kinetograph

VEATIC: Bağlam Veri Kümesinde Video Tabanlı Duygu ve Duygu Takibi: VEATIC Veri Kümesi

Çok uzun; Okumak

Bu yazıda araştırmacılar, insan etkisinin tanınması için VEATIC veri setini tanıtıyor, mevcut veri setlerindeki sınırlamaları ele alıyor ve bağlama dayalı çıkarımı mümkün kılıyor.
featured image - VEATIC: Bağlam Veri Kümesinde Video Tabanlı Duygu ve Duygu Takibi: VEATIC Veri Kümesi
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur.

Yazarlar:

(1) Zhihang Ren, Kaliforniya Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);

(2) Jefferson Ortega, California Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);

(3) Yifan Wang, California Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);

(4) Zhimin Chen, Kaliforniya Üniversitesi, Berkeley (E-posta: [email protected]);

(5) Yunhui Guo, Dallas'taki Texas Üniversitesi (E-posta: [email protected]);

(6) Stella X. Yu, Kaliforniya Üniversitesi, Berkeley ve Michigan Üniversitesi, Ann Arbor (E-posta: [email protected]);

(7) David Whitney, Kaliforniya Üniversitesi, Berkeley (E-posta: [email protected]).

Bağlantı Tablosu

3. VEATIC Veri Kümesi

Bu bölümde Bağlam Veri Kümesinde Video Tabanlı Duygu ve Duygu Takibini ( VEATIC ) tanıtıyoruz. Öncelikle tüm video klipleri nasıl elde ettiğimizi anlatıyoruz. Daha sonra veri açıklama prosedürlerini ve ön işleme sürecini gösteriyoruz. Son olarak önemli veri seti istatistiklerini raporluyor ve veri analizi sonuçlarını görselleştiriyoruz.

3.1. Video Klip Edinimi

Veri setinde kullanılan tüm video klipler çevrimiçi bir video paylaşım web sitesinden (YouTube) alınmıştır ve video klipler, kliplerdeki karakterlerin duygularının/duygulanımlarının zaman içinde değişmesi gerektiği temel alınarak seçilmiştir. VEATIC veri seti toplamda 124 video klip, Hollywood filmlerinden 104 klip, ev videolarından 15 klip ve belgesellerden veya reality TV şovlarından 5 klip içeriyor. VEATIC veri kümesinden örnek çerçeveler (Şekil 2)'de gösterilmektedir. Bu videolar sıfır ila birden fazla etkileşimli karakter içerir. Videolardan tüm sesler kaldırıldı, böylece gözlemciler yalnızca hedef karakterin duygusunu takip ederken görsel bilgilere erişebildi.


Şekil 2. VEATIC'teki video karelerine genel bakış. Veri setimizdeki 5 videodan 4 ana kareyi örnekledik. Video kliplerin kaynağının benzersiz olduğu diğer veri kümelerinin aksine VEATIC'in video klipleri farklı kaynaklardan gelir. Bunlar Hollywood filmlerini, belgesellerini ve ev yapımı videoları içerir. Böylece veri setimiz üzerinde eğitilen modelin daha fazla genelleme yeteneğine sahip olmasını sağlayacaktır. Görsel girdi için VEATIC, farklı arka planlar, aydınlatma koşulları, karakter etkileşimleri vb. dahil olmak üzere çeşitli bağlam bilgileri içerir. Veri setini günlük yaşamımızı daha iyi temsil eder hale getirir. Son olarak, seçilen karakterin duygusu/duygusu her video klipte çok fazla değişiklik gösteriyor, bu da karakterin etkisini VEATIC'te modellemeyi daha zorlu hale getiriyor.

3.2. Veri Açıklaması ve Ön İşleme

Toplamda veri setindeki videoların ek açıklamalarına katılan 192 gözlemcimiz vardı. Tüm katılımcılar, UC Berkeley Kurumsal İnceleme Kurulunun kurallarına ve düzenlemelerine uygun olarak imzalı onay verdi ve tüm deneysel prosedürler onaylandı.


Katılımcılar veri setindeki toplam 124 videoyu izledi ve derecelendirdi. Gözlemcilerin yorulmasını önlemek için açıklama prosedürünü 1 saatlik ve 30 dakikalık iki açıklama oturumuna ayırdık. Katılımcılar herhangi bir videoya açıklama ekleyebilmeden önce, onlara Bradley ve Lang (1999) [6] tarafından sağlanan derecelendirmelere göre ızgaranın farklı yerlerinde etiketlenmiş örnek duyguların yer aldığı değerlik-uyarılma etki derecelendirme tablosunun basılı bir versiyonu gösterildi. Açıklamacılara, daha sonra açıklama sürecinde kullanacakları boyutlar ve örnek kelime konumları hakkında bilgi sahibi olmaları talimatı verildi. Katılımcılar duygu derecelendirme tablosuna aşina olduktan sonra, bir videodaki hedef karakterin değerini ve uyarılmasını sürekli olarak izledikleri iki dakikalık bir pratik açıklamasını tamamladılar (Şekil 3b). Ek açıklamacılara, fare işaretçilerini 2B değerlik-uyarılma ızgarası içinde gerçek zamanlı olarak sürekli hareket ettirerek videodaki hedef karakterin değerini ve uyarılmasını izlemeleri talimatı verildi. Izgara onların değerlik ve uyarılma derecelerini [−1, 1] aralığında eşleştirecektir. Potansiyel motor yanlılıkları kontrol etmek için, katılımcılar arasındaki değerlik-uyarılma boyutlarını dengeledik; açıklama yapanların yarısının x ekseninde değerlik ve y ekseninde uyarılmaya sahip olduğu ve diğer yarısının ise uyarılma x ekseninde olacak şekilde boyutlar ters çevrilmiş olduğu şekilde dengeledik. -ekseni ve değerlik y eksenindeydi. Gözlemciler uygulama açıklama oturumunu bitirdikten sonra veri kümesindeki videolara açıklama eklemeye başladılar.


Şekil 3. Video açıklaması için kullanılan kullanıcı arayüzü. a) Katılımcılara öncelikle hedef karakter gösterildi ve her video başlamadan önce görev talimatları hatırlatıldı. b) Gözlemciler videolara açıklama eklerken mevcut olan üst üste bindirilmiş değerlik ve uyarılma tablosu. Gözlemcilere videodaki hedef karakterin duygularını gerçek zamanlı olarak sürekli olarak derecelendirmeleri talimatı verildi. Gözlemciler farelerini 10 saniyeden fazla hareket ettirmezlerse yanıt derecelendirme tablosu, gözlemciye duyguyu sürekli olarak derecelendirmesini hatırlatmak için yanıp sönüyordu.


Katılımcılara ek açıklamalara başlamadan önce, katılımcılara video başladığında hangi karakteri izleyeceklerini bildiren, hedef karakterin daire içine alındığı bir resim gösterildi (Şekil 3a). Daha sonra video kliplere gerçek zamanlı olarak açıklamalar eklediler. Her video açıklamasının sonunda katılımcılar, "Tanıdık değil", "Biraz tanıdık", "Biraz tanıdık", "Orta derecede tanıdık" ve "Son derece tanıdık" arasında değişen 1-5 ayrık Likert ölçeği kullanarak video klibe aşinalıklarını bildirdiler. aşina". Katılımcılara ayrıca 1 (Keyifli Değil) ile 9 (Son Derece Keyifli) arasında değişen 1-9 ayrık Likert ölçeği kullanılarak derecelendirilen klibi izlerken aldıkları keyif düzeyleri de soruldu. Ayrıca katılımcıların sıkılmaması adına 124 video klibin tamamı iki oturuma bölündü. Katılımcılar video klipleri iki oturumda ayrı ayrı derecelendirdiler.


Her deneme sırasında, fare işaretçisini herhangi bir konumda tuttukları süreyi takip ederek katılımcıların dikkat edip etmediğini değerlendirdik. Süre 10 saniyeden uzun olsaydı, etki derecelendirme tablosu dalgalanmaya başlayacaktı ve bu da katılımcılara hedef karakterin duygusunu izlemeye devam etmelerini hatırlatıyordu. Veri setimizde herhangi bir gürültülü açıklayıcı olup olmadığını değerlendirmek için, her bir açıklayıcı ile bir tanesini dışarıda bırakma konsensüsü (mevcut açıklayıcı dışındaki yanıtların toplamı) arasındaki Pearson korelasyonunu hesaplayarak her bir açıklayıcının fikir birliği ile uyumunu hesapladık. her video. Birini dışarıda bırakma fikir birliğine sahip tüm videolarda yalnızca bir ek açıklamacının 0,2'den düşük bir korelasyona sahip olduğunu bulduk. Yalnızca bir ek açıklayıcı eşiğimizin altına düştüğünden, videolardan herhangi bir önemli alternatif ek açıklamayı kaldırmamak amacıyla ek açıklayıcıyı veri kümesinde tutmaya karar verdik.


Şekil 4. Seçilen karakterin yakınlaştırılmış görünümüyle belirli video klipler için örnek ortalama değer ve uyarılma derecelendirmelerinin görselleştirilmesi. Değerlik ve uyarılmanın belirli ortalama derecelendirmeleriyle ilgili anahtar çerçeveleri gösteriyoruz. Karşılık gelen çerçeveler ve derecelendirmeler aynı renkte işaretlenir.

3.3. Görselleştirme ve Veri Analizi

Şekil 4, 2 farklı video klipteki örnek ortalama derecelendirmeleri ve ana kareleri göstermektedir. Açıkçası, burada hem değerlik hem de uyarılma geniş bir derecelendirme aralığına sahiptir. Ayrıca, mekansal ve/veya zamansal bağlam bilgisinin duygu tanıma görevlerinde önemli bir rol oynadığını göstermektedir. Değerlik örneğinde (üstteki şekil), dövüşün zamansal ve/veya mekansal bağlam bilgisi olmadan, son karedeki (sarı) karakterin (kadının) şaşırtıcı derecede mutlu mu yoksa şaşkın mı olduğunu anlamak zor olacaktır. Uyarılma örneğinde (alttaki şekil), seçilen karakterin yüzü olmasa bile, gözlemciler yoğun bağlam yoluyla karakterin uyarılma durumunu kolayca ve tutarlı bir şekilde çıkarabiliyorlar.


Şekil 5. Tek bir video için örnek değerlik ve uyarılma derecelendirmeleri (video 47). Şeffaf gri çizgiler, bireysel konu derecelendirmelerini gösterir ve yeşil çizgi, katılımcılar arasındaki ortalama derecelendirmeyi gösterir.


Şekil 5, veri setimizdeki tek bir video için tüm katılımcıların örnek değerlik ve uyarılma derecelerini göstermektedir. Bireysel deneğin derecelendirmeleri (gri çizgiler), hem değerlik hem de uyarılma derecelendirmeleri için katılımcılar arasındaki fikir birliği derecelendirmelerini (yeşil çizgi) takip etti. Yeşil konsensüs çizgisinin etrafında örtüşen yoğun gri çizgi, geniş bir gözlemci yelpazesi arasındaki anlaşmaları gösterir. Ek olarak, her video için gözlemciler arasındaki standart sapmayı hesaplayarak, gözlemcilerin tepkilerinin videolar arasında nasıl değiştiğini araştırdık. Hem valans hem de uyarılma boyutları için gözlemciler arasındaki varyansın küçük olduğunu, valansın ortalama standart sapması µ = 0,248 ve medyanı 0,222 ve uyarılmanın ortalama standart sapması µ = 0,248 ve medyanı 0,244 olan küçük olduğunu bulduk. EMOTIC'in değerlik ve uyarılma derecesi varyansı ile karşılaştırılabilir [32].


Tüm videolarımız genelinde değerlik ve uyarılma derecelendirmelerinin dağılımı Şekil 6'da gösterilmektedir. Bireysel katılımcı derecelendirmelerinin, VEATIC veri kümesinin çeşitliliğini vurgulayan hem değerlik hem de uyarılma boyutlarına tamamen dağıldığını gördük. Ayrıca katılımcılar arasında her video için aşinalık ve keyif puanlarını da topladık (Şekil 7'de gösterilmektedir). 0-97 arasındaki video kimlikleri için ortalama aşinalık derecesi 1,61 olduğundan, gözlemcilerin veri setinde kullanılan videolara aşina olmadıklarını tespit ettik. Ek olarak, gözlemciler videoları izlerken aldıkları keyfi 0-97 video kimlikleri için ortalama 4,98 olarak derecelendirdiler; bu da gözlemcilerin video klipleri izlemekten ve video kliplere açıklama eklemekten orta derecede keyif aldıklarını gösteriyor. Bu videolara ilişkin ek açıklamalar, bu derecelendirmeleri içermeyen veri toplama sırasında daha erken bir zaman noktasında toplandığından, 98-123 numaralı video kimlikleri için aşinalık ve keyif derecelendirmeleri toplanmamıştır.


Şekil 6. Katılımcılar arasında değerlik ve uyarılma derecelerinin dağılımı. Tek tek beyaz noktalar, Hollywood filmleri için her bir video klibin sürekli derecelendirmelerinin ortalama değerini ve heyecanını temsil eder. Mavi kareler ve yeşil üçgenler sırasıyla belgeseller ve ev videoları için ortalama değer ve uyarılmayı temsil ediyor. Derecelendirmeler 0,02 aralıklara bölündü ve her bir bölmedeki toplam veri noktası sayısı sayıldı.


Şekil 7. 0-97 arası video kimlikleri için videolardaki aşinalık ve keyif derecelendirmeleri. Dikey siyah çizgiler 1 SD'yi gösterir.


Aşağıdaki Tablo 2 VEATIC veri setinin temel istatistiklerini özetlemektedir. Özetle VEATIC, uzun bir toplam video klip süresine ve çok çeşitli bağlamları ve duygusal koşulları kapsayan çeşitli video kaynaklarına sahiptir. Üstelik önceki veri kümeleriyle karşılaştırıldığında, derecelendirmelere açıklama eklemek için çok daha fazla katılımcıyı işe aldık.


Tablo 2. VEATIC Veri Kümesinin İstatistikleri.