paint-brush
VEATIC: Bağlam Veri Kümesinde Video Tabanlı Duygu ve Etki Takibi: İlgili Çalışmaile@kinetograph
196 okumalar

VEATIC: Bağlam Veri Kümesinde Video Tabanlı Duygu ve Etki Takibi: İlgili Çalışma

Çok uzun; Okumak

Bu yazıda araştırmacılar, insan etkisinin tanınması için VEATIC veri setini tanıtıyor, mevcut veri setlerindeki sınırlamaları ele alıyor ve bağlama dayalı çıkarımı mümkün kılıyor.
featured image - VEATIC: Bağlam Veri Kümesinde Video Tabanlı Duygu ve Etki Takibi: İlgili Çalışma
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

Yazarlar:

(1) Zhihang Ren, Kaliforniya Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);

(2) Jefferson Ortega, California Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);

(3) Yifan Wang, California Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);

(4) Zhimin Chen, Kaliforniya Üniversitesi, Berkeley (E-posta: [email protected]);

(5) Yunhui Guo, Dallas'taki Texas Üniversitesi (E-posta: [email protected]);

(6) Stella X. Yu, Kaliforniya Üniversitesi, Berkeley ve Michigan Üniversitesi, Ann Arbor (E-posta: [email protected]);

(7) David Whitney, Kaliforniya Üniversitesi, Berkeley (E-posta: [email protected]).

Bağlantı Tablosu

2. İlgili çalışma

Son zamanlarda CAER [33] ve EMOTIC [32] gibi hem yüz hem de bağlam bilgisini içeren çerçeveler sağlayan çeşitli veri kümeleri ortaya çıkmıştır. CAER [33], her video karesinin kategorik etiketlerini içeren video tabanlı bir veri kümesidir ve EMOTIC [32], hem kategorik ifade etiketlerini hem de sürekli değerlik-uyarılma-baskınlık derecelendirmelerini içeren görüntü tabanlı bir veri kümesidir. Bu veri kümelerinden farklı olarak veri kümemiz video tabanlıdır ve sürekli değerlik ve uyarılma derecelendirmeleri içerir. Veri setimizin önceki veri setleriyle ayrıntılı bir karşılaştırması Tablo 1'de bulunabilir.


Çeşitli duygu veri setlerine dayanarak, duyguların otomatik olarak nasıl çıkarılacağına yönelik çalışmalar yapılmaya başlandı. İnsan etkisi, işitsel [70, 68, 65], görsel [40, 54, 55, 37] ve metin [68, 22] gibi birçok yöntemden çıkarılabilir. Özellikle görsel girdiler için üç ana görev vardır.


Tablo 1. VEATIC veri setinin mevcut duygu tanıma veri setleriyle karşılaştırılması. VEATIC çok miktarda video klip ve uzun bir video toplam süresi içerir. Sürekli değerlik ve uyarılma açıklamalarına sahip ilk büyük bağlama duyarlı duygu tanıma video veri kümesidir. VEATIC ayrıca diğer bağlama duyarlı duygu tanıma video veri kümelerine kıyasla çok daha fazla açıklayıcıya sahiptir. (*: Karışık, hem sürekli hem de kategorik açıklamaları içeren anlamına gelir.)


Değerlik-uyarılma tahmin görevi, her görüntünün/karenin değerliliğini ve uyarılmasını tahmin etmeyi amaçlamaktadır [71, 69, 29, 30]; ifade tanıma görevi her görüntünün/karenin duygusal kategorilerini sınıflandırmaya odaklanır [66, 57, 67]; ve eylem birimi (AU) algılama görevi, her görüntünün/karenin yüzlerinden yüz kas hareketlerini algılamayı amaçlamaktadır [25, 56, 35, 64]. Şu anda önerilen yöntemlerin çoğu, duygusal durumu anlamak için büyük ölçüde yüz bölgesine güveniyor. Gerçekten de yüz bölgesi insanın duygusal durumu hakkında zengin bilgiler içermektedir. Bununla birlikte bağlamsal faktörler aynı zamanda insanların başkalarının duygusal durumlarını doğru bir şekilde çıkarması ve algılaması için gerekli olan temel bilgileri de sağlar [8, 9, 10]. Birçok çalışma [33, 32, 40] bağlam bilgisini duygulanım çıkarımının kaynağı olarak dahil etmeye başlamıştır. Bu çalışmada, yeni görevi gerçekleştirmek, yani her video karesi için değer ve uyarılma sonucunu çıkarmak için hem yüz hem de bağlam bilgilerini de benimsedik.


Bir kişinin etkisini anlamak için genellikle ses bölümlerinin, video karelerinin veya kelimelerin zamansal bilgileriyle ilgilenmemiz gerekir. Birçok çalışma [68, 69, 29, 30] uzun kısa süreli hafızayı (LSTM) [23], geçitli tekrarlayan birimi (GRU) [11] veya tekrarlayan sinir ağını (RNN) [24, 50] kullanmaya başlamıştır. zamansal bilgi. Görsel transformatörün (ViT) [14] ortaya çıkmasıyla dikkatler değişti. Birçok video anlama görevi [19, 1, 36], zamansal bilgilerin anlaşılması ve en son teknolojiye sahip performansın elde edilmesi için ViT'yi kullanmıştır. Temel yöntemimiz ayrıca ViT'yi video kliplerdeki zamansal bilgileri işlemek için bir araç olarak benimsemiştir.