Yazarlar:
(1) Zhihang Ren, Kaliforniya Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);
(2) Jefferson Ortega, California Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);
(3) Yifan Wang, California Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);
(4) Zhimin Chen, Kaliforniya Üniversitesi, Berkeley (E-posta: [email protected]);
(5) Yunhui Guo, Dallas'taki Texas Üniversitesi (E-posta: [email protected]);
(6) Stella X. Yu, Kaliforniya Üniversitesi, Berkeley ve Michigan Üniversitesi, Ann Arbor (E-posta: [email protected]);
(7) David Whitney, Kaliforniya Üniversitesi, Berkeley (E-posta: [email protected]).
Son zamanlarda CAER [33] ve EMOTIC [32] gibi hem yüz hem de bağlam bilgisini içeren çerçeveler sağlayan çeşitli veri kümeleri ortaya çıkmıştır. CAER [33], her video karesinin kategorik etiketlerini içeren video tabanlı bir veri kümesidir ve EMOTIC [32], hem kategorik ifade etiketlerini hem de sürekli değerlik-uyarılma-baskınlık derecelendirmelerini içeren görüntü tabanlı bir veri kümesidir. Bu veri kümelerinden farklı olarak veri kümemiz video tabanlıdır ve sürekli değerlik ve uyarılma derecelendirmeleri içerir. Veri setimizin önceki veri setleriyle ayrıntılı bir karşılaştırması Tablo 1'de bulunabilir.
Çeşitli duygu veri setlerine dayanarak, duyguların otomatik olarak nasıl çıkarılacağına yönelik çalışmalar yapılmaya başlandı. İnsan etkisi, işitsel [70, 68, 65], görsel [40, 54, 55, 37] ve metin [68, 22] gibi birçok yöntemden çıkarılabilir. Özellikle görsel girdiler için üç ana görev vardır.
Değerlik-uyarılma tahmin görevi, her görüntünün/karenin değerliliğini ve uyarılmasını tahmin etmeyi amaçlamaktadır [71, 69, 29, 30]; ifade tanıma görevi her görüntünün/karenin duygusal kategorilerini sınıflandırmaya odaklanır [66, 57, 67]; ve eylem birimi (AU) algılama görevi, her görüntünün/karenin yüzlerinden yüz kas hareketlerini algılamayı amaçlamaktadır [25, 56, 35, 64]. Şu anda önerilen yöntemlerin çoğu, duygusal durumu anlamak için büyük ölçüde yüz bölgesine güveniyor. Gerçekten de yüz bölgesi insanın duygusal durumu hakkında zengin bilgiler içermektedir. Bununla birlikte bağlamsal faktörler aynı zamanda insanların başkalarının duygusal durumlarını doğru bir şekilde çıkarması ve algılaması için gerekli olan temel bilgileri de sağlar [8, 9, 10]. Birçok çalışma [33, 32, 40] bağlam bilgisini duygulanım çıkarımının kaynağı olarak dahil etmeye başlamıştır. Bu çalışmada, yeni görevi gerçekleştirmek, yani her video karesi için değer ve uyarılma sonucunu çıkarmak için hem yüz hem de bağlam bilgilerini de benimsedik.
Bir kişinin etkisini anlamak için genellikle ses bölümlerinin, video karelerinin veya kelimelerin zamansal bilgileriyle ilgilenmemiz gerekir. Birçok çalışma [68, 69, 29, 30] uzun kısa süreli hafızayı (LSTM) [23], geçitli tekrarlayan birimi (GRU) [11] veya tekrarlayan sinir ağını (RNN) [24, 50] kullanmaya başlamıştır. zamansal bilgi. Görsel transformatörün (ViT) [14] ortaya çıkmasıyla dikkatler değişti. Birçok video anlama görevi [19, 1, 36], zamansal bilgilerin anlaşılması ve en son teknolojiye sahip performansın elde edilmesi için ViT'yi kullanmıştır. Temel yöntemimiz ayrıca ViT'yi video kliplerdeki zamansal bilgileri işlemek için bir araç olarak benimsemiştir.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .