Yazarlar:
(1) Zhihang Ren, Kaliforniya Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);
(2) Jefferson Ortega, California Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);
(3) Yifan Wang, California Üniversitesi, Berkeley ve bu yazarlar bu çalışmaya eşit katkıda bulunmuşlardır (E-posta: [email protected]);
(4) Zhimin Chen, Kaliforniya Üniversitesi, Berkeley (E-posta: [email protected]);
(5) Yunhui Guo, Dallas'taki Texas Üniversitesi (E-posta: [email protected]);
(6) Stella X. Yu, Kaliforniya Üniversitesi, Berkeley ve Michigan Üniversitesi, Ann Arbor (E-posta: [email protected]);
(7) David Whitney, Kaliforniya Üniversitesi, Berkeley (E-posta: [email protected]).
İnsan etkisinin tanınması psikofizik ve bilgisayarlı görmede önemli bir konu olmuştur. Ancak şu anda yayınlanan veri kümelerinin birçok sınırlaması vardır. Örneğin çoğu veri kümesi yalnızca yüz ifadeleriyle ilgili bilgileri içeren çerçeveler içerir. Önceki veri kümelerinin sınırlamaları nedeniyle, ya insanların etki tanıma mekanizmalarını anlamak ya da bu veri kümeleri üzerinde eğitilen bilgisayarlı görme modelleri için yaygın durumlar üzerinde iyi bir genelleme yapmak çok zordur. Bu çalışmada, önceki veri kümelerinin sınırlamalarını aşabilen, Bağlam Veri Kümesinde Video Tabanlı Duygu ve Duygu Takibi (VEATIC) adlı yepyeni bir büyük veri kümesini tanıtıyoruz. VEATIC, Hollywood filmlerinden, belgesellerden ve ev videolarından, gerçek zamanlı açıklama yoluyla her karenin sürekli değerlik ve uyarılma derecelerine sahip 124 video klibe sahiptir. Veri kümesiyle birlikte, seçilen karakterin etkisini her bir video karesindeki hem bağlam hem de karakter bilgisi yoluyla anlayacak yeni bir bilgisayarlı görme görevi öneriyoruz. Ek olarak, bu yeni bilgisayarlı görme görevini kıyaslamak için basit bir model öneriyoruz. Ayrıca veri setimizi kullanarak önceden eğitilmiş modelin performansını diğer benzer veri setleriyle karşılaştırıyoruz. Deneyler, VEATIC aracılığıyla önceden eğitilmiş modelimizin rekabet eden sonuçlarını gösteriyor ve bu da VEATIC'in genelleştirilebilirliğini gösteriyor. Veri setimize https://veatic.github.io adresinden ulaşılabilir.
İnsan etkisini tanımak günlük yaşamımızda hayati öneme sahiptir. Yüz ifadelerine, diğer insanlarla olan etkileşimlerine ve sahnenin bağlamına dayanarak insanların duygularını anlayabilir ve sonraki tepkilerini tahmin edebiliriz. İletişimimizin paha biçilmez bir parçasıdır. Bu nedenle duygu tanıma mekanizmasının anlaşılmasına yönelik birçok çalışma yapılmıştır. Yapay Zekanın (AI) ortaya çıkışıyla birlikte birçok çalışma, robotlar ve sanal insanlar gibi sistemlerin insanlarla doğal bir şekilde etkileşime girebileceği potansiyel çıkarımıyla, insan etkisini otomatik olarak algılamak ve yorumlamak için algoritmalar da önerdi.
Gerçek dünyada duygu tanıma görevi verildiğinde insanlar yüz ifadelerinden çok daha fazla bilgiye erişebilir. Buna rağmen, duygu tanımayı araştıran birçok çalışma, özellikle psikolojik bozuklukların değerlendirilmesinde [3, 18] ve bilgisayarlı görme modellerinde [60, 62] sıklıkla bağlamdan izole edilmiş yüz ifadelerinin statik uyaranlarını kullanır. Ek olarak, önceki çalışmalar insanların duyguyu algıladığı süreci araştırmaya devam ederken, bu çalışmaların çoğu duygu tanımanın görsel sahne, arka plan bilgisi, vücut hareketleri, diğer yüzler ve hatta inançlarımız gibi bağlamsal faktörlerden nasıl etkilendiğini araştırmakta başarısız oluyor. arzular ve kavramsal işleme [4, 34, 8, 42, 44]. İlginç bir şekilde, görsel bağlamsal bilgilerin yüz ifadeleriyle otomatik ve zahmetsizce bütünleştirildiği bulunmuştur [2]. Ayrıca duygusal yargılamalar sırasında yüz ipuçlarını geçersiz kılabilir [26](Şekil 1) ve hatta görsel işlemenin erken aşamalarında duygu algısını bile etkileyebilir [7]. Aslında bağlamsal bilgi çoğu zaman bir kişinin duygularını anlamak için yüzün kendisi kadar değerlidir [8, 9, 10]. Duygu tanımada bağlamsal bilginin önemine dair artan kanıtlar [4], araştırmacıların, insan duygularını tanımayı araştırdıkları deneysel paradigmaları yeniden değerlendirmelerini gerektirmektedir. Örneğin, günlük sosyal etkileşimler sırasında insan duygularının tanınmasına yol açan mekanizmaları ve süreçleri daha iyi anlamak için araştırma çalışmalarının genelleştirilebilirliği ciddi şekilde dikkate alınmalıdır. En önemlisi, duygu ve etki takibine yönelik veri kümeleri yalnızca yüzleri veya izole edilmiş belirli karakterleri içermemeli, aynı zamanda arka plandaki görsel sahne bilgileri ve karakterler arasındaki etkileşimler gibi bağlamsal faktörleri de içermelidir.
İnsanların duygusal durumunu temsil etmek amacıyla, Psikoloji ve Sinirbilim alanındaki çok sayıda çalışma, insanların duygusal durumunu ölçmek için hem kategorik hem de sürekli duygu modellerini içeren yöntemler önermiştir. En ünlü ve baskın kategorik duygu teorisi, belirli duyguların (öfke, korku, mutluluk vb.) kültürler arasında evrensel olarak tanındığını ve tüm duyguların davranışsal ve fizyolojik tepkileri, değerlendirmeleri, değerlendirmeleri açısından farklı olduğunu belirten temel duygular teorisidir. ve ifadede [16]. Alternatif olarak, sürekli bir duygu modeli olan döngüsel duygulanım modeli, tüm duygusal durumların değerlik ve uyarılma ile ilgili iki nörofizyolojik sistemden kaynaklandığını ve tüm duyguların bu iki boyutun doğrusal bir kombinasyonu ile tanımlanabileceğini öne sürmektedir [52, 47, 53] . Duygu tanımanın başka bir modeli olan Yüz Eylem Kodlama Sistemi modeli, tüm yüz ifadelerinin Eylem Birimleri adı verilen kas hareketlerinin temel bileşenlerine bölünebileceğini belirtmektedir [17]. Önceki duygu tanıma modelleri bu farklı modeller göz önünde bulundurularak oluşturulmuştur [61, 63, 41]. Bununla birlikte, çok az model, duygusal hesaplama için mevcut açıklamalı veri tabanlarının eksikliğinin talihsiz bir ürünü olan sürekli boyutları kullanarak duyguyu ölçmeye odaklanmaktadır.
Yukarıda bahsedilen duygu ölçümlerine dayanarak birçok duygu tanıma veri seti geliştirilmiştir. SAL [15], SEMAINE [39], Belfast'ın indüklediği [58], DEAP [28] ve MAHNOB-HCI [59] gibi ilk veri kümeleri yüksek düzeyde kontrollü laboratuvar ortamlarında toplanır ve genellikle veri boyutu küçüktür. Bu önceki veri kümeleri karakterler, hareketler, sahne aydınlatması ve arka planlar açısından çeşitlilikten yoksundu. Üstelik ilk veri setlerindeki temsiller genellikle ayrıktır. RECOLA [49], MELD [46], OMG-duygu veri kümesi [5], Aff-Wild [69] ve Aff-Wild2 [29, 30] gibi yeni veri kümeleri, sürekli derecelendirme yoluyla duygusal durumları toplamaya ve videoları kullanmaya başlar internette veya “vahşi” olarak adlandırılıyor. Ancak bu veri kümeleri bağlamsal bilgilerden yoksundur ve yalnızca yüz ifadelerine odaklanmaktadır. Çerçevelere karakterler veya belirli yüzler hakimdir. Ayrıca, yukarıda bahsedilen veri kümeleri sınırlı ek açıklamalara sahiptir (genellikle 10'dan az). İnsan gözlemciler güçlü bireysel farklılıklara sahip olduğundan ve birçok önyargıdan muzdarip olduğundan [12, 45, 48], sınırlı açıklamalayıcılar önemli açıklama önyargılarına yol açabilir.
Bu çalışmada, hem Psikoloji hem de bilgisayarlı görme gruplarına faydalı olabilecek geniş bir veri kümesi olan Bağlamda Video Tabanlı Duygu ve Duygu İzleme Veri Kümesini (VEATIC, /ve"ætIc/) tanıtıyoruz. Veri kümesi, Hollywood'dan 124 video klip içermektedir. Gerçek zamanlı açıklama yoluyla her karenin sürekli değerlik ve uyarılma derecelerine sahip filmler, belgeseller ve ev videoları. Ayrıca, bu veri kümesine dayanarak, yeni bir bilgisayarlı görme görevi öneriyoruz. Seçilen karakterin etkisini her video karesindeki hem bağlam hem de karakter bilgisi aracılığıyla otomatik olarak çıkarımlamak. Bu çalışmada ayrıca bu göreve basit bir çözüm sunuyoruz. Deneyler, önerilen VEATIC veri kümesinin faydalarının yanı sıra yöntemin etkinliğini de gösteriyor. Özetle bu çalışmanın başlıca katkıları şunlardır:
• Hem yüz özelliklerini hem de bağlamsal faktörleri içeren, duygu ve duygulanım takibi için ilk büyük video veri kümesi olan VEATIC'i oluşturuyoruz. Veri kümesinde her çerçeve için sürekli değerlik ve uyarılma derecelendirmeleri bulunur.
• Açıklayıcıların önyargılarını hafifletmek için, önceki veri kümeleriyle (genellikle 10'dan az) karşılaştırıldığında veri kümesine açıklama eklemek için geniş bir açıklayıcı kümesi (toplamda 192) görevlendirdik.
• Hem karakter bilgilerini hem de bağlamsal faktörleri kullanarak, her kareden seçilen karakterin uyarılma ve değerliliğini tahmin etmek için bir temel model sağlıyoruz.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .