Yazarlar:
(1) Muzaffar Hazman, Galway Üniversitesi, İrlanda;
(2) Susan McKeever, Dublin Teknoloji Üniversitesi, İrlanda;
(3) Josephine Griffith, Galway Üniversitesi, İrlanda.
Sınırlamalar ve Gelecek Çalışmalar
Sonuç, Teşekkür ve Referanslar
A Hiperparametreler ve Ayarlar
E Acil Durum Tablosu: Taban Çizgisi ve Metin-STILT
İnternet Memleri, otomatik duygu sınıflandırması için kullanıcı tarafından oluşturulan içeriğin zorlu bir biçimi olmaya devam ediyor. Etiketli memlerin mevcudiyeti, çok modlu memlerin duygu sınıflandırıcılarının geliştirilmesinin önünde bir engeldir. Etiketli memlerin eksikliğini gidermek için, çok modlu bir meme sınıflandırıcısının eğitimini tek modlu (yalnızca görüntü ve yalnızca metin) verilerle tamamlamayı öneriyoruz. Bu çalışmada, nispeten bol miktarda duygu etiketli tek modlu veri kullanan, denetimli orta düzey eğitimin yeni bir çeşidini sunuyoruz. Sonuçlarımız, tek modlu metin verilerinin dahil edilmesiyle istatistiksel olarak anlamlı bir performans artışı olduğunu gösteriyor. Ayrıca, etiketli memlerin eğitim setinin, aşağı yöndeki modelin performansını düşürmeden %40 oranında azaltılabileceğini gösterdik.
İnternet Memleri (veya sadece "memler") dünya çapındaki dijital topluluklarda giderek daha popüler ve yaygın hale geldikçe, duygu sınıflandırması, nefret söylemi tespiti ve alay tespiti gibi doğal dil sınıflandırma görevlerini bu çok modlu ifade birimlerine genişletmeye yönelik araştırma ilgisi arttı. . Bununla birlikte, en son teknolojiye sahip çok modlu meme duyarlılığı sınıflandırıcıları, çağdaş metin duyarlılığı sınıflandırıcılarından ve görüntü duyarlılığı sınıflandırıcılarından önemli ölçüde daha düşük performans göstermektedir. Çok modlu memlerin duygusunu belirlemeye yönelik doğru ve güvenilir yöntemler olmadan, sosyal medya duyarlılık analizi yöntemleri memler aracılığıyla ifade edilen fikirleri ya göz ardı edecek ya da yanlış bir şekilde çıkarım yapacaktır. Memler çevrimiçi söylemin dayanak noktası olmayı sürdürürken,
Aktardıkları anlamı çıkarabilme yeteneği giderek daha geçerli hale geliyor (Sharma ve diğerleri, 2020; Mishra ve diğerleri, 2023).
Tek modlu içerikte olduğu gibi memlerde de benzer düzeyde duygu sınıflandırma performansı elde etmek hala bir zorluktur. Çok modlu doğasına ek olarak, çok modlu mem sınıflandırıcılarının duyguyu kısa metinler, kültürel referanslar ve görsel sembolizm içeren kültürel olarak spesifik girdilerden ayırt etmesi gerekir (Nissenbaum ve Shifman, 2017). Her bir modaliteden (metin ve görsel) bilgi çıkarmak için çeşitli yaklaşımlar kullanılmış olsa da, son çalışmalar mem sınıflandırıcılarının bu iki modalite arasındaki çeşitli etkileşim biçimlerini de tanıması gerektiğini vurgulamıştır (Zhu, 2020; Shang vd., 2021; Hazman ve ark., 2021). diğerleri, 2023).
Mem sınıflandırıcılarının eğitimine yönelik mevcut yaklaşımlar, aşağıdakileri içeren etiketli memlerin veri kümelerine bağlıdır (Kiela ve diğerleri, 2020; Sharma ve diğerleri, 2020; Suryawanshi ve diğerleri, 2020; Patwa ve diğerleri, 2022; Mishra ve diğerleri, 2023). Sınıflandırıcıları her bir modaliteden ve ilgili modlar arası etkileşimlerden ilgili özellikleri çıkarmak üzere eğitmek için yeterli örnek. Görevin karmaşıklığına bağlı olarak, etiketli memlerin mevcut mevcudiyeti hala bir sorun teşkil etmektedir, çünkü mevcut çalışmaların çoğu daha fazla veri gerektirir (Zhu, 2020; Kiela ve diğerleri, 2020; Sharma ve diğerleri, 2022).
Daha da kötüsü memleri etiketlemek zordur. Memlerin karmaşıklığı ve kültüre bağımlılığı
(Gal ve diğerleri, 2016), her bir açıklamacının mem içeriğine yönelik değişen aşinalık ve duygusal tepkinin farklı temel gerçek etiketlerine neden olduğu Öznel Algı Sorununa (Sharma ve diğerleri, 2020) neden olur. İkincisi, memler genellikle diğer popüler medyalardan alınan telif hakkıyla korunan görsel öğeler içerir (Laineste ve Voolaid, 2017), bu da veri kümelerini yayınlarken endişelere yol açar. Bunun için Kiela ve ark. (2020), lisanslı görseller kullanarak veri kümelerindeki her memeyi manuel olarak yeniden yapılandırarak açıklama ekleme çabasını önemli ölçüde artırdı. Dahası, belirli bir memi oluşturan görsel öğeler sıklıkla çevrimiçi topluluklarda hızla yayılan ani bir trend olarak ortaya çıkar (Bauckhage, 2011; Shifman, 2014), daha önce çok az anlam taşıyan ortak mem söylemine anlamsal açıdan zengin yeni görsel sembolleri hızlı bir şekilde sokar. (Segev ve diğerleri, 2015). Birlikte ele alındığında, bu özellikler memlerin etiketlenmesini özellikle zorlu ve maliyetli hale getiriyor.
Mem duyarlılığı sınıflandırıcılarını eğitmek için daha veri açısından verimli yöntemler ararken, çalışmamız nispeten bol olan tek modlu duyarlılık etiketli verilerden, yani yalnızca görüntü ve yalnızca metin örnekleri içeren duygu analizi veri kümelerinden yararlanmaya çalışır. Bunu, önceden eğitilmiş metin kodlayıcıların veri açısından kıt olan Doğal Dil Anlama (NLU) görevlerine ince ayarı yapılırken sıklıkla karşılaşılan düşük performansı ele alan Phang ve diğerlerinin (2019) Orta Düzey Etiketli Veri Görevleri Üzerine Ek Eğitimini (STILT) kullanarak yapıyoruz. Phang ve arkadaşlarının STILT yaklaşımı üç adımdan oluşur:
1. Önceden eğitilmiş ağırlıkları bir sınıflandırıcı modeline yükleyin.
2. Verilerin kolayca mevcut olduğu denetimli bir öğrenme görevinde (ara görev) modele ince ayar yapın.
3. Ara görevden farklı, verisi az olan bir görev (hedef görev) üzerinde modele ince ayar yapın.
STILT'in çeşitli salt metin hedef görevlerinde çeşitli modellerin performansını iyileştirdiği gösterilmiştir (Poth ve diğerleri, 2021; Wang ve diğerleri, 2019). Ayrıca Prukschatkun ve ark. (2020), STILT'in özellikle WiC (Pilehvar ve Camacho-Collados, 2019) ve BoolQ (Clark ve diğerleri, 2019) gibi daha küçük veri kümelerine sahip NLU'daki hedef görevlerde etkili olduğunu gözlemledi. Ancak aynı zamanda bu yaklaşımın performans faydalarının tutarsız olduğunu ve herhangi bir hedef görev için uygun ara görevlerin seçilmesine bağlı olduğunu da gösterdiler. Bazı durumlarda, orta düzey eğitimin hedef görev performansı açısından zararlı olduğu görüldü; hangi Pruksachatkun ve ark. (2020), her bir ara ve hedef görev çifti için gerekli olan "sözdizimsel ve anlamsal beceriler" arasındaki farklılıklara atfedilmiştir. Ancak STILT, ara ve hedef görevlerin farklı giriş yöntemlerine sahip olduğu bir konfigürasyonda henüz test edilmedi.
Her ne kadar bir memin metnini veya görselini tek başına ele almak onun tüm anlamını yansıtmasa da (Kiela ve diğerleri, 2020), tek modlu duygu verilerinin memlerin duygusunu ayırt etmeye yönelik becerilerin dahil edilmesine yardımcı olabileceğinden şüpheleniyoruz. Çok modlu bir meme duyarlılığı sınıflandırıcısının eğitiminde ara görev olarak tek modlu duyarlılık analizi verilerini kullanan yeni bir STILT varyantı önererek aşağıdaki soruları yanıtlıyoruz:
RQ1 : Çok modlu bir mem sınıflandırıcısının eğitimini tek modlu duyarlılık verileriyle desteklemek, performansını önemli ölçüde artırır mı?
Önerilen yaklaşımımızı yalnızca görüntü ve yalnızca metin içeren 3 sınıflı duygu verileriyle (Şekil 1'de gösterildiği gibi sırasıyla Image-STILT ve Text-STILT oluşturarak) ayrı ayrı test ettik. Her ikisinin de etkili olduğu kanıtlanırsa ek olarak şu yanıtı veririz:
Soru2 : Tek modlu STILT ile, bir mem duyarlılığı sınıflandırıcısının performansını korurken etiketli memlerin miktarını ne ölçüde azaltabiliriz?
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .