Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur.
Yazarlar:
(1) Rui Cao, Singapur İşletme Üniversitesi;
(2) Ming Shan Hee, Singapur Tasarım ve Teknoloji Üniversitesi;
(3) Adriel Kuek, DSO Ulusal Laboratuvarları;
(4) Wen-Haw Chong, Singapur İşletme Üniversitesi;
(5) Roy Ka-Wei Lee, Singapur Tasarım ve Teknoloji Üniversitesi
(6) Jing Jiang, Singapur İşletme Üniversitesi.
PyTorch Kütüphanesi altındaki tüm modelleri CUDA11.2 sürümüyle hayata geçiriyoruz. Her biri 32 GB'lık özel belleğe sahip Tesla V 100 GPU'yu kullanıyoruz. Nefret dolu mem tespiti için özel olarak uygulanan modeller için, yeniden uygulama amacıyla yazardan yayınlanan kodları alıyoruz [4]. Huggingface Kütüphanesi altında bulunabilecek önceden eğitilmiş modeller için Huggingface'in [5] paketlerini, özellikle BERT [4], VisualBERT [18] ve BLIP modelini kullanıyoruz. Gor ViLBERT [23], yayınlanan kodu yazarlardan alıyoruz [6]. ALBEF [17] ve BLIP-2 [15] için LAVIS Kütüphanesi [7] altındaki paketleri kullanıyoruz.
Her meme görseli için, meme metninin ve genel görsel başlığının toplam uzunluğunu (altyazı modelinden veya görselin içeriği hakkında sorular sorarak) 65 olarak sınırlandırıyoruz. Her ek soru için uzunluğunu 65 olarak sınırlandırıyoruz. 20'den kısa. Cümlenin birleştirilmesi sınırlı uzunluğu aşarsa cümle kesilir, aksi takdirde cümle sınırlı uzunluktan kısa ise dolgulanır. Tüm modeller için eğitim dönemi sayısını 10 olarak belirledik.
Model parametrelerinin sayısı Tablo 11'de özetlenmiştir.
Alan sınırlaması nedeniyle, Tablo 6'da yalnızca ablasyon çalışmalarındaki doğruluk sonuçlarını gösteriyoruz. Hem AUC'yi hem de doğruluğu içeren tam sonuçlar Tablo 12'de verilmektedir.
Bölüm 5.5'te ProCapPromptHate'i temel PromptHate ile karşılaştırmaya yönelik durumların görselleştirilmesini sağlıyoruz. Yer kısıtlamaları nedeniyle diğer iki veri kümesindeki örnekleri çıkardık. Bu bölümde daha fazla görselleştirme örneği sunuyoruz. HarM veri setindeki vakalar Tablo 9'da, MAMI veri setindeki vakalar ise Tablo 10'da gösterilmektedir.
Bölüm 5'te, yalnızca modeller tüm araştırma sorularından Pro-Cap kullandığında sonuçları rapor ediyoruz. Bu bölümde, Tablo 13'teki tek bir araştırma sorusunun yanıtlarını kullanırken sonuçları (varlıklarla birlikte) raporluyoruz.
Sonuçlara göre, tek bir araştırma sorusuna yanıt kullanan modellerin hepsinin güçlü olduğunu ve hatta bazılarının buluşsal olarak tüm araştırma sorularını sormayı geride bıraktığını gözlemledik (örneğin, FHM'de uyrukla ilgili soruyu kullanmak, tüm araştırma sorularını kullanmaktan daha iyidir). Tüm araştırma başlıklarını kullanmanın en uygun çözüm olmayabileceğine ve alakasız görüntü açıklamaları oluşturabileceğine dikkat çekiyor. Mesela siyahileri hedef alan nefret dolu bir meme ile karşı karşıya kaldığınızda, resimdeki insanların dinini sormak anlamsızdır. İlginç bir şekilde, MAMI'de yalnızca cinsiyetle ilgili derinlemesine soruların yanıtlarını kullanmak en iyi performansı sağlıyor. Çünkü MAMI sadece kadına dair nefret dolu memler içeriyor. Gelecek vaat eden bir yön, modeli, farklı memler için mem tespiti için gerekli olan araştırma sorularını dinamik olarak seçecek şekilde eğitecektir.
[4] CLIP-BERT/MOMENTA: https://github.com/LCS2-IIITD/MOMENTA;DisMultiHate: https://gitlab.com/bottle_shop/safe/dismultihate; PromptHate: https://gitlab.com/bottle_shop/safe/prompthate
[5] https://huggingface.co/
[6] https://github.com/facebookresearch/vilbert-multi-task
[7] https://github.com/salesforce/LAVIS tüm derinlemesine soruları sezgisel olarak sorar (örn.