paint-brush
Pro-Cap: Nefret Dolu Memlerin Tespiti için Dondurulmuş Görüş-Dil Modelinden Yararlanma: Ekile@memeology
201 okumalar

Pro-Cap: Nefret Dolu Memlerin Tespiti için Dondurulmuş Görüş-Dil Modelinden Yararlanma: Ek

Çok uzun; Okumak

Bu ek, nefret dolu mem tespit modellerinin uygulanmasına ilişkin derinlemesine ayrıntılar, ablasyon çalışmalarından elde edilen bilgiler, Pro-Cap ve temel PromptHate'in görsel karşılaştırmaları ve tekli araştırma sorularından alınan yanıtların kullanılmasının etkisini vurgulayan sonuçlar sağlayarak, mem tespit modelleri için optimizasyon talimatları önermektedir.
featured image - Pro-Cap: Nefret Dolu Memlerin Tespiti için Dondurulmuş Görüş-Dil Modelinden Yararlanma: Ek
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur.

Yazarlar:

(1) Rui Cao, Singapur İşletme Üniversitesi;

(2) Ming Shan Hee, Singapur Tasarım ve Teknoloji Üniversitesi;

(3) Adriel Kuek, DSO Ulusal Laboratuvarları;

(4) Wen-Haw Chong, Singapur İşletme Üniversitesi;

(5) Roy Ka-Wei Lee, Singapur Tasarım ve Teknoloji Üniversitesi

(6) Jing Jiang, Singapur İşletme Üniversitesi.

Bağlantı Tablosu

Özet ve Giriş

Alakalı iş

Ön hazırlık

Önerilen yöntem

Deney

Sonuç ve Referanslar

Ek

EK

Tablo 9: HarM veri kümesinde Pro-CapPromptHate ile temel PromptHate arasındaki karşılaştırma.

UYGULAMA İÇİN DETAYLAR

PyTorch Kütüphanesi altındaki tüm modelleri CUDA11.2 sürümüyle hayata geçiriyoruz. Her biri 32 GB'lık özel belleğe sahip Tesla V 100 GPU'yu kullanıyoruz. Nefret dolu mem tespiti için özel olarak uygulanan modeller için, yeniden uygulama amacıyla yazardan yayınlanan kodları alıyoruz [4]. Huggingface Kütüphanesi altında bulunabilecek önceden eğitilmiş modeller için Huggingface'in [5] paketlerini, özellikle BERT [4], VisualBERT [18] ve BLIP modelini kullanıyoruz. Gor ViLBERT [23], yayınlanan kodu yazarlardan alıyoruz [6]. ALBEF [17] ve BLIP-2 [15] için LAVIS Kütüphanesi [7] altındaki paketleri kullanıyoruz.


Tablo 12: Herhangi bir artırılmış resim etiketi olmadan model karşılaştırması.


Tablo 13: Yalnızca tek bir derinlemesine soru sorulduğunda model performansı.


Her meme görseli için, meme metninin ve genel görsel başlığının toplam uzunluğunu (altyazı modelinden veya görselin içeriği hakkında sorular sorarak) 65 olarak sınırlandırıyoruz. Her ek soru için uzunluğunu 65 olarak sınırlandırıyoruz. 20'den kısa. Cümlenin birleştirilmesi sınırlı uzunluğu aşarsa cümle kesilir, aksi takdirde cümle sınırlı uzunluktan kısa ise dolgulanır. Tüm modeller için eğitim dönemi sayısını 10 olarak belirledik.


Model parametrelerinin sayısı Tablo 11'de özetlenmiştir.

B TAM ABLASYON ÇALIŞMASI SONUÇLARI

Alan sınırlaması nedeniyle, Tablo 6'da yalnızca ablasyon çalışmalarındaki doğruluk sonuçlarını gösteriyoruz. Hem AUC'yi hem de doğruluğu içeren tam sonuçlar Tablo 12'de verilmektedir.

C GÖRSELLEŞTİRME VAKALARI

Bölüm 5.5'te ProCapPromptHate'i temel PromptHate ile karşılaştırmaya yönelik durumların görselleştirilmesini sağlıyoruz. Yer kısıtlamaları nedeniyle diğer iki veri kümesindeki örnekleri çıkardık. Bu bölümde daha fazla görselleştirme örneği sunuyoruz. HarM veri setindeki vakalar Tablo 9'da, MAMI veri setindeki vakalar ise Tablo 10'da gösterilmektedir.

D PRO-CAP YAKLAŞIK BİR HEDEF İLE SONUÇLAR

Bölüm 5'te, yalnızca modeller tüm araştırma sorularından Pro-Cap kullandığında sonuçları rapor ediyoruz. Bu bölümde, Tablo 13'teki tek bir araştırma sorusunun yanıtlarını kullanırken sonuçları (varlıklarla birlikte) raporluyoruz.


Sonuçlara göre, tek bir araştırma sorusuna yanıt kullanan modellerin hepsinin güçlü olduğunu ve hatta bazılarının buluşsal olarak tüm araştırma sorularını sormayı geride bıraktığını gözlemledik (örneğin, FHM'de uyrukla ilgili soruyu kullanmak, tüm araştırma sorularını kullanmaktan daha iyidir). Tüm araştırma başlıklarını kullanmanın en uygun çözüm olmayabileceğine ve alakasız görüntü açıklamaları oluşturabileceğine dikkat çekiyor. Mesela siyahileri hedef alan nefret dolu bir meme ile karşı karşıya kaldığınızda, resimdeki insanların dinini sormak anlamsızdır. İlginç bir şekilde, MAMI'de yalnızca cinsiyetle ilgili derinlemesine soruların yanıtlarını kullanmak en iyi performansı sağlıyor. Çünkü MAMI sadece kadına dair nefret dolu memler içeriyor. Gelecek vaat eden bir yön, modeli, farklı memler için mem tespiti için gerekli olan araştırma sorularını dinamik olarak seçecek şekilde eğitecektir.





[4] CLIP-BERT/MOMENTA: https://github.com/LCS2-IIITD/MOMENTA;DisMultiHate: https://gitlab.com/bottle_shop/safe/dismultihate; PromptHate: https://gitlab.com/bottle_shop/safe/prompthate


[5] https://huggingface.co/


[6] https://github.com/facebookresearch/vilbert-multi-task


[7] https://github.com/salesforce/LAVIS tüm derinlemesine soruları sezgisel olarak sorar (örn.