paint-brush
Pro-Cap: Nefret Dolu Memlerin Tespiti için Donmuş Görüş-Dil Modelinden Yararlanmakby@memeology
294

Pro-Cap: Nefret Dolu Memlerin Tespiti için Donmuş Görüş-Dil Modelinden Yararlanmak

Pro-Cap, memlerdeki nefret dolu içeriğin doğru şekilde algılanması için araştırma tabanlı altyazı oluşturma yoluyla donmuş Görüş-Dil Modellerini (PVLM'ler) kullanarak, hesaplama verimliliğini ve altyazı kalitesini geliştirerek nefret dolu mem tespitine yeni bir yaklaşım getiriyor.
featured image - Pro-Cap: Nefret Dolu Memlerin Tespiti için Donmuş Görüş-Dil Modelinden Yararlanmak
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

Yazarlar:

(1) Rui Cao, Singapur İşletme Üniversitesi;

(2) Ming Shan Hee, Singapur Tasarım ve Teknoloji Üniversitesi;

(3) Adriel Kuek, DSO Ulusal Laboratuvarları;

(4) Wen-Haw Chong, Singapur İşletme Üniversitesi;

(5) Roy Ka-Wei Lee, Singapur Tasarım ve Teknoloji Üniversitesi

(6) Jing Jiang, Singapur İşletme Üniversitesi.

Bağlantı Tablosu

Özet ve Giriş

Alakalı iş

Ön hazırlık

Önerilen yöntem

Deney

Sonuç ve Referanslar

Ek

SOYUT

Nefret dolu mem tespiti, hem görme hem de dilin yanı sıra modlar arası etkileşimlerin anlaşılmasını gerektiren zorlu, çok modlu bir görevdir. Son çalışmalar, bu görev için önceden eğitilmiş görüş dili modellerine (PVLM'ler) ince ayar yapmaya çalıştı. Ancak model boyutlarının artmasıyla birlikte, güçlü PVLM'lerden yalnızca ince ayar yapmak yerine daha verimli bir şekilde yararlanmak önemli hale geliyor. Son zamanlarda araştırmacılar, mem resimlerini metinsel altyazılara dönüştürmeye ve tahminler için hızlı dil modellerine dönüştürmeye çalıştılar. Bu yaklaşım iyi bir performans göstermiştir ancak bilgilendirici olmayan resim altyazılarından sıkıntı çekmektedir. Yukarıda belirtilen iki faktörü göz önünde bulundurarak, sıfır atışlı görsel soru yanıtlama (VQA) tarzında PVLM'lerden yararlanmak için araştırma tabanlı bir altyazı oluşturma yaklaşımı öneriyoruz. Spesifik olarak, nefret dolu içerikle ilgili sorular sorarak donmuş bir PVLM'yi harekete geçiririz ve yanıtları resim altyazıları olarak kullanırız (bunu Pro-Cap olarak adlandırırız), böylece altyazılar nefret dolu içerik tespiti için kritik önem taşıyan bilgileri içerir. Pro-Cap'li modellerin üç kıyaslamadaki iyi performansı, önerilen yöntemin etkinliğini ve genellenmesini doğrulamaktadır.[1]

CCS KAVRAMLARI

• Bilgi işlem metodolojileri → Doğal dil işleme; Bilgisayarla görme temsilleri.

ANAHTAR KELİMELER

memler, çok modlu, anlam çıkarımı

ACM Referans Formatı:

Rui Cao, Ming Shan Hee, Adriel Kuek, Wen-Haw Chong, Roy Ka-Wei Lee ve Jing Jiang. 2023. Pro Cap: Nefret dolu Mem Tespiti için Donmuş Görüş-Dil Modelinden Yararlanmak. 31. ACM Uluslararası Multimedya Konferansı Bildirileri (MM '23), 29 Ekim-3 Kasım 2023, Ottawa, ON, Kanada. ACM, New York, NY, ABD, 11 sayfa. https://doi.org/10.1145/3581783.3612498


Şekil 1: Önerilen araştırma yazısı yaklaşımı. Nefret içerikli içerik odaklı resim altyazıları oluşturmak için görsel soru yanıtlama yoluyla dondurulmuş, önceden eğitilmiş görüş dili modellerini harekete geçiriyoruz.


Yasal Uyarı: Bu makale bazı okuyucuları rahatsız edebilecek şiddet ve ayrımcı içerik içermektedir.

1. GİRİŞ

Görselleri kısa metinlerle birleştiren memler, çevrimiçi sosyal medyada popüler bir iletişim biçimidir. İnternet memleri genellikle mizah veya hiciv ifade etmeyi amaçlar. Ancak nefret dolu içeriği çevrimiçi platformlara yaymak için giderek daha fazla istismar ediliyorlar. Nefret dolu memler bireylere veya topluluklara ırk, cinsiyet veya din gibi kimliklerine dayalı olarak saldırır [5, 8, 12, 27]. Nefret dolu memlerin yayılması internette anlaşmazlıklara yol açabilir ve potansiyel olarak nefret suçlarıyla sonuçlanabilir. Bu nedenle, doğru nefret dolu mem tespit yöntemlerinin geliştirilmesi acildir.


Nefret dolu mem tespit etme görevi, memlerin çok modlu doğası nedeniyle zordur. Tespit, yalnızca görüntülerin ve metinlerin anlaşılmasını değil, aynı zamanda bu iki yöntemin nasıl etkileşime girdiğini de anlamayı içerir. Önceki çalışma [14, 28, 35, 36] nefret dolu mem tespit veri kümelerini kullanarak modlar arası etkileşimleri sıfırdan öğreniyor. Ancak modellerin, bu veri kümelerinden elde edilen sınırlı miktardaki verilerle karmaşık çok modlu etkileşimleri öğrenmesi zor olabilir. VisualBERT [18] ve ViLBERT [23] gibi Önceden Eğitimli Görüş-Dil Modellerinin (PVLM'ler) geliştirilmesiyle, son çalışmalar, nefret dolu mem tespit görevini kolaylaştırmak için bu güçlü PVLM'lerden yararlanmaktadır. Yaygın bir yaklaşım, PVLM'lere göreve özgü verilerle ince ayar yapmaktır [9, 20, 26, 34, 37]. Bununla birlikte, milyarlarca eğitilebilir parametre olduğundan, mem tespitinde BLIP-2 [15] ve Flamingo [1] gibi daha büyük modellere ince ayar yapmak daha az mümkündür. Bu nedenle, nefret dolu mem tespitini kolaylaştırmak amacıyla büyük PVLM'lerden yararlanmak için doğrudan ince ayar dışında hesaplama açısından uygun çözümlere ihtiyaç vardır.


Tablo 1: Görüntü altyazılarından FHM veri kümesi [12] üzerindeki algılama performansları üzerindeki etki. (w/o), ek varlık ve demografik bilgileri olmayan modelleri belirtir.


Yukarıdaki PVLM'leri kullanan yaklaşımdan farklı olarak PromptHate[2], çok modlu mem algılama görevini tek modlu bir maskeli dil modelleme görevine dönüştüren yakın zamanda önerilen bir modeldir. İlk önce kullanıma hazır bir resim yazısı oluşturucu olan ClipCap [25] ile meme resim yazıları oluşturur. Tüm girdi bilgilerini metne dönüştürerek, dil modelindeki zengin arka plan bilgisinden yararlanarak girdinin nefret içerikli olup olmadığını tahmin etmek için iki açıklayıcı örnekle birlikte önceden eğitilmiş bir dil modelini harekete geçirebilir. PromptHate en son teknolojiye sahip performansa ulaşsa da, Tablo 1'de gösterildiği gibi görüntü altyazılarının kalitesinden önemli ölçüde etkilenir. Yalnızca görüntülerin genel açıklamaları olan görüntü altyazıları, aşağıdakiler gibi önemli ayrıntıları atlayabilir [14, 37] Nefret dolu içeriğin tespit edilmesi için önemli olan kişilerin ırkı ve cinsiyeti. Ancak resimlerde bulunan varlıklar ve resimlerdeki kişilere ilişkin demografik bilgiler gibi ek resim etiketleriyle aynı model, Tablo 1'de gösterildiği gibi önemli ölçüde geliştirilebilir. Ancak bu ek resim etiketlerinin oluşturulması zahmetli ve maliyetlidir. Örneğin, varlık çıkarma işlemi genellikle ücretli bir hizmet olan Google Vision Web Varlık Algılama API'si [2] ile gerçekleştirilir. İdeal olarak, nefret dolu içerik tespiti açısından kritik olan görsellerden varlık ve demografik bilgileri elde etmenin daha uygun maliyetli bir yolunu bulmak istiyoruz.


Yukarıda bahsedilen her iki yaklaşımın da (yani, biri PVLM'leri kullanan ve diğeri görevi tek modlu bir göreve dönüştüren) artıları ve eksileri vardır. Bu yazıda, bu iki yaklaşımın fikirlerini birleştiriyoruz ve PromptHate'in tek modlu yaklaşımını tamamlamak için donmuş bir PVLM'nin gücünden yararlanan nefret dolu bir mem tespit yöntemi tasarlıyoruz. Özellikle, nefret dolu içerikteki yaygın savunmasız hedeflerle ilgili bilgiler için bir PVLM'yi (deneylerimizde BLIP-2 [15]) sorgulamak amacıyla bir dizi "araştırma" sorusu kullanıyoruz. Araştırma sorularından elde edilen yanıtlar, resim altyazıları (Pro-Cap olarak belirtilir) olarak ele alınacak ve eğitilebilir bir nefret dolu mem tespit modeline girdi olarak kullanılacaktır. Şekil 1, yöntemin genel iş akışını göstermektedir. Altyazıları oluşturmak için araştırma sorularını kullanma adımına, araştırma tabanlı altyazı oluşturma adını veriyoruz.


Önerilen yöntemimiz mevcut araştırma boşluklarını şu yollarla doldurmaktadır: 1) Herhangi bir uyarlama veya ince ayar yapmadan PVLM'den yararlanarak hesaplama maliyetini azaltır; 2) Pahalı API'lerle açıkça ek resim etiketleri almak yerine, donmuş PVLM'yi nefret dolu mem tespiti için yararlı bilgiler içeren altyazılar oluşturmak için kullanırız. Bildiğimiz kadarıyla bu, nefret dolu mem tespit görevine yardımcı olmak için soru yanıtlama yoluyla PVLM'lerden sıfır atışla yararlanan ilk çalışmadır. Yöntemimizi daha da doğrulamak için, oluşturulan Pro-Cap'in hem PromptHate[2] hem de BERT tabanlı[4] nefret dolu mem tespit modeli üzerindeki etkisini test ediyoruz.


Deneysel sonuçlara dayanarak, Pro-Cap'li PromptHate'in (Pro-CapPromptHate olarak belirtilir), ek görüntü etiketleri olmadan orijinal PromptHate'i önemli ölçüde geride bıraktığını gözlemledik (yani, FHM'de yaklaşık yüzde 4, 6 ve 3 puanlık mutlak performans artışı) [12 ], MAMI [5] ve HarM [28] sırasıyla). ProCapPromptHate ayrıca ek resim etiketleriyle PromptHate ile karşılaştırılabilir sonuçlar elde ediyor; bu da araştırma tabanlı altyazı oluşturmanın resim varlıklarını veya demografik bilgileri elde etmenin daha uygun maliyetli bir yolu olabileceğini gösteriyor. Vaka çalışmaları ayrıca Pro-Cap'in nefret dolu içerik tespiti için gerekli görüntü ayrıntılarını sunduğunu ve modellerin açıklanabilirliğini bir dereceye kadar artırdığını gösteriyor. Bu arada ProCapBERT, benzer boyutlardaki multimodal BERT tabanlı modelleri açık bir şekilde geride bırakarak (yani, FHM'de VisualBERT ile yaklaşık yüzde 7 mutlak iyileşme [12]), bu da araştırma tabanlı altyazı oluşturma yönteminin genelleştirilmiş olduğunu kanıtlamaktadır.




[1] Kod şu adreste mevcuttur: https://github.com/Social-AI-Studio/Pro-Cap


[2] https://cloud.google.com/vision/docs/detecting-web