Yazarlar:
(1) Rui Cao, Singapur İşletme Üniversitesi;
(2) Ming Shan Hee, Singapur Tasarım ve Teknoloji Üniversitesi;
(3) Adriel Kuek, DSO Ulusal Laboratuvarları;
(4) Wen-Haw Chong, Singapur İşletme Üniversitesi;
(5) Roy Ka-Wei Lee, Singapur Tasarım ve Teknoloji Üniversitesi
(6) Jing Jiang, Singapur İşletme Üniversitesi.
Tipik olarak mizahi veya alaycı olması amaçlanan memler , nefret dolu içeriğin çoğalması için giderek daha fazla istismar ediliyor ve bu da çevrimiçi nefret dolu mem tespiti gibi zorlu bir göreve yol açıyor [5, 12, 27]. Nefret dolu memlerin yayılmasıyla mücadele etmek için, bir çalışma kolu nefret dolu mem tespitini çok modlu bir sınıflandırma görevi olarak görüyor. Araştırmacılar önceden eğitilmiş görüş dili modellerini (PVLM'ler) uyguladılar ve mem tespit verilerine dayanarak bunlara ince ayar yaptılar [20, 26, 34, 37]. Performansı artırmak için bazıları model birleştirmeyi denemiştir [20, 26, 34]. Başka bir çalışma alanı, önceden eğitilmiş modelleri (örneğin, BERT [4] ve CLIP [29]) göreve özgü model mimarileriyle birleştirmeyi ve bunları uçtan uca ayarlamayı dikkate alır [13, 14, 28]. Son zamanlarda, [2]'deki yazarlar tüm mem bilgilerini metne dönüştürmeyi ve dil modellerinde mevcut bağlamsal arka plan bilgisinden daha iyi yararlanmak için dil modellerini yönlendirmeyi denediler. Bu yaklaşım, iki nefret dolu mem tespit kriterinde en son teknolojiye sahip sonuçlara ulaşıyor. Bununla birlikte, nefret dolu mem tespiti için gerekli olan önemli faktörleri genellikle göz ardı ederek, görseli görsel altyazı yoluyla tanımlamak için genel bir yöntem benimser. Bu çalışmada, sıfır atışlı bir VQA tarzında nefret içerikli içerik merkezli sorularla önceden eğitilmiş görüş dili modellerini harekete geçirerek, araştırma tabanlı altyazı yoluyla bu sorunu çözmeye çalışıyoruz.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .