Autoren:
(1) Rui Cao, Singapore Management University;
(2) Ming Shan Hee, Singapore University of Design and Technology;
(3) Adriel Kuek, DSO National Laboratories;
(4) Wen-Haw Chong, Singapore Management University;
(5) Roy Ka-Wei Lee, Singapore University of Design and Technology
(6) Jing Jiang, Singapore Management University.
Zusammenfassung und Einleitung
Schlussfolgerung und Referenzen
Memes , die typischerweise humorvoll oder sarkastisch gemeint sind, werden zunehmend für die Verbreitung von Hassinhalten missbraucht, was die Online-Erkennung von Hassmemes zu einer anspruchsvollen Aufgabe macht [5, 12, 27]. Um die Verbreitung von Hassmemes einzudämmen, betrachtet eine Forschungsrichtung die Erkennung von Hassmemes als multimodale Klassifizierungsaufgabe. Forscher haben vorab trainierte visuelle Sprachmodelle (PVLMs) angewendet und sie basierend auf Meme-Erkennungsdaten fein abgestimmt [20, 26, 34, 37]. Zur Verbesserung der Leistung haben einige versucht, Modelle zu ensemblieren [20, 26, 34]. Eine andere Forschungsrichtung erwägt, vorab trainierte Modelle (z. B. BERT [4] und CLIP [29]) mit aufgabenspezifischen Modellarchitekturen zu kombinieren und sie End-to-End-abzustimmen [13, 14, 28]. Vor kurzem haben Autoren in [2] versucht, alle Meme-Informationen in Text umzuwandeln und Sprachmodelle dazu zu bringen, das in den Sprachmodellen vorhandene kontextuelle Hintergrundwissen besser zu nutzen. Dieser Ansatz erzielt bei zwei Benchmarks zur Erkennung hasserfüllter Memes die besten Ergebnisse. Allerdings wird dabei eine generische Methode zur Beschreibung des Bildes durch Bildunterschriften verwendet, wobei häufig wichtige Faktoren ignoriert werden, die für die Erkennung hasserfüllter Memes erforderlich sind. In dieser Arbeit versuchen wir, dieses Problem durch probebasierte Untertitelung zu lösen, indem wir vorab trainierte Vision-Language-Modelle mit hasserfüllten inhaltszentrierten Fragen in einer Zero-Shot-VQA-Manier auffordern.
Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar .