paint-brush
Die Komplexität der Erkennung hasserfüllter Memes meisternvon@memeology
270 Lesungen

Die Komplexität der Erkennung hasserfüllter Memes meistern

Zu lang; Lesen

Entdecken Sie verschiedene Methoden zur Erkennung hasserfüllter Memes, darunter die Feinabstimmung von PVLMs, Modellensemblierung und die Nutzung vorab trainierter Modelle wie BERT und CLIP. Erfahren Sie, wie der auf Sondierungsmethoden basierende Untertitelungsansatz das Kontextverständnis verbessert und so die Erkennung hasserfüllter Inhalte in Memes verbessert.
featured image - Die Komplexität der Erkennung hasserfüllter Memes meistern
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

Autoren:

(1) Rui Cao, Singapore Management University;

(2) Ming Shan Hee, Singapore University of Design and Technology;

(3) Adriel Kuek, DSO National Laboratories;

(4) Wen-Haw Chong, Singapore Management University;

(5) Roy Ka-Wei Lee, Singapore University of Design and Technology

(6) Jing Jiang, Singapore Management University.

Linktabelle

Zusammenfassung und Einleitung

Ähnliche Projekte

Vorläufig

Vorgeschlagene Methode

Experiment

Schlussfolgerung und Referenzen

Anhang

2. VERWANDTE ARBEITEN

Memes , die typischerweise humorvoll oder sarkastisch gemeint sind, werden zunehmend für die Verbreitung von Hassinhalten missbraucht, was die Online-Erkennung von Hassmemes zu einer anspruchsvollen Aufgabe macht [5, 12, 27]. Um die Verbreitung von Hassmemes einzudämmen, betrachtet eine Forschungsrichtung die Erkennung von Hassmemes als multimodale Klassifizierungsaufgabe. Forscher haben vorab trainierte visuelle Sprachmodelle (PVLMs) angewendet und sie basierend auf Meme-Erkennungsdaten fein abgestimmt [20, 26, 34, 37]. Zur Verbesserung der Leistung haben einige versucht, Modelle zu ensemblieren [20, 26, 34]. Eine andere Forschungsrichtung erwägt, vorab trainierte Modelle (z. B. BERT [4] und CLIP [29]) mit aufgabenspezifischen Modellarchitekturen zu kombinieren und sie End-to-End-abzustimmen [13, 14, 28]. Vor kurzem haben Autoren in [2] versucht, alle Meme-Informationen in Text umzuwandeln und Sprachmodelle dazu zu bringen, das in den Sprachmodellen vorhandene kontextuelle Hintergrundwissen besser zu nutzen. Dieser Ansatz erzielt bei zwei Benchmarks zur Erkennung hasserfüllter Memes die besten Ergebnisse. Allerdings wird dabei eine generische Methode zur Beschreibung des Bildes durch Bildunterschriften verwendet, wobei häufig wichtige Faktoren ignoriert werden, die für die Erkennung hasserfüllter Memes erforderlich sind. In dieser Arbeit versuchen wir, dieses Problem durch probebasierte Untertitelung zu lösen, indem wir vorab trainierte Vision-Language-Modelle mit hasserfüllten inhaltszentrierten Fragen in einer Zero-Shot-VQA-Manier auffordern.