paint-brush
Pro-Cap: Nutzung eines Frozen Vision-Language-Modells zur Erkennung hasserfüllter Memesvon@memeology
324 Lesungen
324 Lesungen

Pro-Cap: Nutzung eines Frozen Vision-Language-Modells zur Erkennung hasserfüllter Memes

Zu lang; Lesen

Pro-Cap führt einen neuartigen Ansatz zur Erkennung hasserfüllter Memes ein, indem es durch sondierungsbasierte Untertitelung eingefrorene Vision-Language Models (PVLMs) verwendet und so die Rechenleistung und Untertitelqualität für die genaue Erkennung hasserfüllter Inhalte in Memes verbessert.
featured image - Pro-Cap: Nutzung eines Frozen Vision-Language-Modells zur Erkennung hasserfüllter Memes
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

Autoren:

(1) Rui Cao, Singapore Management University;

(2) Ming Shan Hee, Singapore University of Design and Technology;

(3) Adriel Kuek, DSO National Laboratories;

(4) Wen-Haw Chong, Singapore Management University;

(5) Roy Ka-Wei Lee, Singapore University of Design and Technology

(6) Jing Jiang, Singapore Management University.

Linktabelle

Zusammenfassung und Einleitung

Ähnliche Projekte

Vorläufig

Vorgeschlagene Methode

Experiment

Schlussfolgerung und Referenzen

Anhang

ABSTRAKT

Die Erkennung hasserfüllter Memes ist eine anspruchsvolle multimodale Aufgabe, die sowohl das Verständnis von Bild und Sprache als auch modalübergreifende Interaktionen erfordert. Neuere Studien haben versucht, vorab trainierte Vision-Language-Modelle (PVLMs) für diese Aufgabe zu optimieren. Mit zunehmender Modellgröße wird es jedoch wichtiger, leistungsstarke PVLMs effizienter zu nutzen, anstatt sie einfach nur zu optimieren. Neuerdings haben Forscher versucht, Meme-Bilder in Textbeschriftungen umzuwandeln und Sprachmodelle für Vorhersagen zu verwenden. Dieser Ansatz hat gute Ergebnisse gezeigt, leidet jedoch unter nicht informativen Bildbeschriftungen. Unter Berücksichtigung der beiden oben genannten Faktoren schlagen wir einen auf Sondierungstechniken basierenden Untertitelungsansatz vor, um PVLMs in einer Zero-Shot-Visual-Question-Answering-Methode (VQA) zu nutzen. Konkret fordern wir ein eingefrorenes PVLM auf, indem wir hasserfüllte inhaltsbezogene Fragen stellen und die Antworten als Bildbeschriftungen verwenden (die wir Pro-Cap nennen), sodass die Beschriftungen Informationen enthalten, die für die Erkennung hasserfüllter Inhalte entscheidend sind. Die gute Leistung von Modellen mit Pro-Cap bei drei Benchmarks bestätigt die Wirksamkeit und Generalisierbarkeit der vorgeschlagenen Methode.[1]

CCS-KONZEPTE

• Computermethoden → Verarbeitung natürlicher Sprache; Computer Vision-Darstellungen.

SCHLÜSSELWÖRTER

Meme, multimodal, semantische Extraktion

ACM-Referenzformat:

Rui Cao, Ming Shan Hee, Adriel Kuek, Wen-Haw Chong, Roy Ka-Wei Lee und Jing Jiang. 2023. Pro Cap: Nutzung eines Frozen Vision-Language-Modells zur Erkennung hasserfüllter Memes. In Proceedings der 31. ACM International Conference on Multimedia (MM '23), 29. Oktober – 3. November 2023, Ottawa, ON, Kanada. ACM, New York, NY, USA, 11 Seiten. https://doi.org/10.1145/3581783.3612498


Abbildung 1: Der vorgeschlagene Probe-Untertitelungsansatz. Wir fordern eingefrorene, vorab trainierte Bildsprachenmodelle durch visuelle Fragen und Antworten auf, um hasserfüllte Inhalte zentrierte Bildunterschriften zu generieren.


Haftungsausschluss: Dieses Dokument enthält Gewalt und diskriminierende Inhalte, die manche Leser verstörend finden könnten.

1. EINLEITUNG

Memes, die Bilder mit kurzen Texten kombinieren, sind eine beliebte Kommunikationsform in sozialen Online-Medien. Internet-Memes sollen oft Humor oder Satire ausdrücken. Sie werden jedoch zunehmend missbraucht, um hasserfüllte Inhalte über Online-Plattformen zu verbreiten. Hasserfüllte Memes greifen Einzelpersonen oder Gemeinschaften aufgrund ihrer Identität wie Rasse, Geschlecht oder Religion an [5, 8, 12, 27]. Die Verbreitung hasserfüllter Memes kann zu Zwietracht im Internet führen und möglicherweise Hassverbrechen zur Folge haben. Daher ist es dringend erforderlich, genaue Methoden zur Erkennung hasserfüllter Memes zu entwickeln.


Die Aufgabe der Erkennung hasserfüllter Memes ist aufgrund der multimodalen Natur von Memes eine Herausforderung. Die Erkennung umfasst nicht nur das Verstehen der Bilder und Texte, sondern auch das Verständnis, wie diese beiden Modalitäten interagieren. Frühere Arbeiten [14, 28, 35, 36] lernen modalübergreifende Interaktionen von Grund auf anhand von Datensätzen zur Erkennung hasserfüllter Memes. Es kann jedoch für Modelle schwierig sein, komplizierte multimodale Interaktionen mit der begrenzten Datenmenge zu erlernen, die aus diesen Datensätzen verfügbar ist. Mit der Entwicklung vortrainierter Vision-Language-Modelle (PVLMs) wie VisualBERT [18] und ViLBERT [23] nutzen neuere Arbeiten diese leistungsstarken PVLMs, um die Aufgabe der Erkennung hasserfüllter Memes zu erleichtern. Ein gängiger Ansatz besteht darin, PVLMs mit aufgabenspezifischen Daten [9, 20, 26, 34, 37] zu optimieren. Es ist jedoch weniger praktikabel, die größeren Modelle wie BLIP-2 [15] und Flamingo [1] auf die Meme-Erkennung zu optimieren, da es Milliarden von trainierbaren Parametern gibt. Daher sind andere rechnerisch realisierbare Lösungen als die direkte Feinabstimmung erforderlich, um große PVLMs zur Erleichterung der Erkennung hasserfüllter Memes zu nutzen.


Tabelle 1: Auswirkungen auf die Erkennungsleistung im FHM-Datensatz [12] aus Bildunterschriften. (w/o) kennzeichnet Modelle ohne zusätzliche Entitäts- und demografische Informationen.


Anders als der oben beschriebene Ansatz mit PVLMs ist PromptHate[2] ein kürzlich vorgeschlagenes Modell, das die multimodale Meme-Erkennungsaufgabe in eine unimodale maskierte Sprachmodellierungsaufgabe umwandelt. Es generiert zunächst Bildunterschriften für Memes mit einem handelsüblichen Bildunterschriftengenerator, ClipCap [25]. Indem es alle Eingabeinformationen in Text umwandelt, kann es ein vorab trainiertes Sprachmodell zusammen mit zwei anschaulichen Beispielen dazu auffordern, vorherzusagen, ob die Eingabe hasserfüllt ist oder nicht, indem es das umfangreiche Hintergrundwissen des Sprachmodells nutzt. Obwohl PromptHate eine Leistung auf dem neuesten Stand der Technik erreicht, wird es erheblich von der Qualität der Bildunterschriften beeinflusst, wie in Tabelle 1 gezeigt. Bildunterschriften, die lediglich generische Beschreibungen von Bildern sind, können wichtige Details [14, 37] weglassen, wie etwa die Rasse und das Geschlecht der Personen, die für die Erkennung hasserfüllter Inhalte wesentlich sind. Mit zusätzlichen Bild-Tags, wie etwa in den Bildern gefundenen Entitäten und demografischen Informationen über die abgebildeten Personen, lässt sich dasselbe Modell jedoch deutlich verbessern, wie in Tabelle 1 dargestellt. Die Generierung dieser zusätzlichen Bild-Tags ist jedoch mühsam und kostspielig. Beispielsweise wird die Entitätsextraktion normalerweise mit der Google Vision Web Entity Detection API [2] durchgeführt, einem kostenpflichtigen Dienst. Idealerweise würden wir gerne einen kostengünstigeren Weg finden, um Entitäts- und demografische Informationen aus den Bildern zu extrahieren, die für die Erkennung hasserfüllter Inhalte entscheidend sind.


Beide oben genannten Ansätze (der eine verwendet PVLMs, der andere wandelt die Aufgabe in eine unimodale Aufgabe um) haben ihre Vor- und Nachteile. In diesem Artikel kombinieren wir die Ideen dieser beiden Ansätze und entwickeln eine Methode zur Erkennung hasserfüllter Memes, die die Leistungsfähigkeit eines eingefrorenen PVLM nutzt, um den unimodalen Ansatz von PromptHate zu ergänzen. Konkret verwenden wir eine Reihe von „Sondierungsfragen“, um ein PVLM (BLIP-2 [15] in unseren Experimenten) nach Informationen zu häufigen gefährdeten Zielen in hasserfüllten Inhalten abzufragen. Die aus den Sondierungsfragen erhaltenen Antworten werden als Bildunterschriften (als Pro-Cap bezeichnet) behandelt und als Eingabe für ein trainierbares Modell zur Erkennung hasserfüllter Memes verwendet. Abbildung 1 veranschaulicht den allgemeinen Arbeitsablauf der Methode. Den Schritt der Verwendung von Sondierungsfragen zur Generierung der Untertitel bezeichnen wir als sondierungsbasierte Untertitelung.


Unsere vorgeschlagene Methode füllt bestehende Forschungslücken, indem sie: 1) ein PVLM ohne jegliche Anpassung oder Feinabstimmung nutzt und dadurch den Rechenaufwand reduziert; 2) anstatt explizit zusätzliche Bild-Tags mit kostspieligen APIs zu erhalten, verwenden wir das eingefrorene PVLM, um Bildunterschriften zu generieren, die Informationen enthalten, die für die Erkennung hasserfüllter Memes nützlich sind. Nach bestem Wissen und Gewissen ist dies die erste Arbeit, die PVLMs in einer Zero-Shot-Manier durch Fragen und Antworten nutzt, um bei der Erkennung hasserfüllter Memes zu helfen. Um unsere Methode weiter zu validieren, testen wir die Wirkung des generierten Pro-Cap sowohl auf PromptHate[2] als auch auf ein BERT-basiertes[4] Modell zur Erkennung hasserfüllter Memes.


Basierend auf den experimentellen Ergebnissen stellen wir fest, dass PromptHate mit Pro-Cap (bezeichnet als Pro-CapPromptHate) das ursprüngliche PromptHate ohne zusätzliche Bild-Tags deutlich übertrifft (d. h. etwa 4, 6 und 3 Prozentpunkte absolute Leistungsverbesserung bei FHM [12], MAMI [5] und HarM [28]). ProCapPromptHate erzielt auch mit zusätzlichen Bild-Tags vergleichbare Ergebnisse mit PromptHate, was darauf hindeutet, dass sondierungsbasierte Untertitelung eine kostengünstigere Möglichkeit sein kann, Bildelemente oder demografische Informationen zu erhalten. Fallstudien zeigen außerdem, dass Pro-Cap wichtige Bilddetails für die Erkennung hasserfüllter Inhalte bietet und so die Erklärbarkeit von Modellen in gewissem Maße verbessert. Gleichzeitig übertrifft ProCapBERT multimodale BERT-basierte Modelle ähnlicher Größe deutlich (d. h. etwa 7 Prozentpunkte absolute Verbesserung mit VisualBERT bei FHM [12]), was die Verallgemeinerung der sondierungsbasierten Untertitelungsmethode beweist.




[1] Code ist verfügbar unter: https://github.com/Social-AI-Studio/Pro-Cap


[2] https://cloud.google.com/vision/docs/detecting-web