paint-brush
Pro-Cap: Nutzung eines Frozen Vision-Language-Modells zur Erkennung hasserfüllter Memes: Anhangvon@memeology
159 Lesungen

Pro-Cap: Nutzung eines Frozen Vision-Language-Modells zur Erkennung hasserfüllter Memes: Anhang

Zu lang; Lesen

Dieser Anhang enthält ausführliche Informationen zur Implementierung von Modellen zur Erkennung hasserfüllter Memes, Erkenntnisse aus Ablationsstudien, visuelle Vergleiche von Pro-Cap und dem grundlegenden PromptHate sowie Ergebnisse, die die Auswirkungen der Verwendung von Antworten aus einzelnen Sondierungsfragen hervorheben und Optimierungsrichtungen für Meme-Erkennungsmodelle vorschlagen.
featured image - Pro-Cap: Nutzung eines Frozen Vision-Language-Modells zur Erkennung hasserfüllter Memes: Anhang
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar.

Autoren:

(1) Rui Cao, Singapore Management University;

(2) Ming Shan Hee, Singapore University of Design and Technology;

(3) Adriel Kuek, DSO National Laboratories;

(4) Wen-Haw Chong, Singapore Management University;

(5) Roy Ka-Wei Lee, Singapore University of Design and Technology

(6) Jing Jiang, Singapore Management University.

Linktabelle

Zusammenfassung und Einleitung

Ähnliche Projekte

Vorläufig

Vorgeschlagene Methode

Experiment

Schlussfolgerung und Referenzen

Anhang

ANHANG

Tabelle 9: Vergleich zwischen Pro-CapPromptHate und grundlegendem PromptHate im HarM-Datensatz.

A DETAILS ZUR UMSETZUNG

Wir implementieren alle Modelle unter der PyTorch-Bibliothek mit der Version CUDA11.2. Wir verwenden die Tesla V 100 GPU, jeweils mit einem dedizierten Speicher von 32 GB. Für Modelle, die speziell für die Erkennung hasserfüllter Memes implementiert wurden, verwenden wir die vom Autor veröffentlichten Codes zur Neuimplementierung [4]. Für vortrainierte Modelle, die in der Huggingface-Bibliothek zu finden sind, verwenden wir die Pakete von Huggingface [5], insbesondere das BERT-Modell [4], VisualBERT [18] und das BLIP-Modell. Für ViLBERT [23] verwenden wir den von den Autoren veröffentlichten Code [6]. Für ALBEF [17] und BLIP-2 [15] verwenden wir die Pakete der LAVIS-Bibliothek [7].


Tabelle 12: Modellvergleich ohne erweiterte Bild-Tags.


Tabelle 13: Leistung des Modells beim Stellen nur einer einzigen Sondierungsfrage.


Für jedes Meme-Bild beschränken wir die Gesamtlänge des Meme-Texts und der allgemeinen Bildunterschrift (entweder aus dem Untertitelmodell oder durch Abfrage des Bildinhalts) auf 65. Für jede weitere Frage beschränken wir ihre Länge auf weniger als 20. Wenn die Verkettung des Satzes die begrenzte Länge überschreitet, wird der Satz gekürzt, andernfalls, wenn der Satz kürzer als die begrenzte Länge ist, wird er aufgefüllt. Wir legen die Anzahl der Trainingsepochen für alle Modelle auf 10 fest.


Die Anzahl der Modellparameter ist in Tabelle 11 zusammengefasst.

B ERGEBNISSE DER VOLLSTÄNDIGEN ABLATIONSSTUDIE

Aus Platzgründen zeigen wir in Tabelle 6 nur Ergebnisse zur Genauigkeit in Ablationsstudien. Die vollständigen Ergebnisse einschließlich AUC und Genauigkeit finden Sie in Tabelle 12.

C VISUALISIERUNGSFÄLLE

In Abschnitt 5.5 visualisieren wir Fälle zum Vergleich von ProCapPromptHate mit dem grundlegenden PromptHate. Aus Platzgründen lassen wir Beispiele aus den anderen beiden Datensätzen weg. In diesem Teil stellen wir weitere Visualisierungsfälle zur Verfügung. Die Fälle aus dem HarM-Datensatz sind in Tabelle 9 dargestellt und die Fälle aus dem MAMI-Datensatz in Tabelle 10.

D ERGEBNISSE MIT PRO-CAP ÜBER EIN ZIEL

In Abschnitt 5 berichten wir nur über Ergebnisse, wenn Modelle Pro-Cap aus allen Sondierungsfragen verwenden. In diesem Teil berichten wir über Ergebnisse (mit Entitäten), wenn die Antworten aus einer einzigen Sondierungsfrage in Tabelle 13 verwendet werden.


Den Ergebnissen zufolge stellen wir fest, dass Modelle, die Antworten auf eine einzige Sondierungsfrage verwenden, alle leistungsfähig sind und einige sogar die heuristische Frage nach allen Sondierungsfragen übertreffen (z. B. ist es bei FHM besser, die Frage nach der Nationalität zu stellen als alle Sondierungsfragen). Es wird deutlich, dass die Verwendung von Sondierungsunterschriften möglicherweise nicht die optimale Lösung ist und irrelevante Bildbeschreibungen generieren kann. Wenn man beispielsweise mit einem Hassmeme konfrontiert wird, das sich gegen Schwarze richtet, ist es sinnlos, nach der Religion der Personen auf dem Bild zu fragen. Interessanterweise wird bei MAMI die beste Leistung erzielt, wenn nur Antworten auf die Sondierungsfrage nach dem Geschlecht verwendet werden. Das liegt daran, dass MAMI nur Hassmemes über Frauen enthält. Eine vielversprechende Richtung wäre, das Modell zu trainieren, dynamisch Sondierungsfragen auszuwählen, die für die Memeerkennung für verschiedene Meme wesentlich sind.





[4] CLIP-BERT/MOMENTA: https://github.com/LCS2-IIITD/MOMENTA;DisMultiHate: https://gitlab.com/bottle_shop/safe/dismultihate; PromptHate: https://gitlab.com/bottle_shop/safe/prompthate


[5] https://huggingface.co/


[6] https://github.com/facebookresearch/vilbert-multi-task


[7] https://github.com/salesforce/LAVIS heuristisches Stellen aller Sondierungsfragen (z. B. unter Verwendung