paint-brush
Pro-Cap: ヘイトミーム検出のための凍結視覚言語モデルの活用: 付録@memeology
201 測定値

Pro-Cap: ヘイトミーム検出のための凍結視覚言語モデルの活用: 付録

長すぎる; 読むには

この付録では、ヘイトミームの検出モデルの実装に関する詳細な情報、アブレーション研究からの洞察、Pro-Cap と基本的な PromptHate の視覚的な比較、単一の調査質問からの回答を使用することの影響を強調する結果を提供し、ミームの検出モデルの最適化の方向性を示唆しています。
featured image - Pro-Cap: ヘイトミーム検出のための凍結視覚言語モデルの活用: 付録
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

この論文はCC 4.0ライセンスの下でarxivで公開されています。

著者:

(1)ルイ・カオ、シンガポール経営大学

(2)シンガポールデザインテクノロジー大学のミン・シャン・ヒー氏

(3)アドリエル・クエク、DSO国立研究所

(4)ウェンホー・チョン、シンガポール経営大学

(5)ロイ・カウェイ・リー、シンガポールデザインテクノロジー大学

(6)シンガポール経営大学のJing Jiang氏

リンク一覧

概要と序論

関連作業

予備

提案手法

実験

結論と参考文献

付録

付録

表 9: HarM データセットにおける Pro-CapPromptHate と基本 PromptHate の比較。

実施の詳細

すべてのモデルは、CUDA11.2バージョンのPyTorchライブラリで実装されています。Tesla V 100 GPUを使用し、それぞれに32GBの専用メモリが搭載されています。憎悪ミーム検出用に特別に実装されたモデルについては、著者が公開したコードを使用して再実装しました[4]。Huggingfaceライブラリにある事前トレーニング済みモデルについては、Huggingface [5]のパッケージ、具体的にはBERT [4]、VisualBERT [18]、BLIPモデルを使用しています。ViLBERT [23]については、著者が公開したコードを使用しています[6]。ALBEF [17]とBLIP-2 [15]については、LAVISライブラリ[7]のパッケージを使用しています。


表 12: 拡張画像タグがない場合のモデル比較。


表 13: 単一の調査質問のみを行った場合のモデルのパフォーマンス。


各ミーム画像について、ミームテキストと一般的な画像キャプション(キャプションモデルから、または画像の内容について質問することによって)の合計の長さを 65 に制限します。追加の質問ごとに、その長さを 20 未満に制限します。文の連結が制限された長さを超える場合、文は切り捨てられ、文が制限された長さより短い場合は、パディングされます。すべてのモデルでトレーニングエポックの数を 10 に設定しました。


モデルパラメータの数は表11にまとめられています。

B 完全アブレーション研究結果

スペースの制限により、表 6 ではアブレーション研究における精度の結果のみを示します。AUC と精度の両方を含む完全な結果は表 12 に示されています。

C 可視化事例

セクション 5.5 では、ProCapPromptHate と基本的な PromptHate を比較するケースを視覚化します。スペースの制約により、他の 2 つのデータセットの例は省略します。この部分では、さらに多くの視覚化ケースを示します。HarM データセットのケースは表 9 に示され、MAMI データセットのケースは表 10 に示されています。

D 1つのターゲットに関するPRO-CAPの結果

セクション 5 では、モデルがすべてのプロービング質問から Pro-Cap を使用した場合の結果のみを報告します。この部分では、表 13 の単一のプロービング質問からの回答を使用した場合の結果 (エンティティを含む) を報告します。


結果によると、単一の探究的な質問に対する回答を使用するモデルはすべて強力であり、いくつかのモデルは経験的にすべての探究的な質問をすることよりも優れていることがわかりました(たとえば、FHMで国籍を尋ねる質問を使用する方が、すべての探究的な質問を使用するよりも優れています)。すべての探究的なキャプションを使用することが最適なソリューションではない可能性があり、無関係な画像の説明が生成される可能性があることを指摘しています。たとえば、黒人をターゲットにした憎悪的なミームに直面した場合、画像内の人々の宗教を尋ねることは意味がありません。興味深いことに、MAMIでは、性別に関する探究的な質問に対する回答のみを使用すると、最高のパフォーマンスが得られます。これは、MAMIに女性に関する憎悪的なミームのみが含まれているためです。有望な方向性は、さまざまなミームのミーム検出に不可欠な探究的な質問を動的に選択するようにモデルをトレーニングすることです。





[4] CLIP-BERT/MOMENTA: https://github.com/LCS2-IIITD/MOMENTA;DisMultiHate: https://gitlab.com/bottle_shop/safe/dismultihate; PromptHate: https://gitlab.com/bottle_shop/safe/prompthate


[5] https://huggingface.co/


[6] https://github.com/facebookresearch/vilbert-multi-task


[7] https://github.com/salesforce/LAVIS 探索的な質問をすべてヒューリスティックに行う(例: