この論文はCC 4.0ライセンスの下でarxivで公開されています。
著者:
(1)ルイ・カオ、シンガポール経営大学
(2)シンガポールデザインテクノロジー大学のミン・シャン・ヒー氏
(3)アドリエル・クエク、DSO国立研究所
(4)ウェンホー・チョン、シンガポール経営大学
(5)ロイ・カウェイ・リー、シンガポールデザインテクノロジー大学
(6)シンガポール経営大学のJing Jiang氏
すべてのモデルは、CUDA11.2バージョンのPyTorchライブラリで実装されています。Tesla V 100 GPUを使用し、それぞれに32GBの専用メモリが搭載されています。憎悪ミーム検出用に特別に実装されたモデルについては、著者が公開したコードを使用して再実装しました[4]。Huggingfaceライブラリにある事前トレーニング済みモデルについては、Huggingface [5]のパッケージ、具体的にはBERT [4]、VisualBERT [18]、BLIPモデルを使用しています。ViLBERT [23]については、著者が公開したコードを使用しています[6]。ALBEF [17]とBLIP-2 [15]については、LAVISライブラリ[7]のパッケージを使用しています。
各ミーム画像について、ミームテキストと一般的な画像キャプション(キャプションモデルから、または画像の内容について質問することによって)の合計の長さを 65 に制限します。追加の質問ごとに、その長さを 20 未満に制限します。文の連結が制限された長さを超える場合、文は切り捨てられ、文が制限された長さより短い場合は、パディングされます。すべてのモデルでトレーニングエポックの数を 10 に設定しました。
モデルパラメータの数は表11にまとめられています。
スペースの制限により、表 6 ではアブレーション研究における精度の結果のみを示します。AUC と精度の両方を含む完全な結果は表 12 に示されています。
セクション 5.5 では、ProCapPromptHate と基本的な PromptHate を比較するケースを視覚化します。スペースの制約により、他の 2 つのデータセットの例は省略します。この部分では、さらに多くの視覚化ケースを示します。HarM データセットのケースは表 9 に示され、MAMI データセットのケースは表 10 に示されています。
セクション 5 では、モデルがすべてのプロービング質問から Pro-Cap を使用した場合の結果のみを報告します。この部分では、表 13 の単一のプロービング質問からの回答を使用した場合の結果 (エンティティを含む) を報告します。
結果によると、単一の探究的な質問に対する回答を使用するモデルはすべて強力であり、いくつかのモデルは経験的にすべての探究的な質問をすることよりも優れていることがわかりました(たとえば、FHMで国籍を尋ねる質問を使用する方が、すべての探究的な質問を使用するよりも優れています)。すべての探究的なキャプションを使用することが最適なソリューションではない可能性があり、無関係な画像の説明が生成される可能性があることを指摘しています。たとえば、黒人をターゲットにした憎悪的なミームに直面した場合、画像内の人々の宗教を尋ねることは意味がありません。興味深いことに、MAMIでは、性別に関する探究的な質問に対する回答のみを使用すると、最高のパフォーマンスが得られます。これは、MAMIに女性に関する憎悪的なミームのみが含まれているためです。有望な方向性は、さまざまなミームのミーム検出に不可欠な探究的な質問を動的に選択するようにモデルをトレーニングすることです。
[4] CLIP-BERT/MOMENTA: https://github.com/LCS2-IIITD/MOMENTA;DisMultiHate: https://gitlab.com/bottle_shop/safe/dismultihate; PromptHate: https://gitlab.com/bottle_shop/safe/prompthate
[5] https://huggingface.co/
[6] https://github.com/facebookresearch/vilbert-multi-task
[7] https://github.com/salesforce/LAVIS 探索的な質問をすべてヒューリスティックに行う(例: