著者:
(1)ルイ・カオ、シンガポール経営大学
(2)シンガポールデザインテクノロジー大学のミン・シャン・ヒー氏
(3)アドリエル・クエク、DSO国立研究所
(4)ウェンホー・チョン、シンガポール経営大学
(5)ロイ・カウェイ・リー、シンガポールデザインテクノロジー大学
(6)シンガポール経営大学のJing Jiang氏
ヘイトミームの検出は、視覚と言語の両方の理解、およびクロスモーダルインタラクションを必要とする、困難なマルチモーダルタスクです。最近の研究では、このタスクのために事前トレーニング済みの視覚言語モデル (PVLM) を微調整しようとしてきました。しかし、モデルのサイズが大きくなるにつれて、単に微調整するのではなく、強力な PVLM をより効率的に活用することが重要になります。最近、研究者はミーム画像をテキストキャプションに変換し、予測のために言語モデルを促すことを試みてきました。このアプローチは優れたパフォーマンスを示していますが、情報量の少ない画像キャプションに悩まされています。上記の 2 つの要因を考慮して、ゼロショットのビジュアル質問応答 (VQA) 方式で PVLM を活用するためのプローブベースのキャプション作成アプローチを提案します。具体的には、ヘイトコンテンツに関連する質問をして凍結した PVLM を促し、その回答を画像キャプションとして使用します (これを Pro-Cap と呼びます)。これにより、キャプションにはヘイトコンテンツの検出に不可欠な情報が含まれます。 3つのベンチマークでPro-Capを使用したモデルが良好なパフォーマンスを示したことは、提案された方法の有効性と一般性を検証しています。[1]
• コンピューティング方法論 → 自然言語処理、コンピュータービジョン表現。
ミーム、マルチモーダル、意味抽出
Rui Cao、Ming Shan Hee、Adriel Kuek、Wen-Haw Chong、Roy Ka-Wei Lee、Jing Jiang。2023。Pro Cap: ヘイトミーム検出のための凍結視覚言語モデルの活用。第31回ACM国際マルチメディア会議(MM '23)の議事録、2023年10月29日~11月3日、カナダ、オンタリオ州オタワ。ACM、米国ニューヨーク州ニューヨーク、11ページ。https://doi.org/10.1145/3581783.3612498
免責事項:この論文には、一部の読者に不快感を与える可能性のある暴力および差別的な内容が含まれています。
画像と短いテキストを組み合わせたミームは、オンラインソーシャルメディアで人気のコミュニケーション形式です。インターネットミームは、ユーモアや風刺を表現することを目的としていますが、オンラインプラットフォーム上で憎悪的なコンテンツを広めるために悪用されることが増えています。憎悪的なミームは、人種、性別、宗教などのアイデンティティに基づいて個人やコミュニティを攻撃します[5、8、12、27]。憎悪的なミームの伝播は、オンラインでの不和につながり、ヘイトクライムにつながる可能性があります。したがって、正確な憎悪的なミームの検出方法の開発が急務となっています。
憎悪ミームの検出タスクは、ミームのマルチモーダルな性質のために困難です。検出には、画像とテキストの両方を理解するだけでなく、これら2つのモダリティがどのように相互作用するかを理解する必要があります。以前の研究[14、28、35、36]では、憎悪ミームの検出データセットを使用して、クロスモーダル相互作用をゼロから学習しました。ただし、これらのデータセットから入手できるデータの量が限られているため、モデルが複雑なマルチモーダル相互作用を学習するのは難しい場合があります。VisualBERT [18]やViLBERT [23]などの事前学習済み視覚言語モデル(PVLM)の開発により、最近の研究ではこれらの強力なPVLMを活用して憎悪ミームの検出タスクを容易にしています。一般的なアプローチは、タスク固有のデータを使用してPVLMを微調整することです[9、20、26、34、37]。しかし、BLIP-2 [15]やFlamingo [1]などの大規模なモデルをミーム検出に微調整することは、数十億の訓練可能なパラメータがあるため、実現可能性が低くなります。したがって、大規模なPVLMを活用してヘイトミームの検出を容易にするには、直接的な微調整以外の計算上実行可能なソリューションが必要です。
PVLMを使用する上記のアプローチとは異なり、PromptHate[2]は、マルチモーダルミーム検出タスクをユニモーダルマスク言語モデリングタスクに変換する最近提案されたモデルです。最初に、既製の画像キャプションジェネレータであるClipCap [25]を使用してミームの画像キャプションを生成します。すべての入力情報をテキストに変換することにより、言語モデルの豊富な背景知識を活用して、入力がヘイトであるかどうかを予測するために、2つの実証例とともに事前学習済みの言語モデルを促すことができます。PromptHateは最先端のパフォーマンスを実現しますが、表1に示すように、画像キャプションの品質に大きく影響されます。画像の一般的な説明にすぎない画像キャプションは、人種や性別など、ヘイトコンテンツの検出に不可欠な重要な詳細[14、37]を省略している可能性があります。しかし、画像内に見つかったエンティティや画像内の人物に関する人口統計情報などの追加の画像タグを使用すると、表1に示すように、同じモデルを大幅に改善できます。ただし、これらの追加の画像タグを生成するのは面倒でコストがかかります。たとえば、エンティティの抽出は通常、有料サービスであるGoogle Vision Web Entity Detection API [2]を使用して行われます。理想的には、ヘイトコンテンツの検出に不可欠なエンティティと人口統計情報を画像から取得するための、より手頃な方法を見つけたいと考えています。
前述の両方のアプローチ(つまり、1つはPVLMを使用し、もう1つはタスクをユニモーダルタスクに変換する)には、長所と短所があります。本稿では、これら2つのアプローチのアイデアを組み合わせ、凍結されたPVLMの力を活用してPromptHateのユニモーダルアプローチを補完するヘイトミームの検出方法を設計します。具体的には、一連の「プロービング」質問を使用して、ヘイトコンテンツ内の一般的な脆弱なターゲットに関連する情報をPVLM(実験ではBLIP-2 [15])に照会します。プロービング質問から得られた回答は画像キャプション(Pro-Capと表記)として扱われ、トレーニング可能なヘイトミームの検出モデルへの入力として使用されます。図1は、この方法の全体的なワークフローを示しています。プロービング質問を使用してキャプションを生成するステップを、プロービングベースのキャプションと呼びます。
我々の提案する方法は、1) 適応や微調整をせずにPVLMを活用し、計算コストを削減することで、既存の研究のギャップを埋めます。2) 高価なAPIを使用して追加の画像タグを明示的に取得する代わりに、凍結されたPVLMを利用して、ヘイトミームの検出に役立つ情報を含むキャプションを生成します。我々の知る限りでは、これは質問応答を通じてゼロショット方式でPVLMを活用し、ヘイトミームの検出タスクを支援する最初の研究です。我々の方法をさらに検証するために、生成されたPro-CapがPromptHate[2]とBERTベース[4]のヘイトミームの検出モデルの両方に与える影響をテストします。
実験結果に基づくと、Pro-Cap を使用した PromptHate (Pro-CapPromptHate と表記) は、追加の画像タグのない元の PromptHate を大幅に上回っていることがわかります (つまり、FHM [12]、MAMI [5]、HarM [28] でそれぞれ約 4、6、3 パーセントポイントの絶対パフォーマンスの向上)。ProCapPromptHate は、追加の画像タグを使用した PromptHate と同等の結果も達成しており、プロービングベースのキャプション作成が、画像エンティティや人口統計情報を取得するためのより手頃な方法になり得ることを示しています。ケーススタディではさらに、Pro-Cap がヘイトコンテンツの検出に不可欠な画像の詳細を提供し、モデルの説明可能性をある程度高めていることが示されています。一方、ProCapBERT は、同様のサイズのマルチモーダル BERT ベースのモデルを明らかに上回っており (つまり、FHM [12] での VisualBERT の絶対改善が約 7 パーセントポイント)、プロービングベースのキャプション作成方法の一般化を証明しています。
[1] コードはhttps://github.com/Social-AI-Studio/Pro-Capから入手可能
[2] https://cloud.google.com/vision/docs/detecting-web
この論文はCC 4.0ライセンスの下でarxivで公開されています。