저자:
(1) 싱가포르 경영대학교 루이 카오(Rui Cao);
(2) 싱가포르 디자인 기술 대학교 Ming Shan Hee;
(3) DSO 국립 연구소의 Adriel Kuek;
(4) 싱가포르 경영대학교 Wen-Haw Chong;
(5) Roy Ka-Wei Lee, 싱가포르 디자인 기술 대학교
(6) 싱가포르 경영대학교 징장(Jing Jiang).
혐오스러운 밈 탐지는 비전과 언어뿐 아니라 교차 모드 상호 작용에 대한 이해가 필요한 까다로운 다중 모드 작업입니다. 최근 연구에서는 이 작업을 위해 사전 훈련된 PVLM(시각 언어 모델)을 미세 조정하려고 시도했습니다. 그러나 모델 크기가 증가함에 따라 단순히 미세 조정하는 것보다 강력한 PVLM을 보다 효율적으로 활용하는 것이 중요해졌습니다. 최근 연구자들은 밈 이미지를 텍스트 캡션으로 변환하고 예측을 위한 언어 모델을 제시하려고 시도했습니다. 이 접근 방식은 좋은 성능을 보여주었지만 정보가 없는 이미지 캡션으로 인해 문제가 발생했습니다. 위에서 언급한 두 가지 요소를 고려하여 제로 샷 시각적 질문 응답(VQA) 방식으로 PVLM을 활용하는 프로빙 기반 캡션 접근 방식을 제안합니다. 특히 증오성 콘텐츠 관련 질문을 통해 고정 PVLM을 유도하고 답변을 이미지 캡션(Pro-Cap이라고 함)으로 사용하여 캡션에 증오성 콘텐츠 감지에 중요한 정보가 포함되도록 합니다. 세 가지 벤치마크에서 Pro-Cap을 사용한 모델의 우수한 성능은 제안된 방법의 효율성과 일반화를 검증합니다.[1]
• 컴퓨팅 방법론 → 자연어 처리; 컴퓨터 비전 표현.
밈, 다중 모드, 의미 추출
Rui Cao, Ming Shan Hee, Adriel Kuek, Wen-Haw Chong, Roy Ka-Wei Lee, Jing Jiang. 2023. Pro Cap: 혐오스러운 밈 탐지를 위해 고정된 비전 언어 모델 활용. 2023년 10월 29일부터 11월 3일까지 캐나다 온타리오주 오타와에서 개최된 제31회 ACM 국제 멀티미디어 회의(MM '23) 간행물. ACM, 뉴욕, 뉴욕, 미국, 11페이지. https://doi.org/10.1145/3581783.3612498
면책 조항: 이 문서에는 일부 독자에게 불쾌감을 줄 수 있는 폭력 및 차별적인 내용이 포함되어 있습니다.
이미지와 짧은 텍스트를 결합한 밈은 온라인 소셜 미디어에서 널리 사용되는 커뮤니케이션 형태입니다. 인터넷 밈은 대개 유머나 풍자를 표현하기 위한 것입니다. 그러나 온라인 플랫폼 전반에 증오 콘텐츠를 퍼뜨리는 데 악용되는 경우가 점점 늘어나고 있습니다. 혐오스러운 밈은 인종, 성별, 종교와 같은 정체성을 기반으로 개인이나 커뮤니티를 공격합니다[5, 8, 12, 27]. 혐오스러운 밈의 전파는 온라인에서 불화를 불러일으킬 수 있으며 잠재적으로 증오범죄로 이어질 수도 있습니다. 따라서 정확한 혐오 밈 탐지 방법의 개발이 시급합니다.
혐오스러운 밈을 탐지하는 작업은 밈의 다양한 특성으로 인해 어렵습니다. 탐지에는 이미지와 텍스트를 모두 이해하는 것뿐만 아니라 이 두 가지 양식이 어떻게 상호 작용하는지 이해하는 것도 포함됩니다. 이전 연구[14, 28, 35, 36]는 혐오스러운 밈 감지 데이터 세트를 사용하여 처음부터 교차 모달 상호 작용을 학습합니다. 그러나 모델이 이러한 데이터 세트에서 사용할 수 있는 제한된 양의 데이터로 복잡한 다중 모드 상호 작용을 학습하는 것은 어려울 수 있습니다. VisualBERT[18] 및 ViLBERT[23]와 같은 PVLM(사전 훈련된 비전 언어 모델)의 개발로 최근 연구에서는 이러한 강력한 PVLM을 활용하여 혐오스러운 밈 감지 작업을 용이하게 합니다. 일반적인 접근 방식은 작업별 데이터를 사용하여 PVLM을 미세 조정하는 것입니다[9, 20, 26, 34, 37]. 그러나 훈련 가능한 매개변수가 수십억 개 있기 때문에 밈 감지에 대한 BLIP-2[15] 및 Flamingo[1]와 같은 대규모 모델을 미세 조정하는 것은 실현 가능성이 낮습니다. 따라서 혐오스러운 밈 탐지를 촉진하기 위해 대규모 PVLM을 활용하려면 직접 미세 조정이 아닌 계산적으로 실행 가능한 솔루션이 필요합니다.
PVLM을 사용한 위의 접근 방식과 달리 PromptHate[2]는 다중 모드 밈 감지 작업을 단일 모드 마스크 언어 모델링 작업으로 변환하는 최근 제안된 모델입니다. 먼저 상용 이미지 캡션 생성기인 ClipCap[25]을 사용하여 밈 이미지 캡션을 생성합니다. 모든 입력 정보를 텍스트로 변환함으로써 언어 모델의 풍부한 배경 지식을 활용하여 입력이 증오인지 여부를 예측하는 두 가지 예시와 함께 사전 훈련된 언어 모델을 유도할 수 있습니다. PromptHate는 최첨단 성능을 달성하지만 표 1과 같이 이미지 캡션의 품질에 크게 영향을 받습니다. 이미지에 대한 일반적인 설명일 뿐인 이미지 캡션에서는 다음과 같은 중요한 세부 정보가 누락될 수 있습니다[14, 37]. 혐오 콘텐츠 탐지에 필수적인 인종과 성별. 그러나 이미지에서 발견된 엔터티 및 이미지 속 사람에 대한 인구통계 정보와 같은 추가 이미지 태그를 사용하면 표 1에 표시된 것처럼 동일한 모델을 크게 향상시킬 수 있습니다. 그러나 이러한 추가 이미지 태그를 생성하는 것은 힘들고 비용이 많이 듭니다. 예를 들어 엔터티 추출은 일반적으로 유료 서비스인 Google Vision Web EntityDetection API[2]를 사용하여 수행됩니다. 이상적으로 우리는 혐오 콘텐츠 탐지에 중요한 이미지로부터 개체 및 인구통계 정보를 얻을 수 있는 보다 저렴한 방법을 찾고 싶습니다.
위에서 언급한 두 가지 접근 방식(예: PVLM을 사용하는 방법과 작업을 단봉 작업으로 변환하는 방법)에는 장단점이 있습니다. 본 논문에서는 이 두 가지 접근 방식의 아이디어를 결합하고 PromptHate의 단일 모드 접근 방식을 보완하기 위해 냉동 PVLM의 기능을 활용하는 혐오 밈 탐지 방법을 설계합니다. 특히, 우리는 혐오 콘텐츠의 일반적인 취약한 대상과 관련된 정보를 PVLM(실험에서 BLIP-2 [15])에 쿼리하기 위해 일련의 "탐색" 질문을 사용합니다. 조사 질문에서 얻은 답변은 이미지 캡션(Pro-Cap으로 표시됨)으로 처리되며 학습 가능한 혐오 밈 감지 모델에 대한 입력으로 사용됩니다. 그림 1은 이 방법의 전반적인 작업흐름을 보여줍니다. 프로빙 기반 캡션으로 캡션을 생성하기 위해 프로빙 질문을 사용하는 단계를 참조합니다.
우리가 제안한 방법은 다음을 통해 기존 연구 격차를 해소합니다. 1) 조정이나 미세 조정 없이 PVLM을 활용하여 계산 비용을 줄입니다. 2) 비용이 많이 드는 API를 사용하여 추가 이미지 태그를 명시적으로 얻는 대신 고정 PVLM을 활용하여 혐오스러운 밈 감지에 유용한 정보가 포함된 캡션을 생성합니다. 우리가 아는 한, 이는 혐오스러운 밈 탐지 작업을 지원하기 위해 질문 답변을 통해 제로샷 방식으로 PVLM을 활용하는 첫 번째 작업입니다. 우리 방법을 더욱 검증하기 위해 생성된 Pro-Cap이 PromptHate[2]와 BERT 기반[4] 혐오 밈 탐지 모델 모두에 미치는 영향을 테스트합니다.
실험 결과를 바탕으로 우리는 Pro-Cap이 포함된 PromptHate(Pro-CapPromptHate로 표시됨)가 추가 이미지 태그가 없는 원래 PromptHate를 크게 능가한다는 것을 관찰했습니다(즉, FHM에서 절대 성능 향상의 약 4, 6, 3% 포인트 [12 ], MAMI [5] 및 HarM [28] 각각). ProCapPromptHate는 또한 추가 이미지 태그를 사용하여 PromptHate와 비슷한 결과를 얻었습니다. 이는 프로빙 기반 캡션이 이미지 엔터티나 인구통계 정보를 얻는 더 저렴한 방법일 수 있음을 나타냅니다. 사례 연구에 따르면 Pro-Cap은 혐오 콘텐츠 감지를 위한 필수 이미지 세부 정보를 제공하여 모델의 설명 가능성을 어느 정도 향상시킵니다. 한편, ProCapBERT는 유사한 크기의 다중 모달 BERT 기반 모델(즉, FHM에서 VisualBERT를 사용한 절대 개선의 약 7% 포인트[12])을 확실히 능가하여 프로빙 기반 캡션 방법의 일반화를 입증합니다.
[1] 코드는 https://github.com/Social-AI-Studio/Pro-Cap에서 확인할 수 있습니다.
[2] https://cloud.google.com/vision/docs/Detecting-web
이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.