저자:
(1) 싱가포르 경영대학교 루이 카오(Rui Cao);
(2) 싱가포르 디자인 기술 대학교 Ming Shan Hee;
(3) DSO 국립 연구소의 Adriel Kuek;
(4) 싱가포르 경영대학교 Wen-Haw Chong;
(5) Roy Ka-Wei Lee, 싱가포르 디자인 기술 대학교
(6) 싱가포르 경영대학교 징장(Jing Jiang).
일반적으로 유머러스하거나 냉소적인 내용을 담고 있는 밈은 증오성 콘텐츠의 확산을 위해 점점 더 악용되고 있으며, 이는 온라인 증오성 밈 감지라는 어려운 작업으로 이어집니다[5, 12, 27]. 혐오스러운 밈의 확산을 막기 위해 한 작업 라인에서는 혐오스러운 밈 감지를 다중 모드 분류 작업으로 간주합니다. 연구자들은 사전 훈련된 비전 언어 모델(PVLM)을 적용하고 밈 감지 데이터를 기반으로 이를 미세 조정했습니다[20, 26, 34, 37]. 성능을 향상시키기 위해 일부에서는 모델 앙상블을 시도했습니다 [20, 26, 34]. 또 다른 작업 라인에서는 사전 훈련된 모델(예: BERT [4] 및 CLIP [29])을 작업별 모델 아키텍처와 결합하고 이를 엔드 투 엔드로 조정하는 것을 고려합니다[13, 14, 28]. 최근 [2]의 저자는 모든 밈 정보를 텍스트로 변환하고 언어 모델에 존재하는 상황별 배경 지식을 더 잘 활용할 수 있도록 언어 모델을 유도하려고 시도했습니다. 이 접근 방식은 두 개의 혐오스러운 밈 탐지 벤치마크에서 최첨단 결과를 달성합니다. 그러나 이미지 캡션을 통해 이미지를 설명하는 일반적인 방법을 채택하며, 증오성 밈 감지에 필요한 중요한 요소를 무시하는 경우가 많습니다. 이 작업에서 우리는 제로샷 VQA 방식으로 혐오스러운 콘텐츠 중심 질문으로 사전 훈련된 비전 언어 모델을 프롬프트함으로써 프로브 기반 캡션을 통해 이 문제를 해결하려고 합니다.
이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.