paint-brush
혐오스러운 밈 탐지의 복잡성 탐색~에 의해@memeology
205 판독값

혐오스러운 밈 탐지의 복잡성 탐색

너무 오래; 읽다

PVLM 미세 조정, 모델 앙상블, BERT 및 CLIP과 같은 사전 훈련된 모델 활용 등 증오성 밈 감지에 대한 다양한 방법론을 살펴보세요. 조사 기반 캡션 접근 방식이 밈의 혐오 콘텐츠 감지를 개선하기 위해 상황에 대한 이해를 어떻게 향상하는지 알아보세요.
featured image - 혐오스러운 밈 탐지의 복잡성 탐색
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

저자:

(1) 싱가포르 경영대학교 루이 카오(Rui Cao);

(2) 싱가포르 디자인 기술 대학교 Ming Shan Hee;

(3) DSO 국립 연구소의 Adriel Kuek;

(4) 싱가포르 경영대학교 Wen-Haw Chong;

(5) Roy Ka-Wei Lee, 싱가포르 디자인 기술 대학교

(6) 싱가포르 경영대학교 징장(Jing Jiang).

링크 표

개요 및 소개

관련된 일

예비의

제안된 방법

실험

결론 및 참고자료

부록

2 관련 업무

일반적으로 유머러스하거나 냉소적인 내용을 담고 있는 밈은 증오성 콘텐츠의 확산을 위해 점점 더 악용되고 있으며, 이는 온라인 증오성 밈 감지라는 어려운 작업으로 이어집니다[5, 12, 27]. 혐오스러운 밈의 확산을 막기 위해 한 작업 라인에서는 혐오스러운 밈 감지를 다중 모드 분류 작업으로 간주합니다. 연구자들은 사전 훈련된 비전 언어 모델(PVLM)을 적용하고 밈 감지 데이터를 기반으로 이를 미세 조정했습니다[20, 26, 34, 37]. 성능을 향상시키기 위해 일부에서는 모델 앙상블을 시도했습니다 [20, 26, 34]. 또 다른 작업 라인에서는 사전 훈련된 모델(예: BERT [4] 및 CLIP [29])을 작업별 모델 아키텍처와 결합하고 이를 엔드 투 엔드로 조정하는 것을 고려합니다[13, 14, 28]. 최근 [2]의 저자는 모든 밈 정보를 텍스트로 변환하고 언어 모델에 존재하는 상황별 배경 지식을 더 잘 활용할 수 있도록 언어 모델을 유도하려고 시도했습니다. 이 접근 방식은 두 개의 혐오스러운 밈 탐지 벤치마크에서 최첨단 결과를 달성합니다. 그러나 이미지 캡션을 통해 이미지를 설명하는 일반적인 방법을 채택하며, 증오성 밈 감지에 필요한 중요한 요소를 무시하는 경우가 많습니다. 이 작업에서 우리는 제로샷 VQA 방식으로 혐오스러운 콘텐츠 중심 질문으로 사전 훈련된 비전 언어 모델을 프롬프트함으로써 프로브 기반 캡션을 통해 이 문제를 해결하려고 합니다.


이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.