paint-brush
Pro-Cap: 혐오스러운 밈 탐지를 위해 고정된 시각-언어 모델 활용: 부록~에 의해@memeology
201 판독값

Pro-Cap: 혐오스러운 밈 탐지를 위해 고정된 시각-언어 모델 활용: 부록

너무 오래; 읽다

이 부록은 혐오스러운 밈 감지 모델 구현, 절제 연구에서 얻은 통찰력, Pro-Cap과 기본 PromptHate의 시각적 비교, 단일 조사 질문의 답변 사용이 미치는 영향을 강조하고 밈 감지 모델의 최적화 방향을 제안하는 결과에 대한 심층적인 세부 정보를 제공합니다.
featured image - Pro-Cap: 혐오스러운 밈 탐지를 위해 고정된 시각-언어 모델 활용: 부록
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.

저자:

(1) 싱가포르 경영대학교 루이 카오(Rui Cao);

(2) 싱가포르 디자인 기술 대학교 Ming Shan Hee;

(3) DSO 국립 연구소의 Adriel Kuek;

(4) 싱가포르 경영대학교 Wen-Haw Chong;

(5) Roy Ka-Wei Lee, 싱가포르 디자인 기술 대학교

(6) 싱가포르 경영대학교 징장(Jing Jiang).

링크 표

초록 및 소개

관련된 일

예비의

제안된 방법

실험

결론 및 참고자료

부록

부록

표 9: HarM 데이터세트의 Pro-CapPromptHate와 기본 PromptHate 비교.

구현 세부 사항

우리는 CUDA11.2 버전으로 PyTorch 라이브러리의 모든 모델을 구현합니다. 우리는 각각 32GB의 전용 메모리를 갖춘 Tesla V 100 GPU를 사용합니다. 혐오스러운 밈 감지를 위해 특별히 구현된 모델의 경우 재구현을 위해 작성자가 게시한 코드를 사용합니다[4]. Huggingface 라이브러리에서 찾을 수 있는 사전 훈련된 모델의 경우 Huggingface [5]의 패키지, 특히 BERT [4], VisualBERT [18] 및 BLIP 모델을 사용합니다. Gor ViLBERT [23], 우리는 저자 [6]로부터 릴리스된 코드를 가져왔습니다. ALBEF [17] 및 BLIP-2 [15]의 경우 LAVIS 라이브러리 [7] 아래 패키지를 사용합니다.


표 12: 증강 이미지 태그가 없는 모델 비교.


표 13: 단일 탐색 질문만 묻는 경우의 모델 성능.


각 밈 이미지에 대해 밈 텍스트와 일반 이미지 캡션(캡션 모델에서 또는 이미지 내용에 대해 질문하여)의 총 길이를 65로 제한합니다. 각 추가 질문에 대해 길이를 다음과 같이 제한합니다. 20보다 짧습니다. 문장의 연결이 제한 길이를 초과하면 문장이 잘리고, 그렇지 않으면 문장이 제한 길이보다 짧으면 채워집니다. 모든 모델에 대해 훈련 에포크 수를 10으로 설정했습니다.


모델 매개변수의 수는 표 11에 요약되어 있습니다.

B 전체 절제 연구 결과

공간 제한으로 인해 표 6에는 절제 연구의 정확도 결과만 표시됩니다. AUC와 정확도를 모두 포함한 전체 결과는 표 12에 제공됩니다.

C 시각화 사례

섹션 5.5에서는 ProCapPromptHate와 기본 PromptHate를 비교하는 사례의 시각화를 제공합니다. 공간 제약으로 인해 다른 두 데이터 세트의 예는 생략됩니다. 이 부분에서는 더 많은 시각화 사례를 제공합니다. HarM 데이터 세트의 사례는 표 9에 나와 있으며 MAMI 데이터 세트의 사례는 표 10에 나와 있습니다.

D 하나의 대상에 대한 PRO-CAP 결과

섹션 5에서는 모델이 모든 조사 질문에서 Pro-Cap을 사용한 경우에만 결과를 보고합니다. 이 부분에서는 표 13의 단일 탐색 질문의 답변을 사용할 때 결과(엔티티 포함)를 보고합니다.


결과에 따르면, 우리는 단일 탐색 질문에 대한 답변을 사용하는 모델이 모두 강력하고 일부 모델은 모든 탐색 질문을 경험적으로 묻는 것조차 능가한다는 것을 관찰했습니다(예: FHM에서 국적에 대해 묻는 질문을 사용하는 것이 모든 탐색 질문을 사용하는 것보다 낫습니다). 모든 조사 캡션을 사용하는 것이 최적의 솔루션이 아닐 수 있으며 관련 없는 이미지 설명이 생성될 수 있음을 지적합니다. 예를 들어, 흑인을 겨냥한 혐오스러운 밈에 직면했을 때, 이미지 속 사람들의 종교를 묻는 것은 의미가 없습니다. 흥미롭게도 MAMI에서는 성별에 대한 탐색 질문에 대한 답변만 사용하는 것이 최고의 성능에 도달했습니다. MAMI에는 여성에 대한 혐오적인 밈만 담겨 있기 때문입니다. 유망한 방향은 다양한 밈에 대한 밈 탐지에 필수적인 조사 질문을 동적으로 선택하도록 모델을 훈련시키는 것입니다.





[4] CLIP-BERT/MOMENTA: https://github.com/LCS2-IIITD/MOMENTA;DisMultiHate: https://gitlab.com/bottle_shop/safe/dismultihate; PromptHate: https://gitlab.com/bottle_shop/safe/prompthate


[5] https://huggingface.co/


[6] https://github.com/facebookresearch/vilbert-multi-task


[7] https://github.com/salesforce/LAVIS는 모든 조사 질문을 경험적으로 묻습니다(예: