Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.
tác giả:
(1) Rui Cao, Đại học Quản lý Singapore;
(2) Ming Shan Hee, Đại học Thiết kế và Công nghệ Singapore;
(3) Adriel Kuek, Phòng thí nghiệm quốc gia DSO;
(4) Wen-Haw Chong, Đại học Quản lý Singapore;
(5) Roy Ka-Wei Lee, Đại học Thiết kế và Công nghệ Singapore
(6) Jing Jiang, Đại học Quản lý Singapore.
Kết luận và tài liệu tham khảo
Chúng tôi triển khai tất cả các mô hình trong Thư viện PyTorch với phiên bản CUDA11.2. Chúng tôi sử dụng GPU Tesla V 100, mỗi GPU có bộ nhớ chuyên dụng 32GB. Đối với các mô hình được triển khai cụ thể để phát hiện meme đáng ghét, chúng tôi lấy mã do tác giả xuất bản để triển khai lại [4]. Đối với các mô hình được đào tạo trước có thể tìm thấy trong Thư viện Huggingface, chúng tôi sử dụng các gói từ Huggingface [5], cụ thể là BERT [4], VisualBERT [18] và mô hình BLIP. Gor ViLBERT [23], chúng tôi lấy mã đã phát hành từ các tác giả [6]. Đối với ALBEF [17] và BLIP-2 [15], chúng tôi sử dụng các gói trong Thư viện LAVIS [7]
Đối với mỗi hình ảnh meme, chúng tôi giới hạn tổng độ dài của văn bản meme và chú thích chung của hình ảnh (từ mô hình chú thích hoặc bằng cách hỏi về nội dung của hình ảnh) là 65. Đối với mỗi câu hỏi bổ sung, chúng tôi giới hạn độ dài ở mức 65 ngắn hơn 20. Nếu câu nối vượt quá độ dài giới hạn thì câu sẽ bị cắt ngắn, ngược lại, nếu câu ngắn hơn độ dài giới hạn thì câu sẽ bị đệm. Chúng tôi đặt số lượng kỷ nguyên đào tạo là 10 cho tất cả các mô hình.
Số lượng tham số mô hình được tóm tắt trong Bảng 11.
Do hạn chế về không gian, chúng tôi chỉ trình bày kết quả về độ chính xác trong các nghiên cứu cắt đốt ở Bảng 6. Kết quả đầy đủ bao gồm cả AUC và độ chính xác được cung cấp trong Bảng 12.
Trong Phần 5.5, chúng tôi cung cấp hình ảnh trực quan về các trường hợp để so sánh ProCapPromptHate với NhắcHate cơ bản. Do hạn chế về không gian, chúng tôi bỏ qua các ví dụ từ hai bộ dữ liệu còn lại. Chúng tôi cung cấp nhiều trường hợp trực quan hơn trong phần này. Các trường hợp từ tập dữ liệu HarM được minh họa trong Bảng 9 và các trường hợp từ tập dữ liệu MAMI được trình bày trong Bảng 10.
Ở Phần 5, chúng tôi chỉ báo cáo kết quả khi các mô hình sử dụng Pro-Cap trong tất cả các câu hỏi thăm dò. Trong phần này, chúng tôi báo cáo kết quả (với các thực thể) khi sử dụng câu trả lời từ một câu hỏi thăm dò trong Bảng 13.
Theo kết quả, chúng tôi quan sát thấy các mô hình sử dụng câu trả lời cho một câu hỏi thăm dò duy nhất đều có tác dụng mạnh mẽ và một số thậm chí còn vượt trội hơn về mặt suy nghiệm khi đặt tất cả các câu hỏi thăm dò (ví dụ: sử dụng câu hỏi hỏi về quốc tịch trên FHM tốt hơn sử dụng tất cả các câu hỏi thăm dò). Nó chỉ ra rằng việc sử dụng tất cả các chú thích thăm dò có thể không phải là giải pháp tối ưu và có thể tạo ra các mô tả hình ảnh không liên quan. Ví dụ, đối mặt với một meme căm thù nhắm vào người da đen, việc hỏi tôn giáo của những người trong ảnh là vô nghĩa. Điều thú vị là, trên MAMI, khi chỉ sử dụng câu trả lời cho câu hỏi thăm dò về giới tính sẽ đạt hiệu quả tốt nhất. Đó là bởi vì MAMI chỉ chứa những meme căm thù về phụ nữ. Một hướng đi đầy hứa hẹn sẽ đào tạo mô hình để tự động chọn các câu hỏi thăm dò cần thiết để phát hiện meme cho các meme khác nhau.
[4] CLIP-BERT/MOMENTA: https://github.com/LCS2-IIITD/MOMENTA;DisMultiHate: https://gitlab.com/bottle_shop/safe/dismultihate; NhắcHate: https://gitlab.com/bottle_shop/safe/prompthate
[5] https://huggingface.co/
[6] https://github.com/facebookresearch/vilbert-multi-task
[7] https://github.com/saleforce/LAVIS hỏi tất cả các câu hỏi thăm dò theo kinh nghiệm (ví dụ: sử dụng