tác giả:
(1) Rui Cao, Đại học Quản lý Singapore;
(2) Ming Shan Hee, Đại học Thiết kế và Công nghệ Singapore;
(3) Adriel Kuek, Phòng thí nghiệm quốc gia DSO;
(4) Wen-Haw Chong, Đại học Quản lý Singapore;
(5) Roy Ka-Wei Lee, Đại học Thiết kế và Công nghệ Singapore
(6) Jing Jiang, Đại học Quản lý Singapore.
Kết luận và tài liệu tham khảo
Meme , thường nhằm mục đích hài hước hoặc châm biếm, ngày càng bị lợi dụng để phổ biến nội dung thù địch, dẫn đến nhiệm vụ đầy thách thức là phát hiện meme thù hận trực tuyến [5, 12, 27]. Để chống lại sự lây lan của các meme thù hận, một dòng công việc coi việc phát hiện meme thù hận là một nhiệm vụ phân loại đa phương thức. Các nhà nghiên cứu đã áp dụng các mô hình ngôn ngữ thị giác được đào tạo trước (PVLM) và tinh chỉnh chúng dựa trên dữ liệu phát hiện meme [20, 26, 34, 37]. Để cải thiện hiệu suất, một số người đã thử tập hợp mô hình [20, 26, 34]. Một dòng công việc khác xem xét việc kết hợp các mô hình được đào tạo trước (ví dụ: BERT [4] và CLIP [29]) với các kiến trúc mô hình cụ thể của nhiệm vụ và điều chỉnh chúng từ đầu đến cuối [13, 14, 28]. Gần đây, các tác giả trong [2] đã thử chuyển đổi tất cả thông tin meme thành văn bản và thúc đẩy các mô hình ngôn ngữ tận dụng tốt hơn kiến thức nền tảng ngữ cảnh có trong các mô hình ngôn ngữ. Cách tiếp cận này đạt được kết quả tiên tiến nhất trên hai tiêu chuẩn phát hiện meme đáng ghét. Tuy nhiên, nó áp dụng một phương pháp chung để mô tả hình ảnh thông qua chú thích cho hình ảnh, thường bỏ qua các yếu tố quan trọng cần thiết để phát hiện meme thù hận. Trong công việc này, chúng tôi tìm cách giải quyết vấn đề này thông qua chú thích dựa trên thăm dò bằng cách nhắc nhở các mô hình ngôn ngữ thị giác được đào tạo trước bằng các câu hỏi tập trung vào nội dung đáng ghét theo cách VQA không có cảnh quay.
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.