paint-brush
Pro-Cap: Tận dụng Mô hình ngôn ngữ tầm nhìn đông lạnh để phát hiện Meme đáng ghét: Phụ lụctừ tác giả@memeology
159 lượt đọc

Pro-Cap: Tận dụng Mô hình ngôn ngữ tầm nhìn đông lạnh để phát hiện Meme đáng ghét: Phụ lục

dài quá đọc không nổi

Phụ lục này cung cấp thông tin chi tiết chuyên sâu về việc triển khai các mô hình phát hiện meme đáng ghét, hiểu biết sâu sắc từ các nghiên cứu cắt bỏ, so sánh trực quan giữa Pro-Cap và NhắcHate cơ bản, đồng thời nêu bật tác động của việc sử dụng câu trả lời từ các câu hỏi thăm dò đơn lẻ, đề xuất hướng tối ưu hóa cho các mô hình phát hiện meme.
featured image - Pro-Cap: Tận dụng Mô hình ngôn ngữ tầm nhìn đông lạnh để phát hiện Meme đáng ghét: Phụ lục
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.

tác giả:

(1) Rui Cao, Đại học Quản lý Singapore;

(2) Ming Shan Hee, Đại học Thiết kế và Công nghệ Singapore;

(3) Adriel Kuek, Phòng thí nghiệm quốc gia DSO;

(4) Wen-Haw Chong, Đại học Quản lý Singapore;

(5) Roy Ka-Wei Lee, Đại học Thiết kế và Công nghệ Singapore

(6) Jing Jiang, Đại học Quản lý Singapore.

Bảng liên kết

Tóm tắt và giới thiệu

Công việc có liên quan

Sơ bộ

Phương án đề xuất

Cuộc thí nghiệm

Kết luận và tài liệu tham khảo

ruột thừa

RUỘT THỪA

Bảng 9: So sánh giữa Pro-CapPromptHate và NhắcHate cơ bản trên tập dữ liệu HarM.

CHI TIẾT THỰC HIỆN

Chúng tôi triển khai tất cả các mô hình trong Thư viện PyTorch với phiên bản CUDA11.2. Chúng tôi sử dụng GPU Tesla V 100, mỗi GPU có bộ nhớ chuyên dụng 32GB. Đối với các mô hình được triển khai cụ thể để phát hiện meme đáng ghét, chúng tôi lấy mã do tác giả xuất bản để triển khai lại [4]. Đối với các mô hình được đào tạo trước có thể tìm thấy trong Thư viện Huggingface, chúng tôi sử dụng các gói từ Huggingface [5], cụ thể là BERT [4], VisualBERT [18] và mô hình BLIP. Gor ViLBERT [23], chúng tôi lấy mã đã phát hành từ các tác giả [6]. Đối với ALBEF [17] và BLIP-2 [15], chúng tôi sử dụng các gói trong Thư viện LAVIS [7]


Bảng 12: So sánh mô hình khi không có thẻ hình ảnh tăng cường.


Bảng 13: Hiệu quả của mô hình khi chỉ hỏi một câu hỏi thăm dò duy nhất.


Đối với mỗi hình ảnh meme, chúng tôi giới hạn tổng độ dài của văn bản meme và chú thích chung của hình ảnh (từ mô hình chú thích hoặc bằng cách hỏi về nội dung của hình ảnh) là 65. Đối với mỗi câu hỏi bổ sung, chúng tôi giới hạn độ dài ở mức 65 ngắn hơn 20. Nếu câu nối vượt quá độ dài giới hạn thì câu sẽ bị cắt ngắn, ngược lại, nếu câu ngắn hơn độ dài giới hạn thì câu sẽ bị đệm. Chúng tôi đặt số lượng kỷ nguyên đào tạo là 10 cho tất cả các mô hình.


Số lượng tham số mô hình được tóm tắt trong Bảng 11.

B KẾT QUẢ NGHIÊN CỨU TUYỆT VỜI ĐẦY ĐỦ

Do hạn chế về không gian, chúng tôi chỉ trình bày kết quả về độ chính xác trong các nghiên cứu cắt đốt ở Bảng 6. Kết quả đầy đủ bao gồm cả AUC và độ chính xác được cung cấp trong Bảng 12.

C CÁC TRƯỜNG HỢP HÌNH ẢNH

Trong Phần 5.5, chúng tôi cung cấp hình ảnh trực quan về các trường hợp để so sánh ProCapPromptHate với NhắcHate cơ bản. Do hạn chế về không gian, chúng tôi bỏ qua các ví dụ từ hai bộ dữ liệu còn lại. Chúng tôi cung cấp nhiều trường hợp trực quan hơn trong phần này. Các trường hợp từ tập dữ liệu HarM được minh họa trong Bảng 9 và các trường hợp từ tập dữ liệu MAMI được trình bày trong Bảng 10.

D KẾT QUẢ VỚI PRO-CAP VỀ MỘT MỤC TIÊU

Ở Phần 5, chúng tôi chỉ báo cáo kết quả khi các mô hình sử dụng Pro-Cap trong tất cả các câu hỏi thăm dò. Trong phần này, chúng tôi báo cáo kết quả (với các thực thể) khi sử dụng câu trả lời từ một câu hỏi thăm dò trong Bảng 13.


Theo kết quả, chúng tôi quan sát thấy các mô hình sử dụng câu trả lời cho một câu hỏi thăm dò duy nhất đều có tác dụng mạnh mẽ và một số thậm chí còn vượt trội hơn về mặt suy nghiệm khi đặt tất cả các câu hỏi thăm dò (ví dụ: sử dụng câu hỏi hỏi về quốc tịch trên FHM tốt hơn sử dụng tất cả các câu hỏi thăm dò). Nó chỉ ra rằng việc sử dụng tất cả các chú thích thăm dò có thể không phải là giải pháp tối ưu và có thể tạo ra các mô tả hình ảnh không liên quan. Ví dụ, đối mặt với một meme căm thù nhắm vào người da đen, việc hỏi tôn giáo của những người trong ảnh là vô nghĩa. Điều thú vị là, trên MAMI, khi chỉ sử dụng câu trả lời cho câu hỏi thăm dò về giới tính sẽ đạt hiệu quả tốt nhất. Đó là bởi vì MAMI chỉ chứa những meme căm thù về phụ nữ. Một hướng đi đầy hứa hẹn sẽ đào tạo mô hình để tự động chọn các câu hỏi thăm dò cần thiết để phát hiện meme cho các meme khác nhau.





[4] CLIP-BERT/MOMENTA: https://github.com/LCS2-IIITD/MOMENTA;DisMultiHate: https://gitlab.com/bottle_shop/safe/dismultihate; NhắcHate: https://gitlab.com/bottle_shop/safe/prompthate


[5] https://huggingface.co/


[6] https://github.com/facebookresearch/vilbert-multi-task


[7] https://github.com/saleforce/LAVIS hỏi tất cả các câu hỏi thăm dò theo kinh nghiệm (ví dụ: sử dụng