tác giả:
(1) Muzhaffar Hazman, Đại học Galway, Ireland;
(2) Susan McKeever, Đại học Công nghệ Dublin, Ireland;
(3) Josephine Griffith, Đại học Galway, Ireland.
Hạn chế và công việc trong tương lai
Kết luận, Lời cảm ơn và Tài liệu tham khảo
Bảng dự phòng E: Đường cơ sở so với Văn bản-STILT
Internet Memes vẫn là một dạng nội dung do người dùng tạo đầy thách thức để phân loại cảm xúc tự động. Sự sẵn có của các meme được gắn nhãn là rào cản trong việc phát triển các bộ phân loại tình cảm của các meme đa phương thức. Để giải quyết tình trạng thiếu meme được gắn nhãn, chúng tôi đề xuất bổ sung việc đào tạo bộ phân loại meme đa phương thức với dữ liệu đơn phương thức (chỉ hình ảnh và chỉ văn bản). Trong nghiên cứu này, chúng tôi trình bày một biến thể mới của đào tạo trung cấp có giám sát sử dụng dữ liệu đơn phương thức được gắn nhãn tình cảm tương đối phong phú. Kết quả của chúng tôi cho thấy sự cải thiện hiệu suất có ý nghĩa thống kê từ việc kết hợp dữ liệu văn bản đơn phương thức. Hơn nữa, chúng tôi cho thấy rằng tập huấn luyện của các meme được gắn nhãn có thể giảm 40% mà không làm giảm hiệu suất của mô hình hạ nguồn.
Khi Internet Memes (hoặc chỉ “memes”) ngày càng trở nên phổ biến và phổ biến trên các cộng đồng kỹ thuật số trên toàn thế giới, mối quan tâm nghiên cứu nhằm mở rộng các nhiệm vụ phân loại ngôn ngữ tự nhiên, chẳng hạn như phân loại tình cảm, phát hiện lời nói căm thù và phát hiện sự mỉa mai, đối với các đơn vị biểu đạt đa phương thức này đã tăng lên. . Tuy nhiên, các bộ phân loại cảm xúc meme đa phương thức hiện đại hoạt động kém hơn đáng kể so với các bộ phân loại cảm xúc văn bản hiện đại và các bộ phân loại cảm xúc hình ảnh. Nếu không có các phương pháp chính xác và đáng tin cậy để xác định cảm xúc của các meme đa phương thức, các phương pháp phân tích cảm xúc trên mạng xã hội phải bỏ qua hoặc suy luận không chính xác các ý kiến được thể hiện qua meme. Khi meme tiếp tục là trụ cột trong diễn ngôn trực tuyến, chúng tôi
khả năng suy ra ý nghĩa mà chúng truyền tải ngày càng trở nên thích hợp (Sharma và cộng sự, 2020; Mishra và cộng sự, 2023).
Việc đạt được mức hiệu suất phân loại tình cảm tương tự trên meme cũng như trên nội dung không đồng nhất vẫn là một thách thức. Ngoài tính chất đa phương thức, các bộ phân loại meme đa phương thức phải phân biệt cảm xúc từ các đầu vào cụ thể về mặt văn hóa bao gồm các văn bản ngắn gọn, tài liệu tham khảo về văn hóa và biểu tượng trực quan (Nissenbaum và Shifman, 2017). Mặc dù nhiều cách tiếp cận khác nhau đã được sử dụng để trích xuất thông tin từ từng phương thức (văn bản và hình ảnh), nhưng các tác phẩm gần đây đã nhấn mạnh rằng bộ phân loại meme cũng phải nhận ra các hình thức tương tác khác nhau giữa hai phương thức này (Zhu, 2020; Shang và cộng sự, 2021; Hazman et al. cộng sự, 2023).
Các phương pháp tiếp cận hiện tại để đào tạo bộ phân loại meme phụ thuộc vào tập dữ liệu của các meme được gắn nhãn (Kiela và cộng sự, 2020; Sharma và cộng sự, 2020; Suryawanshi và cộng sự, 2020; Patwa và cộng sự, 2022; Mishra và cộng sự, 2023) có chứa đủ mẫu để đào tạo các bộ phân loại nhằm trích xuất các tính năng liên quan từ từng phương thức và các tương tác đa phương thức có liên quan. Liên quan đến mức độ phức tạp của nhiệm vụ, tính sẵn có hiện tại của các meme được gắn nhãn vẫn đặt ra một vấn đề, vì nhiều tác phẩm hiện tại yêu cầu nhiều dữ liệu hơn (Zhu, 2020; Kiela và cộng sự, 2020; Sharma và cộng sự, 2022).
Tệ hơn nữa, meme rất khó để dán nhãn. Sự phức tạp và sự phụ thuộc văn hóa của memes
(Gal và cộng sự, 2016) gây ra Vấn đề nhận thức chủ quan (Sharma và cộng sự, 2020), trong đó mức độ quen thuộc và phản ứng cảm xúc khác nhau đối với nội dung của meme từ mỗi người chú thích sẽ gây ra các nhãn chân lý cơ bản khác nhau. Thứ hai, meme thường chứa các yếu tố hình ảnh được bảo vệ bản quyền được lấy từ các phương tiện truyền thông phổ biến khác (Laineste và Voolaid, 2017), gây lo ngại khi xuất bản bộ dữ liệu. Điều này đòi hỏi Kiela et al. (2020) để xây dựng lại từng meme trong tập dữ liệu của họ theo cách thủ công bằng cách sử dụng hình ảnh được cấp phép, làm tăng đáng kể nỗ lực chú thích. Hơn nữa, các yếu tố hình ảnh tạo nên một meme nhất định thường xuất hiện như một xu hướng bất ngờ lan truyền nhanh chóng qua các cộng đồng trực tuyến (Bauckhage, 2011; Shifman, 2014), nhanh chóng đưa các biểu tượng hình ảnh giàu ngữ nghĩa mới vào cách nói meme thông thường, vốn mang rất ít ý nghĩa trước đây. (Segev và cộng sự, 2015). Tổng hợp lại, những đặc điểm này làm cho việc dán nhãn meme trở nên đặc biệt khó khăn và tốn kém.
Khi tìm kiếm các phương pháp hiệu quả hơn về dữ liệu để huấn luyện các bộ phân loại cảm xúc meme, công việc của chúng tôi cố gắng tận dụng dữ liệu được gắn nhãn cảm xúc không đồng nhất tương đối phong phú, tức là các bộ dữ liệu phân tích cảm xúc với các mẫu chỉ có hình ảnh và văn bản. Chúng tôi làm như vậy bằng cách sử dụng Chương trình đào tạo bổ sung của Phang và cộng sự (2019) về Nhiệm vụ dữ liệu được gắn nhãn trung gian (STILT), nhằm giải quyết hiệu suất thấp thường gặp phải khi tinh chỉnh các bộ mã hóa văn bản được đào tạo trước cho các nhiệm vụ Hiểu ngôn ngữ tự nhiên (NLU) khan hiếm dữ liệu. Phương pháp tiếp cận STILT của Phang và cộng sự bao gồm ba bước:
1. Tải các trọng số đã được huấn luyện trước vào mô hình phân loại.
2. Tinh chỉnh mô hình về nhiệm vụ học có giám sát mà dữ liệu có sẵn dễ dàng (nhiệm vụ trung gian).
3. Tinh chỉnh mô hình về nhiệm vụ khan hiếm dữ liệu (nhiệm vụ mục tiêu) khác biệt với nhiệm vụ trung gian.
STILT đã được chứng minh là cải thiện hiệu suất của nhiều mô hình khác nhau trong nhiều nhiệm vụ mục tiêu chỉ có văn bản (Poth và cộng sự, 2021; Wang và cộng sự, 2019). Hơn nữa, Pruksachatkun và cộng sự. (2020) nhận thấy rằng STILT đặc biệt hiệu quả trong các nhiệm vụ mục tiêu trong NLU với các bộ dữ liệu nhỏ hơn, ví dụ: WiC (Pilehvar và Camacho-Collados, 2019) và BoolQ (Clark et al., 2019). Tuy nhiên, họ cũng chỉ ra rằng lợi ích về hiệu suất của phương pháp này không nhất quán và phụ thuộc vào việc lựa chọn nhiệm vụ trung gian thích hợp cho bất kỳ nhiệm vụ mục tiêu nhất định nào. Trong một số trường hợp, đào tạo trung cấp được cho là gây bất lợi cho việc thực hiện nhiệm vụ mục tiêu; mà Pruksachatkun và cộng sự. (2020) được cho là do sự khác biệt giữa “kỹ năng cú pháp và ngữ nghĩa” cần thiết cho từng cặp nhiệm vụ trung gian và mục tiêu. Tuy nhiên, STILT vẫn chưa được thử nghiệm trong cấu hình trong đó các tác vụ trung gian và mục tiêu có các phương thức đầu vào khác nhau.
Mặc dù việc chỉ xem xét văn bản hoặc hình ảnh của meme một cách riêng biệt không truyền tải toàn bộ ý nghĩa của nó (Kiela và cộng sự, 2020), chúng tôi nghi ngờ rằng dữ liệu tình cảm đơn phương thức có thể giúp kết hợp các kỹ năng liên quan để phân biệt tình cảm của meme. Bằng cách đề xuất một biến thể mới của STILT sử dụng dữ liệu phân tích tình cảm đơn phương thức làm nhiệm vụ trung gian trong việc đào tạo bộ phân loại tình cảm meme đa phương thức, chúng tôi trả lời các câu hỏi sau:
RQ1 : Việc bổ sung đào tạo bộ phân loại meme đa phương thức với dữ liệu cảm tính đơn phương thức có cải thiện đáng kể hiệu suất của nó không?
Chúng tôi đã thử nghiệm riêng cách tiếp cận được đề xuất của mình với dữ liệu cảm tính 3 loại chỉ hình ảnh và chỉ văn bản (tạo Image-STILT và Text-STILT tương ứng) như minh họa trong Hình 1). Nếu một trong hai cách tỏ ra hiệu quả, chúng tôi sẽ trả lời thêm:
RQ2 : Với STILT đơn phương thức, chúng ta có thể giảm số lượng meme được gắn nhãn ở mức độ nào trong khi vẫn duy trì hiệu suất của bộ phân loại cảm xúc meme?
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.