paint-brush
多模态模因情绪分类的单模态中级训练经过@memeology
404 讀數
404 讀數

多模态模因情绪分类的单模态中级训练

太長; 讀書

一种新方法利用单模态情绪数据来增强多模态 meme 情绪分类,解决了标记数据短缺问题并显著提高了性能。此策略还可以减少训练所需的标记 meme 数量,而不会影响分类器性能。
featured image - 多模态模因情绪分类的单模态中级训练
Memeology: Leading Authority on the Study of Memes HackerNoon profile picture
0-item

作者:

(1) Muzhaffar Hazman,爱尔兰戈尔韦大学;

(2)Susan McKeever,爱尔兰都柏林理工大学

(3)约瑟芬·格里菲斯(Josephine Griffith),爱尔兰戈尔韦大学

链接表

摘要和引言

相关作品

方法

结果

局限性和未来工作

结论、致谢和参考文献

A 超参数和设置

B 指标:加权 F1 分数

C 架构细节

D 绩效基准测试

E 列联表:基线与文本-STILT

抽象的

网络表情包仍然是一种具有挑战性的用户生成内容形式,无法用于自动情绪分类。标记表情包的可用性是开发多模态表情包情绪分类器的障碍。为了解决标记表情包的短缺问题,我们建议用单模态(纯图像和纯文本)数据补充多模态表情包分类器的训练。在这项工作中,我们提出了一种新的监督中间训练变体,它使用相对丰富的情绪标记单模态数据。我们的结果表明,加入单模态文本数据后,性能得到了显著的提高。此外,我们表明,标记表情包的训练集可以减少 40%,而不会降低下游模型的性能。

1 简介

随着网络迷因(或简称“迷因”)在全球数字社区中越来越流行和普遍,将自然语言分类任务(如情绪分类、仇恨言论检测和讽刺检测)扩展到这些多模态表达单元的研究兴趣也日益增加。然而,最先进的多模态迷因情绪分类器的表现明显不如当代文本情绪分类器和图像情绪分类器。如果没有准确可靠的方法来识别多模态迷因的情绪,社交媒体情绪分析方法要么忽略要么错误地推断通过迷因表达的观点。随着迷因继续成为在线讨论的主流,我们的

推断其所传达的含义的能力变得越来越重要(Sharma 等人,2020 年;Mishra 等人,2023 年)。


在 meme 上实现与单模态内容类似的情感分类性能水平仍然是一个挑战。除了多模态性质外,多模态 meme 分类器还必须从由简短文本、文化参考和视觉象征组成的文化特定输入中辨别出情绪(Nissenbaum 和 Shifman,2017 年)。尽管已经使用了各种方法从每种模态(文本和图像)中提取信息,但最近的研究强调,meme 分类器还必须识别这两种模态之间各种形式的交互(Zhu,2020 年;Shang 等人,2021 年;Hazman 等人,2023 年)。


目前训练模因分类器的方法依赖于标记模因的数据集(Kiela 等人,2020 年;Sharma 等人,2020 年;Suryawanshi 等人,2020 年;Patwa 等人,2022 年;Mishra 等人,2023 年),其中包含足够的样本来训练分类器以从每种模态中提取相关特征和相关的跨模态交互。相对于任务的复杂性,目前标记模因的可用性仍然存在问题,因为许多当前的工作需要更多数据(Zhu,2020 年;Kiela 等人,2020 年;Sharma 等人,2022 年)。


更糟糕的是,模因很难被标记。模因的复杂性和文化依赖性

(Gal et al., 2016) 导致主观感知问题 (Sharma et al., 2020),即每个注释者对 meme 内容的熟悉程度和情绪反应不同,导致不同的真实标签。其次,meme 通常包含从其他流行媒体 (Laineste and Voolaid, 2017) 中获取的受版权保护的视觉元素,这在发布数据集时引起了担忧。这要求 Kiela et al. (2020) 使用获得许可的图像手动重建其数据集中的每个 meme,这大大增加了注释工作量。此外,组成给定 meme 的视觉元素通常会突然出现,迅速在在线社区中传播 (Bauckhage, 2011; Shifman, 2014),迅速将新的语义丰富的视觉符号引入常见的 meme 用语中,而这些用语以前几乎没有什么意义 (Segev et al., 2015)。总之,这些特点使得 meme 的标记特别具有挑战性且成本高昂。


在寻求更高效的数据训练 meme 情绪分类器的方法时,我们的工作尝试利用相对丰富的单峰情绪标记数据,即仅包含图像和文本样本的情绪分析数据集。我们使用 Phang 等人 (2019) 的中级标记数据任务补充训练 (STILT) 来实现这一点,该补充训练解决了在将预训练文本编码器微调到数据稀缺的自然语言理解 (NLU) 任务时经常遇到的低性能问题。Phang 等人的 STILT 方法包括三个步骤:


1. 将预先训练的权重加载到分类器模型中。


2. 在易于获得数据的监督学习任务上对模型进行微调(中间任务)。


3. 在与中间任务不同的数据稀缺任务(目标任务)上对模型进行微调。


事实证明,STILT 可以提高各种模型在各种纯文本目标任务中的表现(Poth 等人,2021 年;Wang 等人,2019 年)。此外,Pruksachatkun 等人(2020 年)观察到,STILT 在 NLU 中具有较小数据集的目标任务中特别有效,例如 WiC(Pilehvar 和 Camacho-Collados,2019 年)和 BoolQ(Clark 等人,2019 年)。然而,他们还表明,这种方法的性能优势是不一致的,取决于为任何给定的目标任务选择合适的中间任务。在某些情况下,中间训练被发现对目标任务表现不利;Pruksachatkun 等人(2020 年)将其归因于每个中间任务和目标任务对所需的“句法和语义技能”之间的差异。然而,STILT 尚未在中间任务和目标任务具有不同输入模式的配置中进行测试。


尽管仅孤立地考虑 meme 的文本或图像并不能传达其全部含义(Kiela 等人,2020 年),但我们怀疑单峰情绪数据可能有助于整合与辨别 meme 情绪相关的技能。通过提出一种新的 STILT 变体,使用单峰情绪分析数据作为训练多峰 meme 情绪分类器的中间任务,我们回答了以下问题:


图 1:Baseline、Phang 等人 (2019) 的 STILT 以及我们提出的 Image-STILT 和 TextSTILT 方法中的训练任务。


RQ1 :用单峰情绪数据补充多峰模因分类器的训练是否可以显著提高其性能?


我们分别使用纯图像和纯文本的 3 类情绪数据测试了我们提出的方法(分别创建Image-STILTText-STILT ),如图 1 所示。如果其中任何一个被证明有效,我们还会回答:


RQ2 :使用单峰 STILT,我们可以在多大程度上减少标记模因的数量,同时保持模因情绪分类器的性能?