Авторы:
(1) Мужаффар Хазман, Университет Голуэя, Ирландия;
(2) Сьюзан Маккивер, Технологический университет Дублина, Ирландия;
(3) Жозефина Гриффит, Университет Голуэя, Ирландия.
Заключение, благодарности и ссылки
Показатель B: взвешенный показатель F1.
D Сравнительный анализ производительности
E Таблица непредвиденных обстоятельств: базовый уровень и текст-STILT
Интернет-мемы остаются сложной формой пользовательского контента для автоматической классификации настроений. Доступность помеченных мемов является препятствием для разработки классификаторов настроений мультимодальных мемов. Чтобы решить проблему нехватки помеченных мемов, мы предлагаем дополнить обучение мультимодального классификатора мемов унимодальными (только изображение и только текст) данными. В этой работе мы представляем новый вариант контролируемого промежуточного обучения, который использует относительно большое количество унимодальных данных, помеченных тонами. Наши результаты показывают статистически значимое улучшение производительности за счет включения унимодальных текстовых данных. Кроме того, мы показываем, что обучающий набор помеченных мемов можно сократить на 40% без снижения производительности последующей модели.
Поскольку интернет-мемы (или просто «мемы») становятся все более популярными и обычным явлением в цифровых сообществах по всему миру, исследовательский интерес к расширению задач классификации естественного языка, таких как классификация настроений, обнаружение языка ненависти и обнаружение сарказма, на эти мультимодальные единицы выражения возрос. . Однако современные мультимодальные классификаторы настроений мемов значительно уступают современным классификаторам настроений текста и классификаторам настроений изображений. Без точных и надежных методов определения настроения мультимодальных мемов методы анализа настроений в социальных сетях должны либо игнорировать, либо неточно делать выводы о мнениях, выраженных через мемы. Поскольку мемы продолжают оставаться основой онлайн-дискурса, наши
способность делать выводы о значении, которое они передают, становится все более актуальной (Шарма и др., 2020; Мишра и др., 2023).
Достижение одинакового уровня эффективности классификации настроений в мемах и в унимодальном контенте остается сложной задачей. В дополнение к своей мультимодальной природе мультимодальные классификаторы мемов должны отличать настроения от культурно специфичных входных данных, которые включают краткие тексты, культурные отсылки и визуальную символику (Ниссенбаум и Шифман, 2017). Хотя для извлечения информации из каждой модальности (текста и изображения) использовались различные подходы, в недавних работах было подчеркнуто, что классификаторы мемов также должны распознавать различные формы взаимодействия между этими двумя модальностями (Zhu, 2020; Shang et al., 2021; Hazman et др., 2023).
Современные подходы к обучению классификаторов мемов зависят от наборов данных помеченных мемов (Kiela et al., 2020; Sharma et al., 2020; Suryawanshi et al., 2020; Patwa et al., 2022; Mishra et al., 2023), содержащих достаточное количество выборок для обучения классификаторов извлечению соответствующих характеристик из каждой модальности и соответствующих межмодальных взаимодействий. Несмотря на сложность задачи, доступность помеченных мемов по-прежнему представляет собой проблему, поскольку многие текущие работы требуют дополнительных данных (Zhu, 2020; Kiela et al., 2020; Sharma et al., 2022).
Хуже того, мемы трудно маркировать. Сложность и культурная зависимость мемов
(Гал и др., 2016) вызывают проблему субъективного восприятия (Шарма и др., 2020), когда разная степень знакомства и эмоциональная реакция на содержание мема от каждого аннотатора приводит к появлению разных ярлыков, определяющих основную истину. Во-вторых, мемы часто содержат визуальные элементы, защищенные авторским правом, взятые из других популярных медиа (Laineste and Voolaid, 2017), что вызывает обеспокоенность при публикации наборов данных. Это потребовало Kiela et al. (2020) вручную реконструировать каждый мем в своем наборе данных с использованием лицензированных изображений, что значительно увеличивает объем аннотаций. Более того, визуальные элементы, составляющие тот или иной мем, часто возникают как внезапная тенденция, которая быстро распространяется по онлайн-сообществам (Bauckhage, 2011; Shifman, 2014), быстро вводя в общий язык мемов новые семантически богатые визуальные символы, которые раньше не имели большого значения. (Сегев и др., 2015). В совокупности эти характеристики делают маркировку мемов особенно сложной и дорогостоящей.
В поисках более эффективных методов обучения мемов-классификаторов настроений наша работа пытается использовать относительно многочисленные унимодальные данные, помеченные настроениями, то есть наборы данных анализа настроений с образцами только изображений и только текста. Мы делаем это, используя дополнительное обучение Phang et al. (2019) по промежуточным задачам с размеченными данными (STILT), в котором рассматривается низкая производительность, часто встречающаяся при точной настройке предварительно обученных кодировщиков текста для задач понимания естественного языка (NLU) с дефицитом данных. Подход STILT Phang и др. включает в себя три этапа:
1. Загрузите предварительно обученные веса в модель классификатора.
2. Точная настройка модели для контролируемой задачи обучения, для которой данные легко доступны (промежуточная задача).
3. Точная настройка модели для задачи с дефицитом данных (целевой задачи), отличной от промежуточной задачи.
Было показано, что STILT повышает производительность различных моделей в различных текстовых целевых задачах (Poth et al., 2021; Wang et al., 2019). Кроме того, Пруксачаткун и др. (2020) заметили, что STILT особенно эффективен в целевых задачах в NLU с меньшими наборами данных, например, WiC (Pilehvar и Camacho-Collados, 2019) и BoolQ (Clark et al., 2019). Однако они также показали, что преимущества этого подхода в производительности непостоянны и зависят от выбора подходящих промежуточных задач для любой заданной целевой задачи. Было обнаружено, что в некоторых случаях промежуточная подготовка вредна для целевого выполнения задач; который Пруксачаткун и др. (2020) объяснили различиями между необходимыми «синтаксическими и семантическими навыками», необходимыми для каждой промежуточной и целевой пары задач. Однако STILT еще не тестировался в конфигурации, в которой промежуточные и целевые задачи имеют разные входные модальности.
Хотя рассмотрение только текста или изображения мема изолированно не передает всего его значения (Kiela et al., 2020), мы подозреваем, что унимодальные данные о настроениях могут помочь включить навыки, необходимые для распознавания настроения мемов. Предлагая новый вариант STILT, который использует данные унимодального анализа настроений в качестве промежуточной задачи при обучении мультимодального классификатора настроений мемов, мы отвечаем на следующие вопросы:
Вопрос 1 : Значительно ли улучшается эффективность обучения мультимодального классификатора мемов унимодальными данными о настроениях?
Мы отдельно протестировали предлагаемый нами подход с трехклассными данными о настроениях только для изображений и только для текста (создав Image-STILT и Text-STILT соответственно), как показано на рисунке 1). Если любой из них окажется эффективным, мы дополнительно ответим:
RQ2 : С помощью унимодального STILT, до какой степени мы можем уменьшить количество помеченных мемов, сохранив при этом производительность классификатора настроений мемов?
Этот документ доступен на arxiv под лицензией CC 4.0.