저자:
(1) 아일랜드 골웨이 대학교의 Muzhaffar Hazman;
(2) 아일랜드 더블린 공과대학교 수잔 맥키버(Susan McKeever);
(3) 아일랜드 골웨이 대학교 조세핀 그리피스(Josephine Griffith).
인터넷 밈은 자동화된 감정 분류를 위한 사용자 생성 콘텐츠의 어려운 형태로 남아 있습니다. 라벨이 붙은 밈의 가용성은 다중 모드 밈의 감정 분류기를 개발하는 데 장애가 됩니다. 라벨이 붙은 밈의 부족 문제를 해결하기 위해 우리는 단일 모드(이미지 전용 및 텍스트 전용) 데이터로 다중 모드 밈 분류기의 훈련을 보완할 것을 제안합니다. 이 연구에서는 상대적으로 풍부한 감정 레이블이 지정된 단일 모달 데이터를 사용하는 감독된 중급 훈련의 새로운 변형을 제시합니다. 우리의 결과는 단봉 텍스트 데이터를 통합함으로써 통계적으로 유의미한 성능 향상을 보여줍니다. 또한, 우리는 다운스트림 모델의 성능을 저하시키지 않고 레이블이 지정된 밈의 훈련 세트를 40%까지 줄일 수 있음을 보여줍니다.
인터넷 밈(또는 간단히 "밈")이 전 세계 디지털 커뮤니티에서 점점 더 대중화되고 보편화됨에 따라 감정 분류, 증오심 표현 탐지, 풍자 탐지와 같은 자연어 분류 작업을 이러한 다중 모드 표현 단위로 확장하려는 연구 관심이 증가했습니다. . 그러나 최첨단 다중 모드 밈 감정 분류기는 현대 텍스트 감정 분류기 및 이미지 감정 분류기보다 성능이 크게 저하됩니다. 다중 모드 밈의 정서를 식별하는 정확하고 신뢰할 수 있는 방법이 없으면 소셜 미디어 정서 분석 방법은 밈을 통해 표현된 의견을 무시하거나 부정확하게 추론해야 합니다. 밈이 계속해서 온라인 담론의 주류가 되면서 우리는
그들이 전달하는 의미를 추론하는 능력은 점점 더 타당해지고 있습니다(Sharma et al., 2020; Mishra et al., 2023).
단일 모달 콘텐츠와 마찬가지로 밈에서도 유사한 수준의 감정 분류 성능을 달성하는 것은 여전히 어려운 과제입니다. 다중 모드 특성 외에도 다중 모드 밈 분류자는 간단한 텍스트, 문화적 참조 및 시각적 상징으로 구성된 문화적으로 특정한 입력으로부터 감정을 식별해야 합니다(Nissenbaum 및 Shifman, 2017). 각 양식(텍스트 및 이미지)에서 정보를 추출하기 위해 다양한 접근법이 사용되었지만 최근 연구에서는 밈 분류자가 이 두 양식 사이의 다양한 형태의 상호 작용도 인식해야 한다는 점을 강조했습니다(Zhu, 2020; Shang et al., 2021; Hazman et al. al., 2023).
밈 분류기를 훈련하는 현재 접근 방식은 다음을 포함하는 레이블이 지정된 밈의 데이터 세트에 의존합니다(Kiela et al., 2020; Sharma et al., 2020; Suryawanshi et al., 2020; Patwa et al., 2022; Mishra et al., 2023). 각 양식 및 관련 교차 양식 상호 작용에서 관련 기능을 추출하기 위해 분류기를 훈련하기에 충분한 샘플. 작업의 복잡성과 관련하여 현재 많은 작업에서 더 많은 데이터가 필요하기 때문에 레이블이 지정된 밈의 현재 가용성은 여전히 문제를 제기합니다(Zhu, 2020; Kiela et al., 2020; Sharma et al., 2022).
더 나쁜 것은 밈에 라벨을 붙이기가 어렵다는 것입니다. 밈의 복잡성과 문화적 의존성
(Gal et al., 2016)은 주관적 인식 문제(Sharma et al., 2020)를 유발합니다. 여기서 각 주석자의 밈 콘텐츠에 대한 다양한 친숙성과 감정적 반응으로 인해 서로 다른 실제 라벨이 발생합니다. 둘째, 밈에는 저작권으로 보호되는 다른 대중 미디어에서 가져온 시각적 요소가 포함되는 경우가 많아(Laineste 및 Voolaid, 2017), 이는 데이터 세트를 게시할 때 우려를 불러일으킵니다. 이를 위해서는 Kiela et al. (2020)은 라이선스가 부여된 이미지를 사용하여 데이터세트의 각 밈을 수동으로 재구성하여 주석 작업을 크게 늘렸습니다. 더욱이, 특정 밈을 구성하는 시각적 요소는 온라인 커뮤니티를 통해 빠르게 확산되는 갑작스러운 추세로 나타나는 경우가 많으며(Bauckhage, 2011; Shifman, 2014), 이전에는 거의 의미가 없었던 일반적인 밈 용어에 의미적으로 풍부한 새로운 시각적 상징을 빠르게 도입합니다. (Segev 외, 2015). 종합하면, 이러한 특성으로 인해 밈의 라벨링은 특히 어렵고 비용이 많이 듭니다.
밈 감정 분류기를 훈련하기 위한 보다 데이터 효율적인 방법을 찾기 위해 우리의 작업은 상대적으로 풍부한 단일 모달 감정 레이블 데이터, 즉 이미지 전용 샘플과 텍스트 전용 샘플이 있는 감정 분석 데이터 세트를 활용하려고 시도합니다. 사전 학습된 텍스트 인코더를 데이터가 부족한 자연어 이해(NLU) 작업으로 미세 조정할 때 자주 발생하는 낮은 성능을 해결하는 Phang et al.(2019) STILT(중간 레이블이 지정된 데이터 작업에 대한 보충 교육)를 사용하여 이를 수행합니다. Phang et al.의 STILT 접근 방식은 세 단계로 구성됩니다.
1. 사전 훈련된 가중치를 분류자 모델에 로드합니다.
2. 데이터를 쉽게 사용할 수 있는 지도 학습 작업(중간 작업)에서 모델을 미세 조정합니다.
3. 중간 작업과 구별되는 데이터가 부족한 작업(대상 작업)에 대해 모델을 미세 조정합니다.
STILT는 다양한 텍스트 전용 대상 작업에서 다양한 모델의 성능을 향상시키는 것으로 나타났습니다(Poth et al., 2021; Wang et al., 2019). 또한, Pruksachatkun et al. (2020)은 STILT가 WiC(Pilehvar and Camacho-Collados, 2019) 및 BoolQ(Clark et al., 2019)와 같이 더 작은 데이터 세트를 사용하는 NLU의 대상 작업에 특히 효과적이라는 것을 관찰했습니다. 그러나 그들은 또한 이 접근 방식의 성능 이점이 일관되지 않으며 주어진 대상 작업에 대해 적절한 중간 작업을 선택하는 데 달려 있음을 보여주었습니다. 어떤 경우에는 중급 교육이 목표 작업 성과에 해로운 것으로 나타났습니다. 이는 Pruksachatkun et al. (2020)은 각 중간 및 대상 작업 쌍에 필요한 "구문적 및 의미론적 기술" 간의 차이에 기인합니다. 그러나 STILT는 중간 작업과 대상 작업이 서로 다른 입력 양식을 갖는 구성에서 아직 테스트되지 않았습니다.
밈의 텍스트나 이미지를 개별적으로 고려하는 것만으로는 전체 의미를 전달하지 못하지만(Kiela et al., 2020), 단봉 감정 데이터가 밈의 감정을 식별하는 데 관련된 기술을 통합하는 데 도움이 될 수 있다고 의심합니다. 다중 모드 밈 감정 분류기를 훈련할 때 중간 작업으로 단일 모드 감정 분석 데이터를 사용하는 STILT의 새로운 변형을 제안함으로써 우리는 다음 질문에 대답합니다.
RQ1 : 단일 모드 감정 데이터로 다중 모드 밈 분류기의 훈련을 보완하면 성능이 크게 향상됩니까?
우리는 그림 1에 설명된 대로 이미지 전용 및 텍스트 전용 3 클래스 감정 데이터(각각 Image-STILT 및 Text-STILT 생성)를 사용하여 제안된 접근 방식을 별도로 테스트했습니다. 둘 중 하나라도 효과적인 것으로 입증되면 추가로 다음과 같이 대답합니다.
RQ2 : 단봉 STILT를 사용하면 밈 감정 분류기의 성능을 유지하면서 레이블이 지정된 밈의 양을 어느 정도 줄일 수 있습니까?
이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.