paint-brush
Duygu Analizi Zorluklarının Aşılmasında Çoklu Yüksek Lisans Çerçevelerinin Gücüile@textmodels
253 okumalar

Duygu Analizi Zorluklarının Aşılmasında Çoklu Yüksek Lisans Çerçevelerinin Gücü

Çok uzun; Okumak

Duyarlılık analizindeki son gelişmeler, bir oluşturucu-ayırıcı modelinin kararları yinelemeli olarak iyileştirdiği çoklu LLM işbirliğini kullanmaktadır. Bu yaklaşım, karmaşık dilsel zorlukları ele alarak, geleneksel ICL yöntemlerinden ve denetlenen temellerden daha iyi performans göstererek doğruluğu artırır.
featured image - Duygu Analizi Zorluklarının Aşılmasında Çoklu Yüksek Lisans Çerçevelerinin Gücü
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Yazarlar:

(1) Xiaofei Sun, Zhejiang Üniversitesi;

(2) Xiaoya Li, Shannon.AI ve Bytedance;

(3) Shengyu Zhang, Zhejiang Üniversitesi;

(4) Shuhe Wang, Pekin Üniversitesi;

(5) Fei Wu, Zhejiang Üniversitesi;

(6) Jiwei Li, Zhejiang Üniversitesi;

(7) Tianwei Zhang, Nanyang Teknoloji Üniversitesi;

(8) Guoyin Wang, Shannon.AI ve Bytedance.

Bağlantı Tablosu

Özet ve Giriş

Alakalı iş

Duyarlılık Analizi için Yüksek Lisans Müzakereleri

Deneyler

Ablasyon Çalışmaları

Sonuç ve Referanslar

2. İlgili çalışma

2.1 Duygu Analizi

Duygu analizi (Pang ve Lee, 2008; Go ve diğerleri, 2009; Maas ve diğerleri, 2011a; Zhang ve Liu, 2012; Baccianella ve diğerleri, 2010; Medhat ve diğerleri, 2014; Bakshi ve diğerleri, 2016; Zhang ve diğerleri, 2018), belirli bir metnin genel duygu kutupluğunu (örneğin olumlu, olumsuz, tarafsız) belirlemeyi amaçlayan bir görevdir. Daha önceki çalışmalar genellikle görevi iki aşamalı bir problem olarak resmileştirdi: (1) RNN'leri kullanarak özelliklerin çıkarılması (Socher ve diğerleri, 2013; Qian ve diğerleri, 2016; Peled ve Reichart, 2017; Wang ve diğerleri, 2016b; Guggilla ve diğerleri) diğerleri, 2016; Vo ve Zhang, 2015), CNN'ler (Kalchbrenner ve diğerleri, 2014; Wang ve diğerleri, 2016a; Guan ve diğerleri, 2016; Yu ve Jiang, 2016; Mishra ve diğerleri, 2017), önceden eğitilmiş dil modelleri (Lin ve diğerleri, 2021; Sun ve diğerleri, 2021; Phan ve Ogunbona, 2020; Dai ve diğerleri, 2021), vb.; ve (2) önceden tanımlanmış bir duygusal etiket elde etmek için çıkarılan özelliklerin bir sınıflandırıcıya beslenmesi.


Son yıllarda bağlam içi öğrenme (ICL) büyük bir başarı elde etti ve NLP görevlerinin paradigmasını değiştirdi. Birçok çalışma ICL'yi duygu analizi görevine uyarlamaktadır: Qin ve ark. (2023b); Sun ve ark. (2023a) ChatGPT'nin duygu analizi görevindeki performansını iyileştirmek için bir dizi strateji önermektedir; Fei ve diğerleri. (2023) örtülü duygu analizi görevi için örtülü yönü, görüşü ve son olarak duygu kutupluluğunu tetikleyen üç atlamalı bir akıl yürütme çerçevesi önermektedir; Zhang ve diğerleri. (2023d), LLM'lerin ikili duyarlılık sınıflandırma görevinde tatmin edici bir performans elde edebildiklerini, ancak daha derin anlayış veya yapılandırılmış duyarlılık bilgisi gerektiren daha karmaşık görevlerde (örneğin, ince taneli duyarlılık analizi) denetlenen temel çizgiye göre daha düşük performans gösterdiklerini bulmuşlardır.

2.2 Büyük Dil Modelleri ve Bağlam İçi Öğrenme

Büyük dil modelleri (LLM'ler) (Wang ve diğerleri, 2022a; Zhang ve diğerleri, 2023b), kendi kendini denetleyen öğrenme teknikleriyle büyük etiketsiz metin korporaları üzerinde eğitilen modellerdir. Model mimarisine dayalı olarak Yüksek Lisans'lar üç türe ayrılabilir: (1) BERT (Devlin ve diğerleri, 2018) ve çeşitleri (Lan ve diğerleri) gibi bir metin kodlayıcı içeren ve girdi temsillerini üreten yalnızca kodlayıcı modeller. Liu ve diğerleri, 2019; Clark ve diğerleri, 2020; Joshi ve diğerleri, 2020; (2) bir kod çözücüye sahip olan ve GPT serisi modeller gibi giriş metnine göre koşullandırılmış metin üreten yalnızca kod çözücü modelleri (Radford ve diğerleri, 2019; Brown ve diğerleri, 2020; Keskar ve diğerleri, 2019; Radford ve diğerleri) 2019; Chowdhery ve diğerleri, 2022; Zhang ve diğerleri, 2022a; Zeng ve diğerleri, 2022b; , 2023; OpenAI, 2023); ve (3) T5 (Raffel ve diğerleri, 2020) ve onun varyantları (Lewis ve diğerleri, 2019; Xue ve diğerleri) gibi bir çift kodlayıcı-kod çözücüye sahip olan ve giriş temsiline göre koşullandırılmış metin üreten kodlayıcı-kod çözücü modelleri. diğerleri, 2020).


Şekil 2: Müzakere prosedürünün çizimi. Soldaki gösteri, dönüşlerden sonra olumlu duygu üzerinde anlaşmaya varılan bir durumu gösterirken, sağdaki gösteri, iki LLM'nin üç turda anlaşmaya varamadığı bir durumu gösteriyor. Spesifik olarak, bir kullanıcı istemi dört öğe içerir: bir görev tanımı, birkaç adımlık gösterimler (kısaca), bir girdi ve son dönüşten bir yanıt (varsa). Üreticiden veya ayrıştırıcıdan gelen yanıtlar, girdinin olumlu veya olumsuz duygu içerdiğini belirten ifadelerle başlar ve ardından gerekçeler gelir.

GPT-3'ten (Brown ve diğerleri, 2020) başlayarak, LLM'ler ortaya çıkan yetenekler göstermiş (Wei ve diğerleri, 2022a) ve LLM'lerin birkaç açıklamalı örnekle şartlandırılmış etiket yoğun metinler oluşturduğu bağlam içi öğrenme (ICL) yoluyla NLP görevlerini tamamlamıştır. degrade güncellemeleri. Literatürdeki birçok çalışma, NLP görevlerinde ICL performanslarını iyileştirmeye yönelik stratejiler önermektedir. Li ve Liang (2021); Chevalier ve ark. (2023); Mu ve ark. (2023) sürekli alandaki istemleri optimize eder. Liu ve diğerleri. (2021a); Wan ve diğerleri. (2023); Zhang ve diğerleri. (2023a) gösteri olarak bir test girdisinin en yakın k komşusunu almak için tren setini araştırıyor. Zhang ve diğerleri. (2022b); Sun ve ark. (2023b); Yao ve ark. (2023) bir görevi birkaç alt göreve ayrıştırır ve bunları LLM tarafından oluşturulan akıl yürütme zincirlerine bağlı olarak nihai cevaba doğru adım adım çözer. Sun ve ark. (2023a); Wang ve diğerleri. (2023) yeni bir yönlendirme turu gerçekleştirerek Yüksek Lisans sonuçlarının doğrulanmasını önermektedir; Liu ve diğerleri. (2021b); Feng ve diğerleri. (2023) doğal dil bilgisi bildirimleri oluşturmak ve dış bilgi bildirimlerini istemlere entegre etmek için Yüksek Lisans'ı kullanıyor.

2.3 LLM işbirliği

LLM işbirliği, belirli bir görevi çözmek için birden fazla LLM'nin birlikte çalışmasını içerir. Spesifik olarak, görev birkaç ara göreve ayrıştırılır ve her LLM'ye bağımsız olarak bir ara görevi tamamlamak üzere atanır. Verilen görev, bu ara sonuçların entegrasyonu veya özetlenmesinden sonra çözülür. LLM işbirliği yaklaşımı, LLM'lerin yeteneklerinden yararlanabilir, karmaşık görevlerdeki performansı artırabilir ve karmaşık sistemler oluşturmaya olanak sağlayabilir. Shinn ve diğerleri. (2023); Sun ve ark. (2023a); Gero ve ark. (2023); Wang ve Li (2023); Chen ve diğerleri. (2023b) yardımcı görevler (örneğin, yansıtma, doğrulama görevleri) oluştururlar ve yardımcı görevin sonucuna göre orijinal göreve verilen yanıtı gözden geçirirler. Talebirad ve Nadiri (2023); Hong ve ark. (2023); Qian ve diğerleri. (2023) LLM'lere karakterizasyon profilleri (örn. proje yöneticisi, yazılım mühendisi) atadı ve davranış animasyonları aracılığıyla karaktere özgü görevlerde performans artışı elde etti. Li ve diğerleri. (2022); Zeng ve diğerleri. (2022a); Chen ve diğerleri. (2023a); Du ve diğerleri. (2023); Liang ve diğerleri. (2023), birden fazla farklı LLM'nin verilen göreve kendi yanıtlarını önerdiği ve ortak bir nihai yanıt elde edene kadar birden fazla turda tartıştığı bir tartışma stratejisi kullanır. Ayrıca Shen ve ark. (2023); Gao ve diğerleri. (2023); Ge ve diğerleri. (2023); Zhang ve diğerleri. (2023c); Hao ve diğerleri. (2023) verilen görev için bir plan tasarlayan, uygulama için uzman modelleri seçen ve ara planlı görevlerin yanıtlarını özetleyen görev denetleyicisi olarak bir LLM kullanır. Diğer LLM'ler, uzmanlık alanlarındaki ara görevleri tamamlayan görev yürütücüleri olarak görev yapar.