Yazarlar:
(1) Xiaofei Sun, Zhejiang Üniversitesi;
(2) Xiaoya Li, Shannon.AI ve Bytedance;
(3) Shengyu Zhang, Zhejiang Üniversitesi;
(4) Shuhe Wang, Pekin Üniversitesi;
(5) Fei Wu, Zhejiang Üniversitesi;
(6) Jiwei Li, Zhejiang Üniversitesi;
(7) Tianwei Zhang, Nanyang Teknoloji Üniversitesi;
(8) Guoyin Wang, Shannon.AI ve Bytedance.
Duyarlılık Analizi için Yüksek Lisans Müzakereleri
Duygu analizi (Pang ve Lee, 2008; Go ve diğerleri, 2009; Maas ve diğerleri, 2011a; Zhang ve Liu, 2012; Baccianella ve diğerleri, 2010; Medhat ve diğerleri, 2014; Bakshi ve diğerleri, 2016; Zhang ve diğerleri, 2018), belirli bir metnin genel duygu kutupluğunu (örneğin olumlu, olumsuz, tarafsız) belirlemeyi amaçlayan bir görevdir. Daha önceki çalışmalar genellikle görevi iki aşamalı bir problem olarak resmileştirdi: (1) RNN'leri kullanarak özelliklerin çıkarılması (Socher ve diğerleri, 2013; Qian ve diğerleri, 2016; Peled ve Reichart, 2017; Wang ve diğerleri, 2016b; Guggilla ve diğerleri) diğerleri, 2016; Vo ve Zhang, 2015), CNN'ler (Kalchbrenner ve diğerleri, 2014; Wang ve diğerleri, 2016a; Guan ve diğerleri, 2016; Yu ve Jiang, 2016; Mishra ve diğerleri, 2017), önceden eğitilmiş dil modelleri (Lin ve diğerleri, 2021; Sun ve diğerleri, 2021; Phan ve Ogunbona, 2020; Dai ve diğerleri, 2021), vb.; ve (2) önceden tanımlanmış bir duygusal etiket elde etmek için çıkarılan özelliklerin bir sınıflandırıcıya beslenmesi.
Son yıllarda bağlam içi öğrenme (ICL) büyük bir başarı elde etti ve NLP görevlerinin paradigmasını değiştirdi. Birçok çalışma ICL'yi duygu analizi görevine uyarlamaktadır: Qin ve ark. (2023b); Sun ve ark. (2023a) ChatGPT'nin duygu analizi görevindeki performansını iyileştirmek için bir dizi strateji önermektedir; Fei ve diğerleri. (2023) örtülü duygu analizi görevi için örtülü yönü, görüşü ve son olarak duygu kutupluluğunu tetikleyen üç atlamalı bir akıl yürütme çerçevesi önermektedir; Zhang ve diğerleri. (2023d), LLM'lerin ikili duyarlılık sınıflandırma görevinde tatmin edici bir performans elde edebildiklerini, ancak daha derin anlayış veya yapılandırılmış duyarlılık bilgisi gerektiren daha karmaşık görevlerde (örneğin, ince taneli duyarlılık analizi) denetlenen temel çizgiye göre daha düşük performans gösterdiklerini bulmuşlardır.
Büyük dil modelleri (LLM'ler) (Wang ve diğerleri, 2022a; Zhang ve diğerleri, 2023b), kendi kendini denetleyen öğrenme teknikleriyle büyük etiketsiz metin korporaları üzerinde eğitilen modellerdir. Model mimarisine dayalı olarak Yüksek Lisans'lar üç türe ayrılabilir: (1) BERT (Devlin ve diğerleri, 2018) ve çeşitleri (Lan ve diğerleri) gibi bir metin kodlayıcı içeren ve girdi temsillerini üreten yalnızca kodlayıcı modeller. Liu ve diğerleri, 2019; Clark ve diğerleri, 2020; Joshi ve diğerleri, 2020; (2) bir kod çözücüye sahip olan ve GPT serisi modeller gibi giriş metnine göre koşullandırılmış metin üreten yalnızca kod çözücü modelleri (Radford ve diğerleri, 2019; Brown ve diğerleri, 2020; Keskar ve diğerleri, 2019; Radford ve diğerleri) 2019; Chowdhery ve diğerleri, 2022; Zhang ve diğerleri, 2022a; Zeng ve diğerleri, 2022b; , 2023; OpenAI, 2023); ve (3) T5 (Raffel ve diğerleri, 2020) ve onun varyantları (Lewis ve diğerleri, 2019; Xue ve diğerleri) gibi bir çift kodlayıcı-kod çözücüye sahip olan ve giriş temsiline göre koşullandırılmış metin üreten kodlayıcı-kod çözücü modelleri. diğerleri, 2020).
GPT-3'ten (Brown ve diğerleri, 2020) başlayarak, LLM'ler ortaya çıkan yetenekler göstermiş (Wei ve diğerleri, 2022a) ve LLM'lerin birkaç açıklamalı örnekle şartlandırılmış etiket yoğun metinler oluşturduğu bağlam içi öğrenme (ICL) yoluyla NLP görevlerini tamamlamıştır. degrade güncellemeleri. Literatürdeki birçok çalışma, NLP görevlerinde ICL performanslarını iyileştirmeye yönelik stratejiler önermektedir. Li ve Liang (2021); Chevalier ve ark. (2023); Mu ve ark. (2023) sürekli alandaki istemleri optimize eder. Liu ve diğerleri. (2021a); Wan ve diğerleri. (2023); Zhang ve diğerleri. (2023a) gösteri olarak bir test girdisinin en yakın k komşusunu almak için tren setini araştırıyor. Zhang ve diğerleri. (2022b); Sun ve ark. (2023b); Yao ve ark. (2023) bir görevi birkaç alt göreve ayrıştırır ve bunları LLM tarafından oluşturulan akıl yürütme zincirlerine bağlı olarak nihai cevaba doğru adım adım çözer. Sun ve ark. (2023a); Wang ve diğerleri. (2023) yeni bir yönlendirme turu gerçekleştirerek Yüksek Lisans sonuçlarının doğrulanmasını önermektedir; Liu ve diğerleri. (2021b); Feng ve diğerleri. (2023) doğal dil bilgisi bildirimleri oluşturmak ve dış bilgi bildirimlerini istemlere entegre etmek için Yüksek Lisans'ı kullanıyor.
LLM işbirliği, belirli bir görevi çözmek için birden fazla LLM'nin birlikte çalışmasını içerir. Spesifik olarak, görev birkaç ara göreve ayrıştırılır ve her LLM'ye bağımsız olarak bir ara görevi tamamlamak üzere atanır. Verilen görev, bu ara sonuçların entegrasyonu veya özetlenmesinden sonra çözülür. LLM işbirliği yaklaşımı, LLM'lerin yeteneklerinden yararlanabilir, karmaşık görevlerdeki performansı artırabilir ve karmaşık sistemler oluşturmaya olanak sağlayabilir. Shinn ve diğerleri. (2023); Sun ve ark. (2023a); Gero ve ark. (2023); Wang ve Li (2023); Chen ve diğerleri. (2023b) yardımcı görevler (örneğin, yansıtma, doğrulama görevleri) oluştururlar ve yardımcı görevin sonucuna göre orijinal göreve verilen yanıtı gözden geçirirler. Talebirad ve Nadiri (2023); Hong ve ark. (2023); Qian ve diğerleri. (2023) LLM'lere karakterizasyon profilleri (örn. proje yöneticisi, yazılım mühendisi) atadı ve davranış animasyonları aracılığıyla karaktere özgü görevlerde performans artışı elde etti. Li ve diğerleri. (2022); Zeng ve diğerleri. (2022a); Chen ve diğerleri. (2023a); Du ve diğerleri. (2023); Liang ve diğerleri. (2023), birden fazla farklı LLM'nin verilen göreve kendi yanıtlarını önerdiği ve ortak bir nihai yanıt elde edene kadar birden fazla turda tartıştığı bir tartışma stratejisi kullanır. Ayrıca Shen ve ark. (2023); Gao ve diğerleri. (2023); Ge ve diğerleri. (2023); Zhang ve diğerleri. (2023c); Hao ve diğerleri. (2023) verilen görev için bir plan tasarlayan, uygulama için uzman modelleri seçen ve ara planlı görevlerin yanıtlarını özetleyen görev denetleyicisi olarak bir LLM kullanır. Diğer LLM'ler, uzmanlık alanlarındaki ara görevleri tamamlayan görev yürütücüleri olarak görev yapar.
Bu makale arxiv'de CC 4.0 lisansı altında mevcuttur .