paint-brush
Çok Aşamalı Metin Erişimi için LLaMA'nın İnce Ayarıile@textmodels
663 okumalar
663 okumalar

Çok Aşamalı Metin Erişimi için LLaMA'nın İnce Ayarı

Çok uzun; Okumak

Bu çalışma, en son teknolojiye sahip LLaMA modellerini kullanarak metin alımını geliştirmeyi araştırıyor. RepLLaMA ve RankLLaMA olarak ince ayar yapılan bu modeller, hem geçiş hem de belge alımı için üstün etkinliğe ulaşır, daha uzun bağlamlarla başa çıkma yeteneklerinden yararlanır ve güçlü sıfır atış performansı sergiler.
featured image - Çok Aşamalı Metin Erişimi için LLaMA'nın İnce Ayarı
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Yazarlar:

(1) Xueguang Ma, David R. Cheriton Bilgisayar Bilimleri Okulu, Waterloo Üniversitesi;

(2) Liang Wang, Microsoft Araştırma;

(3) Nan Yang, Microsoft Araştırma;

(4) Furu Wei, Microsoft Araştırma;

(5) Jimmy Lin, David R. Cheriton Bilgisayar Bilimleri Okulu, Waterloo Üniversitesi.

Bağlantı Tablosu

Özet ve Giriş

Yöntem

Deneyler

Ablasyon Çalışması ve Analizi

Alakalı iş

Sonuç, Teşekkür ve Referanslar

Soyut

Çok aşamalı metin erişiminin etkinliği, önceden eğitilmiş dil modelleri çağından bu yana sağlam bir şekilde kanıtlanmıştır. Bununla birlikte, mevcut çalışmaların çoğu, büyük dil modellerindeki (LLM'ler) son gelişmelerden önce gelen modelleri kullanmaktadır. Bu çalışma, en son teknolojiye sahip LLM'lerin getirebileceği potansiyel iyileştirmeleri keşfetmeyi amaçlamaktadır. MS MARCO veri kümelerini kullanarak hem pasaj alımı hem de belge alımı için hem yoğun bir alıcı (RepLLaMA) hem de noktasal bir yeniden sıralayıcı (RankLLaMA) olarak en son LLaMA modeline ince ayar yaparak kapsamlı bir çalışma yürütüyoruz. Bulgularımız, büyük dil modellerinin etkililiğinin gerçekten de küçük modellerin etkinliğini aştığını göstermektedir. Ek olarak, Yüksek Lisanslar doğası gereği daha uzun bağlamları işleyebildiğinden, geleneksel bölümleme ve havuzlama stratejilerine olan ihtiyacı ortadan kaldırarak tüm belgeleri bütünsel olarak temsil edebilirler. Ayrıca BEIR ile ilgili değerlendirmeler, RepLLaMA – RankLLaMA hattımızın güçlü sıfır atış etkinliği sergilediğini gösteriyor. Bu çalışmadaki model kontrol noktaları HuggingFace'te mevcuttur.1

1. Giriş

Bir sorguya yanıt olarak en alakalı belgeleri veya metin parçacıklarını tanımlamayı ve sıralamayı gerektiren metin alımı, web araması (Bajaj ve diğerleri, 2016) dahil olmak üzere çeşitli açık alanlı dil anlama görevlerinde (Petroni ve diğerleri, 2021) çok önemlidir. açık alan soru yanıtlama (Chen ve diğerleri, 2017) ve gerçekleri doğrulama (Thorne ve diğerleri, 2018). Geri alma, aynı zamanda, geri almayla artırılmış nesil (RAG) hattındaki büyük dil modellerinin (LLM'ler) etkinliğini arttırmada da önemli bir rol oynar (Lewis ve diğerleri, 2020b; Shi ve diğerleri, 2023). Bu yaklaşım yalnızca halüsinasyonları azaltmakla kalmaz, aynı zamanda Yüksek Lisans'ların kendi parametreleri dahilinde yakalanmayan bilgilere erişmelerini de sağlar (Yang ve diğerleri, 2023; Jiang ve diğerleri, 2023).


Tipik bir çok aşamalı metin alma hattı, bir derlemden en üstteki ilgili metinleri verimli bir şekilde bulmak için tasarlanmış bir alıcı ve çıktı kalitesini artırmak için alınan adayların sırasını daha da hassaslaştıran bir yeniden sıralayıcıdan oluşur (Nogueira ve Cho, 2019) ). Hem alıcılar hem de yeniden sıralayıcılar, BERT (Devlin ve diğerleri, 2019) ve T5 (Raffel ve diğerleri, 2020) gibi Transformers'ı (Vaswani ve diğerleri, 2017) temel alan önceden eğitilmiş dil modellerinin ortaya çıkmasından önemli ölçüde yararlanmıştır. Bu modeller, sorguları ve belgeleri erişim için vektör temsillerine kodlamak (Karpukhin ve diğerleri, 2020; Lin, 2021) veya yeniden sıralama için bir sorgu ile bir belge arasındaki ilişkiyi doğrudan puanlamak (Nogueira ve diğerleri, 2019; Zhuang ve diğerleri) için eğitilir. diğerleri, 2023).


InstructGPT (Ouyang ve diğerleri, 2022), GPT-4 (OpenAI, 2023) ve LLaMA (Touvron ve diğerleri, 2023a,b) gibi milyarlarca parametreye sahip, talimatları takip edecek şekilde ince ayar yapılmış yeni büyük dil modelleri, önceki daha küçük, önceden eğitilmiş dil modellerini geride bırakarak birçok NLP görevinde olağanüstü yetenekler sergilediler (Zhao ve diğerleri, 2023). Geri çağırma için, LRL (Ma ve diğerleri, 2023), RankGPT (Sun ve diğerleri, 2023) ve PRP (Qin ve diğerleri, 2023) gibi yeni yöntemler, LLM'lerin ikili veya listesel yaklaşımlar. Bu yöntemler, yeniden sıralamayı metin oluşturma olarak görüntüleyerek Yüksek Lisans'tan yararlanır.


Ancak bir dizi potansiyel sorun görüyoruz. İlk olarak, bu yöntemler çok aşamalı boru hattının tamamını ele almıyor çünkü büyük bir derlemden erişim sağlamayı bir metin oluşturma görevi olarak gerçekleştirmek zor. İkincisi, mevcut olduğunda etiketli verilerden faydalanmazlar. Son olarak, bu yeniden sıralayıcılar verimli değildir çünkü paralel puanlamayı desteklemezler ve çok geçişli kod çözme tasarımları nedeniyle yavaşlarlar.


Bu nedenle, son teknolojiye sahip büyük dil modellerinin, alıcı ve yeniden sıralayıcı olarak işlev görecek şekilde ince ayarının yapılmasının, önceki küçük modellere göre daha iyi etkinlik sağlayabileceğini savunuyoruz. Bu yaklaşım aynı zamanda çok aşamalı işlem hatları içinde Yüksek Lisans'ları en iyi şekilde kullanabilir. Bu nedenle, aşağıdaki araştırma sorusunu araştırmaya motive oluyoruz: Son teknolojiye sahip büyük dil modelleri, çok aşamalı metin alımı için özel olarak ince ayar yapıldığında nasıl performans gösterir?


Çalışmamız, son teknolojiye sahip, açık kaynaklı bir büyük dil modeli olan en son LLaMA-2 modelinin (Touvron ve diğerleri, 2023b) hem alıcı hem de alıcı olarak ince ayarının yapılmasına yönelik kapsamlı bir araştırma yaparak bu soruyu yanıtlamayı amaçlamaktadır. sırasıyla RepLLaMA ve RankLLaMA olarak adlandırdığımız bir yeniden sıralama. Özellikle deneylerimiz için MS MARCO (Bajaj ve diğerleri, 2016) ve BEIR (Thakur ve diğerleri, 2021) veri kümelerini kullanıyoruz. Bulgularımız, büyük dil modellerinin önceki küçük modelleri geride bıraktığını, basit bir eğitim rejimi aracılığıyla hem geri getirme hem de yeniden sıralama için son teknoloji etkililiğe ulaştığını ve güçlü sıfır atış etkinliği sergilediğini gösteriyor. Ayrıca, doğası gereği daha uzun bağlamlarda önceden eğitilmiş olan LLM'lerin, tüm belgeleri temsil etme potansiyeli sergilediğini, dolayısıyla belge alımı için geleneksel bölümleme ve havuzlama stratejilerine olan ihtiyacı ortadan kaldırdığını gözlemliyoruz.




1 https://huggingface.co/castorini