paint-brush
बहु-चरणीय पाठ पुनर्प्राप्ति के लिए LLaMA को परिष्कृत करनाद्वारा@textmodels
647 रीडिंग
647 रीडिंग

बहु-चरणीय पाठ पुनर्प्राप्ति के लिए LLaMA को परिष्कृत करना

द्वारा Writings, Papers and Blogs on Text Models4m2024/07/05
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

यह अध्ययन अत्याधुनिक LLaMA मॉडल का उपयोग करके टेक्स्ट रिट्रीवल को बेहतर बनाने की खोज करता है। RepLLaMA और RankLLaMA के रूप में परिष्कृत, ये मॉडल पैसेज और दस्तावेज़ रिट्रीवल दोनों के लिए बेहतर प्रभावशीलता प्राप्त करते हैं, लंबे संदर्भों को संभालने की उनकी क्षमता का लाभ उठाते हैं और मजबूत शून्य-शॉट प्रदर्शन प्रदर्शित करते हैं।
featured image - बहु-चरणीय पाठ पुनर्प्राप्ति के लिए LLaMA को परिष्कृत करना
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

लेखक:

(1) ज़ुएगुआंग मा, डेविड आर. चेरीटन स्कूल ऑफ कंप्यूटर साइंस, वाटरलू विश्वविद्यालय;

(2) लियांग वांग, माइक्रोसॉफ्ट रिसर्च;

(3) नान यांग, माइक्रोसॉफ्ट रिसर्च;

(4) फुरु वेई, माइक्रोसॉफ्ट रिसर्च;

(5) जिमी लिन, डेविड आर. चेरीटन स्कूल ऑफ कंप्यूटर साइंस, वाटरलू विश्वविद्यालय।

लिंक की तालिका

सार और परिचय

तरीका

प्रयोगों

एब्लेशन अध्ययन और विश्लेषण

संबंधित कार्य

निष्कर्ष, आभार और संदर्भ

अमूर्त

बहु-चरणीय पाठ पुनर्प्राप्ति की प्रभावशीलता को पूर्व-प्रशिक्षित भाषा मॉडल के युग से पहले से ही ठोस रूप से प्रदर्शित किया गया है। हालाँकि, अधिकांश मौजूदा अध्ययन ऐसे मॉडल का उपयोग करते हैं जो बड़े भाषा मॉडल (LLM) में हाल ही में हुई प्रगति से पहले के हैं। यह अध्ययन उन संभावित सुधारों का पता लगाने का प्रयास करता है जो अत्याधुनिक LLM ला सकते हैं। हम एक व्यापक अध्ययन करते हैं, MS MARCO डेटासेट का उपयोग करके पैसेज पुनर्प्राप्ति और दस्तावेज़ पुनर्प्राप्ति दोनों के लिए एक सघन पुनर्प्राप्तिकर्ता (RepLLaMA) और एक बिंदुवार पुनर्रैंकर (RankLLaMA) के रूप में नवीनतम LLaMA मॉडल को परिष्कृत करते हैं। हमारे निष्कर्ष प्रदर्शित करते हैं कि बड़े भाषा मॉडल की प्रभावशीलता वास्तव में छोटे मॉडल से बेहतर है। इसके अतिरिक्त, चूँकि LLM स्वाभाविक रूप से लंबे संदर्भों को संभाल सकते हैं, इसलिए वे पारंपरिक सेगमेंटिंग और पूलिंग रणनीतियों की आवश्यकता को समाप्त करते हुए संपूर्ण दस्तावेज़ों को समग्र रूप से प्रस्तुत कर सकते हैं। इसके अलावा, BEIR पर मूल्यांकन प्रदर्शित करते हैं कि हमारी RepLLaMA-RankLLaMA पाइपलाइन मजबूत शून्य-शॉट प्रभावशीलता प्रदर्शित करती है। इस अध्ययन से मॉडल चेकपॉइंट HuggingFace.1 पर उपलब्ध हैं

1 परिचय

टेक्स्ट रिट्रीवल, जिसमें किसी क्वेरी के जवाब में सबसे प्रासंगिक दस्तावेज़ों या टेक्स्ट स्निपेट की पहचान करना और उन्हें रैंक करना शामिल है, विभिन्न ओपनडोमेन भाषा समझ कार्यों (पेट्रोनी एट अल., 2021) में महत्वपूर्ण है, जिसमें वेब सर्च (बजाज एट अल., 2016), ओपन-डोमेन प्रश्न उत्तर (चेन एट अल., 2017) और तथ्य सत्यापन (थॉर्न एट अल., 2018) शामिल हैं। रिट्रीवल रिट्रीवल-ऑगमेंटेड जेनरेशन (RAG) पाइपलाइन (लुईस एट अल., 2020बी; शि एट अल., 2023) में बड़े भाषा मॉडल (LLM) की प्रभावशीलता को बढ़ाने में भी महत्वपूर्ण भूमिका निभाता है। यह दृष्टिकोण न केवल मतिभ्रम को कम करता है बल्कि LLM को उस ज्ञान तक पहुँचने में सक्षम बनाता है जो उनके मापदंडों के भीतर कैप्चर नहीं होता है (यांग एट अल., 2023; जियांग एट अल., 2023)।


एक सामान्य बहु-चरणीय टेक्स्ट पुनर्प्राप्ति पाइपलाइन में एक रिट्रीवर होता है, जिसे कॉर्पस से शीर्ष-के प्रासंगिक टेक्स्ट को कुशलतापूर्वक खोजने के लिए डिज़ाइन किया गया है, और एक रीरैंकर, जो आउटपुट गुणवत्ता में सुधार करने के लिए पुनर्प्राप्त किए गए उम्मीदवारों के क्रम को और अधिक परिष्कृत करता है (नोगीरा और चो, 2019)। रिट्रीवर्स और रीरैंकर्स दोनों को ट्रांसफॉर्मर्स (वासवानी एट अल., 2017) जैसे BERT (डेवलिन एट अल., 2019) और T5 (रैफेल एट अल., 2020) पर आधारित पूर्व-प्रशिक्षित भाषा मॉडल के आगमन से काफी लाभ हुआ है। इन मॉडलों को पुनर्प्राप्ति के लिए क्वेरी और दस्तावेज़ों को वेक्टर अभ्यावेदन में एनकोड करने के लिए प्रशिक्षित किया जाता है (करपुखिन एट अल., 2020; लिन, 2021) या रीरैंकिंग के लिए क्वेरी और दस्तावेज़ के बीच प्रासंगिकता को सीधे स्कोर करने के लिए (नोगीरा एट अल., 2019; झुआंग एट अल., 2023)।


हाल ही में अरबों पैरामीटर वाले बड़े भाषा मॉडल, निर्देशों का पालन करने के लिए ठीक-ठाक, जैसे कि InstructGPT (Ouyang et al., 2022), GPT-4 (OpenAI, 2023), और LLaMA (Touvron et al., 2023a,b), ने कई NLP कार्यों में असाधारण क्षमताएँ प्रदर्शित की हैं, जो पिछले छोटे पूर्व-प्रशिक्षित भाषा मॉडल (Zhao et al., 2023) से बेहतर हैं। पुनर्प्राप्ति के लिए, LRL (Ma et al., 2023), RankGPT (Sun et al., 2023), और PRP (Qin et al., 2023) जैसी हाल की विधियों ने LLM को जोड़ीदार या सूचीवार तरीकों का उपयोग करके शून्य-शॉट रीरैंकिंग करने के लिए प्रेरित करने का पता लगाया है। ये विधियाँ रीरैंकिंग को टेक्स्ट जेनरेशन के रूप में देखकर LLM का लाभ उठाती हैं।


हालाँकि, हम कई संभावित मुद्दे देखते हैं। सबसे पहले, ये विधियाँ संपूर्ण मल्टीस्टेज पाइपलाइन को संबोधित नहीं करती हैं, क्योंकि एक बड़े कॉर्पस से टेक्स्ट जनरेशन कार्य के रूप में पुनर्प्राप्ति करना चुनौतीपूर्ण है। दूसरा, वे उपलब्ध होने पर लेबल किए गए डेटा का लाभ नहीं उठाते हैं। अंत में, ये रीरैंकर कुशल नहीं हैं क्योंकि वे समानांतर स्कोरिंग का समर्थन नहीं करते हैं और उनके मल्टी-पास डिकोडिंग डिज़ाइन द्वारा धीमे होते हैं।


इसलिए, हम तर्क देते हैं कि स्टेट-ऑफ़-द-आर्ट बड़े भाषा मॉडल को रिट्रीवर और रीरैंकर के रूप में कार्य करने के लिए ठीक-ठीक ट्यूनिंग करने से पिछले छोटे मॉडल की तुलना में बेहतर प्रभावशीलता मिल सकती है। यह दृष्टिकोण मल्टी-स्टेज पाइपलाइनों के भीतर एलएलएम का भी इष्टतम उपयोग कर सकता है। इस प्रकार, हम निम्नलिखित शोध प्रश्न की जांच करने के लिए प्रेरित हैं: मल्टी-स्टेज टेक्स्ट रिट्रीवल के लिए विशेष रूप से ठीक-ठीक ट्यून किए जाने पर स्टेट-ऑफ़-द-आर्ट बड़े भाषा मॉडल कैसे प्रदर्शन करते हैं?


हमारे अध्ययन का उद्देश्य नवीनतम LLaMA-2 मॉडल (Touvron et al., 2023b), एक अत्याधुनिक, ओपन-सोर्स लार्ज लैंग्वेज मॉडल, को रिट्रीवर और रीरैंकर दोनों के रूप में फाइनट्यून करने के लिए एक व्यापक जांच करके इस प्रश्न का उत्तर देना है, जिसे हम क्रमशः RepLLaMA और RankLLaMA के रूप में संदर्भित करते हैं। विशेष रूप से, हम अपने प्रयोगों के लिए MS MARCO (Bajaj et al., 2016) और BEIR (Thakur et al., 2021) डेटासेट का उपयोग करते हैं। हमारे निष्कर्ष बताते हैं कि बड़े भाषा मॉडल पिछले छोटे मॉडलों से आगे निकल जाते हैं, एक सीधी प्रशिक्षण व्यवस्था के माध्यम से पुनर्प्राप्ति और रीरैंकिंग दोनों के लिए अत्याधुनिक प्रभावशीलता प्राप्त करते हैं और मजबूत शून्य-शॉट प्रभावशीलता प्रदर्शित करते हैं। इसके अलावा, हम देखते हैं कि LLM, जो स्वाभाविक रूप से लंबे संदर्भों पर पूर्व-प्रशिक्षित होते हैं, पूरे दस्तावेज़ों का प्रतिनिधित्व करने की क्षमता प्रदर्शित करते हैं, जिससे दस्तावेज़ पुनर्प्राप्ति के लिए पारंपरिक सेगमेंटिंग और पूलिंग रणनीतियों की आवश्यकता समाप्त हो जाती है।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।



1 https://huggingface.co/castorini