paint-brush
बड़े भाषा मॉडल के लिए कुशल निर्देशित पीढ़ी: सार और परिचयद्वारा@textmodels

बड़े भाषा मॉडल के लिए कुशल निर्देशित पीढ़ी: सार और परिचय

द्वारा Writings, Papers and Blogs on Text Models3m2024/06/02
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने पाठ निर्माण के लिए एक परिमित-अवस्था मशीन ढांचे का प्रस्ताव दिया है, जो सटीक नियंत्रण और बेहतर प्रदर्शन प्रदान करता है।
featured image - बड़े भाषा मॉडल के लिए कुशल निर्देशित पीढ़ी: सार और परिचय
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

लेखक:

(1) ब्रैंडन टी. विलार्ड, नॉर्मल कंप्यूटिंग;

(2) रेमी लौफ, नॉर्मल कंप्यूटिंग।

लिंक की तालिका

अमूर्त

इस लेख में हम दिखाते हैं कि कैसे तंत्रिका पाठ निर्माण की समस्या को परिमित-अवस्था मशीन की अवस्थाओं के बीच संक्रमण के संदर्भ में रचनात्मक रूप से सुधारा जा सकता है। यह ढांचा भाषा मॉडल की शब्दावली पर एक सूचकांक के निर्माण की अनुमति देकर नियमित अभिव्यक्तियों और संदर्भ-मुक्त व्याकरण के साथ पाठ निर्माण को निर्देशित करने के लिए एक कुशल दृष्टिकोण की ओर ले जाता है। यह दृष्टिकोण मॉडल अज्ञेयवादी है, किसी को डोमेन-विशिष्ट ज्ञान और बाधाओं को लागू करने की अनुमति देता है, और उत्पन्न पाठ की संरचना की गारंटी देकर विश्वसनीय इंटरफेस के निर्माण को सक्षम बनाता है। यह टोकन अनुक्रम निर्माण प्रक्रिया में थोड़ा ओवरहेड जोड़ता है और मौजूदा समाधानों से काफी बेहतर प्रदर्शन करता है। ओपन सोर्स पायथन लाइब्रेरी आउटलाइन्स [लौफ और विलार्ड] में एक कार्यान्वयन प्रदान किया गया है।

1 परिचय

हम एक बड़े भाषा मॉडल (LLM) [वासवानी एट अल., 2017, रैडफ़ोर्ड एट अल., 2019] से टोकन के अनुक्रम उत्पन्न करने की समस्या से चिंतित हैं जो नियमित अभिव्यक्तियों या संदर्भ-मुक्त व्याकरण (CFG) के अनुरूप हैं। इस तरह के निर्देशित LLM जेनरेशन का उपयोग LLM मॉडल आउटपुट को कठोर फ़ॉर्मेटिंग आवश्यकताओं के तहत उपयोग करने योग्य बनाने के लिए किया जाता है, जिन्हें केवल फ़ाइन-ट्यूनिंग के माध्यम से कैप्चर करना कठिन या महंगा होता है [ब्यूरर-केलनर एट अल., 2023, स्कोलक एट अल., 2021, पोएसिया एट अल., 2022a, राबिनोविच एट अल., 2017, वेंग, 2021, डोंग एट अल., 2023, पोएसिया एट अल., 2022b, गेंग एट अल., 2023, वांग एट अल., 2023]। इस तरह की सुविधाओं को हाल ही में प्रॉम्प्टिंग लाइब्रेरीज़ और इंटरफेस में सामान्यीकृत किया गया है [माइक्रोसॉफ्ट, 2023, ब्यूरर-केल्नर एट अल., 2023, रिकार्ड, 2023ए, बी], लेकिन उनकी प्रयोज्यता उनकी स्केलिंग लागतों द्वारा सीमित हो सकती है।


निर्देशित पीढ़ी के अधिकांश कार्यान्वयन एलएलएम की शब्दावली में टोकन की संभावनाओं को निर्धारित करने के लिए उपयोग किए जाने वाले स्कोर मूल्यों को पूर्वाग्रहित करते हैं। एक सामान्य और पर्याप्त दृष्टिकोण में संपूर्ण शब्दावली पर बार-बार मूल्यांकन करना शामिल है ताकि यह निर्धारित किया जा सके कि कौन से टोकन वैध हैं - बाधाओं और पहले से सैंपल किए गए टोकन के अनुसार - और अमान्य टोकन की संभावनाओं को शून्य पर सेट करना। इस दृष्टिकोण में प्रत्येक उत्पन्न टोकन के लिए एक निश्चित O(N) लागत शामिल है, जहाँ N एलएलएम की शब्दावली का आकार है।


हम एक ऐसा दृष्टिकोण प्रस्तावित करते हैं जो मनमाने ढंग से निर्देशित पीढ़ी को शुरू करने और रोकने के लिए नियमित अभिव्यक्तियों के परिमित राज्य मशीन (FSM) सूत्रीकरण का उपयोग करता है और एक सूचकांक के निर्माण की अनुमति देता है जिसके साथ गैर-शून्य-संभावना टोकन का सेट प्रत्येक चरण में कुशलतापूर्वक प्राप्त किया जा सकता है। परिणाम एक एल्गोरिथ्म है जिसकी औसत लागत O(1) है।


नियमित अभिव्यक्ति मामले के लिए, हमारा दृष्टिकोण कुचनिक एट अल. [2023] के साथ सबसे अधिक समानता साझा करता है, जो भाषा मॉडल की शब्दावली पर परिभाषित FSM प्राप्त करने के लिए एक ट्रांसड्यूसर फॉर्मूलेशन का उपयोग करता है, और इन FSM में यहाँ वर्णित सूचकांकों के समान ही बहुत सी जानकारी और स्केलिंग लाभ होते हैं। हमारे दृष्टिकोण को पूर्ण ट्रांसड्यूसर अमूर्तता की आवश्यकता नहीं है और इसका उपयोग अंतर्निहित ऑटोमेटन और उनके कार्यान्वयन को संशोधित किए बिना मौजूदा, कुशल नियमित अभिव्यक्ति पुस्तकालयों को अधिक आसानी से विस्तारित करने के लिए किया जा सकता है।


इससे भी महत्वपूर्ण बात यह है कि हमारे इंडेक्सिंग दृष्टिकोण को CFG और LALR(1) पार्सर तक भी बढ़ाया जा सकता है ताकि लोकप्रिय डेटा प्रारूपों और प्रोग्रामिंग भाषाओं (जैसे JSON, पायथन, SQL, आदि) के अनुसार कुशल निर्देशित पीढ़ी की अनुमति मिल सके। पार्सिंग में बदलाव पारंपरिक LALR(1) पार्सर घटकों और संचालन में वृद्धि के माध्यम से किया जाता है, जिससे यह फिर से एक ऐसा दृष्टिकोण बन जाता है जिसका उपयोग मौजूदा पार्सर कार्यान्वयन को विस्तारित करने के लिए किया जा सकता है।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।