लेखक:  (1) ब्रैंडन टी. विलार्ड, नॉर्मल कंप्यूटिंग;  (2) रेमी लौफ, नॉर्मल कंप्यूटिंग।  लिंक की तालिका   सार और परिचय   एलएलएम नमूनाकरण और निर्देशित पीढ़ी   पुनरावृत्तीय एफएसएम प्रसंस्करण और अनुक्रमण   पुनरावृत्तीय पार्सिंग के लिए विस्तार   चर्चा, संदर्भ और आभार  अमूर्त  इस लेख में हम दिखाते हैं कि कैसे तंत्रिका पाठ निर्माण की समस्या को परिमित-अवस्था मशीन की अवस्थाओं के बीच संक्रमण के संदर्भ में रचनात्मक रूप से सुधारा जा सकता है। यह ढांचा भाषा मॉडल की शब्दावली पर एक सूचकांक के निर्माण की अनुमति देकर नियमित अभिव्यक्तियों और संदर्भ-मुक्त व्याकरण के साथ पाठ निर्माण को निर्देशित करने के लिए एक कुशल दृष्टिकोण की ओर ले जाता है। यह दृष्टिकोण मॉडल अज्ञेयवादी है, किसी को डोमेन-विशिष्ट ज्ञान और बाधाओं को लागू करने की अनुमति देता है, और उत्पन्न पाठ की संरचना की गारंटी देकर विश्वसनीय इंटरफेस के निर्माण को सक्षम बनाता है। यह टोकन अनुक्रम निर्माण प्रक्रिया में थोड़ा ओवरहेड जोड़ता है और मौजूदा समाधानों से काफी बेहतर प्रदर्शन करता है। ओपन सोर्स पायथन लाइब्रेरी आउटलाइन्स [लौफ और विलार्ड] में एक कार्यान्वयन प्रदान किया गया है।  1 परिचय  हम एक बड़े भाषा मॉडल (LLM) [वासवानी एट अल., 2017, रैडफ़ोर्ड एट अल., 2019] से टोकन के अनुक्रम उत्पन्न करने की समस्या से चिंतित हैं जो नियमित अभिव्यक्तियों या संदर्भ-मुक्त व्याकरण (CFG) के अनुरूप हैं। इस तरह के निर्देशित LLM जेनरेशन का उपयोग LLM मॉडल आउटपुट को कठोर फ़ॉर्मेटिंग आवश्यकताओं के तहत उपयोग करने योग्य बनाने के लिए किया जाता है, जिन्हें केवल फ़ाइन-ट्यूनिंग के माध्यम से कैप्चर करना कठिन या महंगा होता है [ब्यूरर-केलनर एट अल., 2023, स्कोलक एट अल., 2021, पोएसिया एट अल., 2022a, राबिनोविच एट अल., 2017, वेंग, 2021, डोंग एट अल., 2023, पोएसिया एट अल., 2022b, गेंग एट अल., 2023, वांग एट अल., 2023]। इस तरह की सुविधाओं को हाल ही में प्रॉम्प्टिंग लाइब्रेरीज़ और इंटरफेस में सामान्यीकृत किया गया है [माइक्रोसॉफ्ट, 2023, ब्यूरर-केल्नर एट अल., 2023, रिकार्ड, 2023ए, बी], लेकिन उनकी प्रयोज्यता उनकी स्केलिंग लागतों द्वारा सीमित हो सकती है।  निर्देशित पीढ़ी के अधिकांश कार्यान्वयन एलएलएम की शब्दावली में टोकन की संभावनाओं को निर्धारित करने के लिए उपयोग किए जाने वाले स्कोर मूल्यों को पूर्वाग्रहित करते हैं। एक सामान्य और पर्याप्त दृष्टिकोण में संपूर्ण शब्दावली पर बार-बार मूल्यांकन करना शामिल है ताकि यह निर्धारित किया जा सके कि कौन से टोकन वैध हैं - बाधाओं और पहले से सैंपल किए गए टोकन के अनुसार - और अमान्य टोकन की संभावनाओं को शून्य पर सेट करना। इस दृष्टिकोण में प्रत्येक उत्पन्न टोकन के लिए एक निश्चित O(N) लागत शामिल है, जहाँ N एलएलएम की शब्दावली का आकार है।  हम एक ऐसा दृष्टिकोण प्रस्तावित करते हैं जो मनमाने ढंग से निर्देशित पीढ़ी को शुरू करने और रोकने के लिए नियमित अभिव्यक्तियों के परिमित राज्य मशीन (FSM) सूत्रीकरण का उपयोग करता है और एक सूचकांक के निर्माण की अनुमति देता है जिसके साथ गैर-शून्य-संभावना टोकन का सेट प्रत्येक चरण में कुशलतापूर्वक प्राप्त किया जा सकता है। परिणाम एक एल्गोरिथ्म है जिसकी औसत लागत O(1) है।  नियमित अभिव्यक्ति मामले के लिए, हमारा दृष्टिकोण कुचनिक एट अल. [2023] के साथ सबसे अधिक समानता साझा करता है, जो भाषा मॉडल की शब्दावली पर परिभाषित FSM प्राप्त करने के लिए एक ट्रांसड्यूसर फॉर्मूलेशन का उपयोग करता है, और इन FSM में यहाँ वर्णित सूचकांकों के समान ही बहुत सी जानकारी और स्केलिंग लाभ होते हैं। हमारे दृष्टिकोण को पूर्ण ट्रांसड्यूसर अमूर्तता की आवश्यकता नहीं है और इसका उपयोग अंतर्निहित ऑटोमेटन और उनके कार्यान्वयन को संशोधित किए बिना मौजूदा, कुशल नियमित अभिव्यक्ति पुस्तकालयों को अधिक आसानी से विस्तारित करने के लिए किया जा सकता है।  इससे भी महत्वपूर्ण बात यह है कि हमारे इंडेक्सिंग दृष्टिकोण को CFG और LALR(1) पार्सर तक भी बढ़ाया जा सकता है ताकि लोकप्रिय डेटा प्रारूपों और प्रोग्रामिंग भाषाओं (जैसे JSON, पायथन, SQL, आदि) के अनुसार कुशल निर्देशित पीढ़ी की अनुमति मिल सके। पार्सिंग में बदलाव पारंपरिक LALR(1) पार्सर घटकों और संचालन में वृद्धि के माध्यम से किया जाता है, जिससे यह फिर से एक ऐसा दृष्टिकोण बन जाता है जिसका उपयोग मौजूदा पार्सर कार्यान्वयन को विस्तारित करने के लिए किया जा सकता है।  यह पेपर CC 4.0 लाइसेंस के अंतर्गत   है। arxiv पर उपलब्ध

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

बड़े भाषा मॉडल के लिए कुशल निर्देशित पीढ़ी: सार और परिचय

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

फ़ोरम से फ़ीड तक: सोशल मीडिया एल्गोरिदम डिजिटल इंटरैक्शन को कैसे आकार देते हैं

सफल क्लाउड माइग्रेशन के लिए संपूर्ण गाइड: रणनीतियाँ और सर्वोत्तम अभ्यास

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

फ़ोरम से फ़ीड तक: सोशल मीडिया एल्गोरिदम डिजिटल इंटरैक्शन को कैसे आकार देते हैं

सफल क्लाउड माइग्रेशन के लिए संपूर्ण गाइड: रणनीतियाँ और सर्वोत्तम अभ्यास

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps