168 रीडिंग

बड़े भाषा मॉडल के लिए कुशल निर्देशित पीढ़ी: चर्चा, संदर्भ और आभार

द्वारा Writings, Papers and Blogs on Text Models4m2024/06/02

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने पाठ निर्माण के लिए एक परिमित-अवस्था मशीन ढांचे का प्रस्ताव दिया है, जो सटीक नियंत्रण और बेहतर प्रदर्शन प्रदान करता है।

featured image - बड़े भाषा मॉडल के लिए कुशल निर्देशित पीढ़ी: चर्चा, संदर्भ और आभार

लेखक:

(1) ब्रैंडन टी. विलार्ड, नॉर्मल कंप्यूटिंग;

(2) रेमी लौफ, नॉर्मल कंप्यूटिंग।

लिंक की तालिका

5. चर्चा

इस पेपर में प्रस्तुत शब्दावली अनुक्रमण निर्देशित पीढ़ी में एक निषेधात्मक रन-टाइम स्केलिंग बाधा को हटाता है। स्वाभाविक रूप से, यह प्रसंस्करण और मेमोरी के बीच एक समझौता करता है, लेकिन हमारा मानना है कि मेमोरी लागत औसतन अपेक्षाकृत कम है और - जब नहीं - पारंपरिक तरीकों से कम किया जा सकता है।

पायथन व्याकरण के थोड़े संवर्धित संस्करण का उपयोग करके हमारे परीक्षणों में, हम पाते हैं कि सरलता से निर्मित सूचकांक (यानी अप्रयुक्त और अनावश्यक पार्सर और FSM स्थिति कॉन्फ़िगरेशन वाले) अभी भी केवल 50 एमबी के आसपास हैं। इसके अलावा, इन सूचकांकों का निर्माण बिना कम किए गए DFA के साथ किया गया था, जिसका अर्थ है कि कई अनावश्यक स्थितियाँ हैं जो अनावश्यक रूप से सूचकांकों के आकार को बढ़ा रही हैं। इसी तरह, यदि स्टेट मशीनों का सटीक प्रतिनिधित्व कभी कोई समस्या है, तो यह संभव है कि कम मेमोरी आवश्यकताओं वाले अन्य स्टेट मशीन फॉर्मूलेशन पर्याप्त हो सकते हैं (जैसे NFA)।

इस कार्य के निहितार्थ तंत्रिका पाठ निर्माण तक सीमित नहीं हैं। उदाहरण के लिए, संरचित आउटपुट की आवश्यकता होने पर LLM के प्रशिक्षण या फ़ाइन-ट्यूनिंग में सहायता के लिए यहाँ वर्णित अनुक्रमण दृष्टिकोण का उपयोग किया जा सकता है। हम यह भी अनुमान लगा सकते हैं कि प्रशिक्षण के दौरान सहायक निर्माण से मॉडल को वाक्यविन्यास संबंधी विवरण सीखने की आवश्यकता कम हो सकती है।

इसके अलावा, यह विधि मौजूदा मॉडलों का मूल्यांकन करने का एक वैकल्पिक तरीका प्रदान करती है। उदाहरण के लिए, कोई हमारी विधि द्वारा उत्पन्न मास्क्ड लॉगिट और मॉडल द्वारा उत्पन्न रॉ लॉगिट के बीच विसंगति को मापने का प्रयास कर सकता है। जो बदले में मॉडल के प्रशिक्षण उद्देश्य को सूचित कर सकता है।

इस दृष्टिकोण द्वारा गणना किए गए मास्क को भाषा मॉडल में ही "उठाना" भी संभव हो सकता है। मूल रूप से, मास्क अप्रत्यक्ष रूप से यह निर्धारित करते हैं कि किन संगणनाओं को निष्पादित करने की आवश्यकता नहीं है। हमारा वर्तमान सूत्रीकरण केवल सबसे निचले स्तर पर मास्क लागू करता है, लेकिन, मॉडल की वास्तुकला में मास्क को और ऊपर उठाकर, हम अनावश्यक रूप से उन पर संचालन करने से पहले मॉडल मापदंडों के किन स्लाइस की आवश्यकता है, इसे मॉड्यूलेट करने में सक्षम हो सकते हैं। इससे कम्प्यूटेशनल लागत को और कम करने की क्षमता है।

संदर्भ

लुका ब्यूरर-केल्नर, मार्क फिशर और मार्टिन वेचेव। प्रॉम्प्टिंग प्रोग्रामिंग है: बड़े भाषा मॉडल के लिए एक क्वेरी भाषा। प्रोग्रामिंग भाषाओं पर ACM की कार्यवाही, 7 (PLDI): 1946–1969, 2023।

यिहोंग डोंग, जी ली, और ज़ी जिन। CODEP: सामान्य प्रयोजन कोड जेनरेशन के लिए व्याकरणिक Seq2Seq मॉडल। सॉफ़्टवेयर परीक्षण और विश्लेषण पर 32वें ACM SIGSOFT अंतर्राष्ट्रीय संगोष्ठी की कार्यवाही में, ISSTA 2023, पृष्ठ 188-198, न्यूयॉर्क, NY, USA, जुलाई 2023। कंप्यूटिंग मशीनरी के लिए एसोसिएशन। आईएसबीएन 9798400702211. doi: 10.1145/3597926. 3598048.

साइबो गेंग, मार्टिन जोसिफोस्की, मैक्सिम पेयर्ड और रॉबर्ट वेस्ट। भाषा मॉडल के लिए लचीला व्याकरण-आधारित विवश डिकोडिंग, मई 2023।

माइकल कुचनिक, वर्जीनिया स्मिथ और जॉर्ज एम्व्रोसियाडिस। बड़े भाषा मॉडल को रीलम के साथ मान्य करना। मशीन लर्निंग और सिस्टम की कार्यवाही, 5, 2023।

अलेक्जेंडर के. लेव, टैन ज़ी-ज़ुआन, गेब्रियल ग्रैंड, और विकाश के. मानसिंहका। संभाव्य कार्यक्रमों का उपयोग करके बड़े भाषा मॉडल का अनुक्रमिक मोंटे कार्लो संचालन। arXiv प्रीप्रिंट arXiv:2306.03081, 2023।

रेमी लौफ और ब्रैंडन टी. विलार्ड। रूपरेखा: जनरेटिव मॉडल प्रोग्रामिंग। URL https://github.com/normal-computing/outlines.

Microsoft. मार्गदर्शन. Microsoft, जुलाई 2023. URL https://github.com/ microsoft/guidance.

गेब्रियल पोएसिया, ओलेक्सांद्र पोलोज़ोव, वु ले, आशीष तिवारी, गुस्तावो सोरेस, क्रिस्टोफर मीक और सुमित गुलवानी। सिंक्रोमेश: पूर्व-प्रशिक्षित भाषा मॉडल से विश्वसनीय कोड जेनरेशन। arXiv प्रीप्रिंट arXiv:2201.11227, 2022a।

मैक्सिम राबिनोविच, मिशेल स्टर्न, और डैन क्लेन। कोड जनरेशन और सिमेंटिक पार्सिंग के लिए एब्सट्रैक्ट सिंटैक्स नेटवर्क। arXiv प्रीप्रिंट arXiv:1704.07535, 2017।

एलेक रेडफ़ोर्ड, जेफ़री वू, रेवन चाइल्ड, डेविड लुआन, डारियो अमोदी और इल्या सुत्सकेवर। भाषा मॉडल अप्रशिक्षित मल्टीटास्क शिक्षार्थी हैं। ओपनएआई ब्लॉग, 1(8):9, 2019।

मैट रिकार्ड. parserLLM, जुलाई 2023a. URL https://github.com/r2d4/ parserllm.

मैट रिकार्ड. R2d4/rellm: किसी भी भाषा मॉडल पूर्णता से सटीक संरचना., 2023b. URL https://github.com/r2d4/rellm.

टॉर्स्टन स्कोलक, नाथन शूचर, और डिज़मिट्री बहदानौ। PICARD: भाषा मॉडल से विवश ऑटो-रिग्रैसिव डिकोडिंग के लिए वृद्धिशील रूप से पार्स करना। arXiv प्रीप्रिंट arXiv:2109.05093, 2021।

रिको सेनरिच, बैरी हैडो, और एलेक्जेंड्रा बिर्च। सबवर्ड इकाइयों के साथ दुर्लभ शब्दों का न्यूरल मशीन अनुवाद। arXiv प्रीप्रिंट arXiv:1508.07909, 2015।

माइकल सिप्सर। कम्प्यूटेशन के सिद्धांत का परिचय। इंटरनेशनल थॉमसन पब्लिशिंग, 1996।

आशीष वासवानी, नोम शज़ीर, निकी परमार, जैकब उस्कोरिट, लियोन जोन्स, ऐडन एन. गोमेज़, \लुकाज़ कैसर, और इलिया पोलोसुखिन। ध्यान ही आपकी ज़रूरत है। तंत्रिका सूचना प्रसंस्करण प्रणालियों में प्रगति, 30, 2017।

बैलिन वांग, ज़ी वांग, ज़ुएज़ी वांग, युआन काओ, रिफ़ ए. सोरस, और यूं किम। बड़े भाषा मॉडल के साथ डोमेन-विशिष्ट भाषा निर्माण के लिए व्याकरण संकेत, मई 2023।

लिलियन वेंग. नियंत्रणीय तंत्रिका पाठ पीढ़ी, जनवरी 2021. URL https://lilianweng.github.io/posts/ 2021-01-02-controllable-text-generation/.