We publish the best academic papers on rule-based techniques, LLMs, & the generation of text that resembles human text.
Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.
लेखक:
(1) ब्रैंडन टी. विलार्ड, नॉर्मल कंप्यूटिंग;
(2) रेमी लौफ, नॉर्मल कंप्यूटिंग।
इस पेपर में प्रस्तुत शब्दावली अनुक्रमण निर्देशित पीढ़ी में एक निषेधात्मक रन-टाइम स्केलिंग बाधा को हटाता है। स्वाभाविक रूप से, यह प्रसंस्करण और मेमोरी के बीच एक समझौता करता है, लेकिन हमारा मानना है कि मेमोरी लागत औसतन अपेक्षाकृत कम है और - जब नहीं - पारंपरिक तरीकों से कम किया जा सकता है।
पायथन व्याकरण के थोड़े संवर्धित संस्करण का उपयोग करके हमारे परीक्षणों में, हम पाते हैं कि सरलता से निर्मित सूचकांक (यानी अप्रयुक्त और अनावश्यक पार्सर और FSM स्थिति कॉन्फ़िगरेशन वाले) अभी भी केवल 50 एमबी के आसपास हैं। इसके अलावा, इन सूचकांकों का निर्माण बिना कम किए गए DFA के साथ किया गया था, जिसका अर्थ है कि कई अनावश्यक स्थितियाँ हैं जो अनावश्यक रूप से सूचकांकों के आकार को बढ़ा रही हैं। इसी तरह, यदि स्टेट मशीनों का सटीक प्रतिनिधित्व कभी कोई समस्या है, तो यह संभव है कि कम मेमोरी आवश्यकताओं वाले अन्य स्टेट मशीन फॉर्मूलेशन पर्याप्त हो सकते हैं (जैसे NFA)।
इस कार्य के निहितार्थ तंत्रिका पाठ निर्माण तक सीमित नहीं हैं। उदाहरण के लिए, संरचित आउटपुट की आवश्यकता होने पर LLM के प्रशिक्षण या फ़ाइन-ट्यूनिंग में सहायता के लिए यहाँ वर्णित अनुक्रमण दृष्टिकोण का उपयोग किया जा सकता है। हम यह भी अनुमान लगा सकते हैं कि प्रशिक्षण के दौरान सहायक निर्माण से मॉडल को वाक्यविन्यास संबंधी विवरण सीखने की आवश्यकता कम हो सकती है।
इसके अलावा, यह विधि मौजूदा मॉडलों का मूल्यांकन करने का एक वैकल्पिक तरीका प्रदान करती है। उदाहरण के लिए, कोई हमारी विधि द्वारा उत्पन्न मास्क्ड लॉगिट और मॉडल द्वारा उत्पन्न रॉ लॉगिट के बीच विसंगति को मापने का प्रयास कर सकता है। जो बदले में मॉडल के प्रशिक्षण उद्देश्य को सूचित कर सकता है।
इस दृष्टिकोण द्वारा गणना किए गए मास्क को भाषा मॉडल में ही "उठाना" भी संभव हो सकता है। मूल रूप से, मास्क अप्रत्यक्ष रूप से यह निर्धारित करते हैं कि किन संगणनाओं को निष्पादित करने की आवश्यकता नहीं है। हमारा वर्तमान सूत्रीकरण केवल सबसे निचले स्तर पर मास्क लागू करता है, लेकिन, मॉडल की वास्तुकला में मास्क को और ऊपर उठाकर, हम अनावश्यक रूप से उन पर संचालन करने से पहले मॉडल मापदंडों के किन स्लाइस की आवश्यकता है, इसे मॉड्यूलेट करने में सक्षम हो सकते हैं। इससे कम्प्यूटेशनल लागत को और कम करने की क्षमता है।
लुका ब्यूरर-केल्नर, मार्क फिशर और मार्टिन वेचेव। प्रॉम्प्टिंग प्रोग्रामिंग है: बड़े भाषा मॉडल के लिए एक क्वेरी भाषा। प्रोग्रामिंग भाषाओं पर ACM की कार्यवाही, 7 (PLDI): 1946–1969, 2023।
यिहोंग डोंग, जी ली, और ज़ी जिन। CODEP: सामान्य प्रयोजन कोड जेनरेशन के लिए व्याकरणिक Seq2Seq मॉडल। सॉफ़्टवेयर परीक्षण और विश्लेषण पर 32वें ACM SIGSOFT अंतर्राष्ट्रीय संगोष्ठी की कार्यवाही में, ISSTA 2023, पृष्ठ 188-198, न्यूयॉर्क, NY, USA, जुलाई 2023। कंप्यूटिंग मशीनरी के लिए एसोसिएशन। आईएसबीएन 9798400702211. doi: 10.1145/3597926. 3598048.
साइबो गेंग, मार्टिन जोसिफोस्की, मैक्सिम पेयर्ड और रॉबर्ट वेस्ट। भाषा मॉडल के लिए लचीला व्याकरण-आधारित विवश डिकोडिंग, मई 2023।
माइकल कुचनिक, वर्जीनिया स्मिथ और जॉर्ज एम्व्रोसियाडिस। बड़े भाषा मॉडल को रीलम के साथ मान्य करना। मशीन लर्निंग और सिस्टम की कार्यवाही, 5, 2023।
अलेक्जेंडर के. लेव, टैन ज़ी-ज़ुआन, गेब्रियल ग्रैंड, और विकाश के. मानसिंहका। संभाव्य कार्यक्रमों का उपयोग करके बड़े भाषा मॉडल का अनुक्रमिक मोंटे कार्लो संचालन। arXiv प्रीप्रिंट arXiv:2306.03081, 2023।
रेमी लौफ और ब्रैंडन टी. विलार्ड। रूपरेखा: जनरेटिव मॉडल प्रोग्रामिंग। URL https://github.com/normal-computing/outlines.
Microsoft. मार्गदर्शन. Microsoft, जुलाई 2023. URL https://github.com/ microsoft/guidance.
गेब्रियल पोएसिया, ओलेक्सांद्र पोलोज़ोव, वु ले, आशीष तिवारी, गुस्तावो सोरेस, क्रिस्टोफर मीक और सुमित गुलवानी। सिंक्रोमेश: पूर्व-प्रशिक्षित भाषा मॉडल से विश्वसनीय कोड जेनरेशन। arXiv प्रीप्रिंट arXiv:2201.11227, 2022a।
गेब्रियल पोएसिया, ओलेक्सांद्र पोलोज़ोव, वु ले, आशीष तिवारी, गुस्तावो सोरेस, क्रिस्टोफर मीक और सुमित गुलवानी। सिंक्रोमेश: पूर्व-प्रशिक्षित भाषा मॉडल से विश्वसनीय कोड जेनरेशन, जनवरी 2022बी।
मैक्सिम राबिनोविच, मिशेल स्टर्न, और डैन क्लेन। कोड जनरेशन और सिमेंटिक पार्सिंग के लिए एब्सट्रैक्ट सिंटैक्स नेटवर्क। arXiv प्रीप्रिंट arXiv:1704.07535, 2017।
एलेक रेडफ़ोर्ड, जेफ़री वू, रेवन चाइल्ड, डेविड लुआन, डारियो अमोदी और इल्या सुत्सकेवर। भाषा मॉडल अप्रशिक्षित मल्टीटास्क शिक्षार्थी हैं। ओपनएआई ब्लॉग, 1(8):9, 2019।
मैट रिकार्ड. parserLLM, जुलाई 2023a. URL https://github.com/r2d4/ parserllm.
मैट रिकार्ड. R2d4/rellm: किसी भी भाषा मॉडल पूर्णता से सटीक संरचना., 2023b. URL https://github.com/r2d4/rellm.
टॉर्स्टन स्कोलक, नाथन शूचर, और डिज़मिट्री बहदानौ। PICARD: भाषा मॉडल से विवश ऑटो-रिग्रैसिव डिकोडिंग के लिए वृद्धिशील रूप से पार्स करना। arXiv प्रीप्रिंट arXiv:2109.05093, 2021।
रिको सेनरिच, बैरी हैडो, और एलेक्जेंड्रा बिर्च। सबवर्ड इकाइयों के साथ दुर्लभ शब्दों का न्यूरल मशीन अनुवाद। arXiv प्रीप्रिंट arXiv:1508.07909, 2015।
माइकल सिप्सर। कम्प्यूटेशन के सिद्धांत का परिचय। इंटरनेशनल थॉमसन पब्लिशिंग, 1996।
आशीष वासवानी, नोम शज़ीर, निकी परमार, जैकब उस्कोरिट, लियोन जोन्स, ऐडन एन. गोमेज़, \लुकाज़ कैसर, और इलिया पोलोसुखिन। ध्यान ही आपकी ज़रूरत है। तंत्रिका सूचना प्रसंस्करण प्रणालियों में प्रगति, 30, 2017।
बैलिन वांग, ज़ी वांग, ज़ुएज़ी वांग, युआन काओ, रिफ़ ए. सोरस, और यूं किम। बड़े भाषा मॉडल के साथ डोमेन-विशिष्ट भाषा निर्माण के लिए व्याकरण संकेत, मई 2023।
लिलियन वेंग. नियंत्रणीय तंत्रिका पाठ पीढ़ी, जनवरी 2021. URL https://lilianweng.github.io/posts/ 2021-01-02-controllable-text-generation/.
हम डैन गेर्लांक और डैन सिम्पसन को उनके समर्थन और रचनात्मक प्रतिक्रिया के लिए धन्यवाद देना चाहते हैं।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
बड़े भाषा मॉडल के लिए कुशल निर्देशित पीढ़ी: चर्चा, संदर्भ और आभार | HackerNoon