paint-brush
बड़े भाषा मॉडल के लिए कुशल निर्देशित पीढ़ी: चर्चा, संदर्भ और आभार द्वारा@textmodels
168 रीडिंग

बड़े भाषा मॉडल के लिए कुशल निर्देशित पीढ़ी: चर्चा, संदर्भ और आभार

द्वारा Writings, Papers and Blogs on Text Models
Writings, Papers and Blogs on Text Models HackerNoon profile picture

Writings, Papers and Blogs on Text Models

@textmodels

We publish the best academic papers on rule-based techniques, LLMs,...

4 मिनट read2024/06/02
Read on Terminal Reader
Read this story in a terminal
Print this story

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने पाठ निर्माण के लिए एक परिमित-अवस्था मशीन ढांचे का प्रस्ताव दिया है, जो सटीक नियंत्रण और बेहतर प्रदर्शन प्रदान करता है।
featured image - बड़े भाषा मॉडल के लिए कुशल निर्देशित पीढ़ी: चर्चा, संदर्भ और आभार
Writings, Papers and Blogs on Text Models HackerNoon profile picture
Writings, Papers and Blogs on Text Models

Writings, Papers and Blogs on Text Models

@textmodels

We publish the best academic papers on rule-based techniques, LLMs, & the generation of text that resembles human text.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

लेखक:

(1) ब्रैंडन टी. विलार्ड, नॉर्मल कंप्यूटिंग;

(2) रेमी लौफ, नॉर्मल कंप्यूटिंग।

लिंक की तालिका

5. चर्चा

इस पेपर में प्रस्तुत शब्दावली अनुक्रमण निर्देशित पीढ़ी में एक निषेधात्मक रन-टाइम स्केलिंग बाधा को हटाता है। स्वाभाविक रूप से, यह प्रसंस्करण और मेमोरी के बीच एक समझौता करता है, लेकिन हमारा मानना है कि मेमोरी लागत औसतन अपेक्षाकृत कम है और - जब नहीं - पारंपरिक तरीकों से कम किया जा सकता है।


पायथन व्याकरण के थोड़े संवर्धित संस्करण का उपयोग करके हमारे परीक्षणों में, हम पाते हैं कि सरलता से निर्मित सूचकांक (यानी अप्रयुक्त और अनावश्यक पार्सर और FSM स्थिति कॉन्फ़िगरेशन वाले) अभी भी केवल 50 एमबी के आसपास हैं। इसके अलावा, इन सूचकांकों का निर्माण बिना कम किए गए DFA के साथ किया गया था, जिसका अर्थ है कि कई अनावश्यक स्थितियाँ हैं जो अनावश्यक रूप से सूचकांकों के आकार को बढ़ा रही हैं। इसी तरह, यदि स्टेट मशीनों का सटीक प्रतिनिधित्व कभी कोई समस्या है, तो यह संभव है कि कम मेमोरी आवश्यकताओं वाले अन्य स्टेट मशीन फॉर्मूलेशन पर्याप्त हो सकते हैं (जैसे NFA)।


इस कार्य के निहितार्थ तंत्रिका पाठ निर्माण तक सीमित नहीं हैं। उदाहरण के लिए, संरचित आउटपुट की आवश्यकता होने पर LLM के प्रशिक्षण या फ़ाइन-ट्यूनिंग में सहायता के लिए यहाँ वर्णित अनुक्रमण दृष्टिकोण का उपयोग किया जा सकता है। हम यह भी अनुमान लगा सकते हैं कि प्रशिक्षण के दौरान सहायक निर्माण से मॉडल को वाक्यविन्यास संबंधी विवरण सीखने की आवश्यकता कम हो सकती है।


इसके अलावा, यह विधि मौजूदा मॉडलों का मूल्यांकन करने का एक वैकल्पिक तरीका प्रदान करती है। उदाहरण के लिए, कोई हमारी विधि द्वारा उत्पन्न मास्क्ड लॉगिट और मॉडल द्वारा उत्पन्न रॉ लॉगिट के बीच विसंगति को मापने का प्रयास कर सकता है। जो बदले में मॉडल के प्रशिक्षण उद्देश्य को सूचित कर सकता है।


इस दृष्टिकोण द्वारा गणना किए गए मास्क को भाषा मॉडल में ही "उठाना" भी संभव हो सकता है। मूल रूप से, मास्क अप्रत्यक्ष रूप से यह निर्धारित करते हैं कि किन संगणनाओं को निष्पादित करने की आवश्यकता नहीं है। हमारा वर्तमान सूत्रीकरण केवल सबसे निचले स्तर पर मास्क लागू करता है, लेकिन, मॉडल की वास्तुकला में मास्क को और ऊपर उठाकर, हम अनावश्यक रूप से उन पर संचालन करने से पहले मॉडल मापदंडों के किन स्लाइस की आवश्यकता है, इसे मॉड्यूलेट करने में सक्षम हो सकते हैं। इससे कम्प्यूटेशनल लागत को और कम करने की क्षमता है।

संदर्भ

लुका ब्यूरर-केल्नर, मार्क फिशर और मार्टिन वेचेव। प्रॉम्प्टिंग प्रोग्रामिंग है: बड़े भाषा मॉडल के लिए एक क्वेरी भाषा। प्रोग्रामिंग भाषाओं पर ACM की कार्यवाही, 7 (PLDI): 1946–1969, 2023।


यिहोंग डोंग, जी ली, और ज़ी जिन। CODEP: सामान्य प्रयोजन कोड जेनरेशन के लिए व्याकरणिक Seq2Seq मॉडल। सॉफ़्टवेयर परीक्षण और विश्लेषण पर 32वें ACM SIGSOFT अंतर्राष्ट्रीय संगोष्ठी की कार्यवाही में, ISSTA 2023, पृष्ठ 188-198, न्यूयॉर्क, NY, USA, जुलाई 2023। कंप्यूटिंग मशीनरी के लिए एसोसिएशन। आईएसबीएन 9798400702211. doi: 10.1145/3597926. 3598048.


साइबो गेंग, मार्टिन जोसिफोस्की, मैक्सिम पेयर्ड और रॉबर्ट वेस्ट। भाषा मॉडल के लिए लचीला व्याकरण-आधारित विवश डिकोडिंग, मई 2023।


माइकल कुचनिक, वर्जीनिया स्मिथ और जॉर्ज एम्व्रोसियाडिस। बड़े भाषा मॉडल को रीलम के साथ मान्य करना। मशीन लर्निंग और सिस्टम की कार्यवाही, 5, 2023।


अलेक्जेंडर के. लेव, टैन ज़ी-ज़ुआन, गेब्रियल ग्रैंड, और विकाश के. मानसिंहका। संभाव्य कार्यक्रमों का उपयोग करके बड़े भाषा मॉडल का अनुक्रमिक मोंटे कार्लो संचालन। arXiv प्रीप्रिंट arXiv:2306.03081, 2023।


रेमी लौफ और ब्रैंडन टी. विलार्ड। रूपरेखा: जनरेटिव मॉडल प्रोग्रामिंग। URL https://github.com/normal-computing/outlines.


Microsoft. मार्गदर्शन. Microsoft, जुलाई 2023. URL https://github.com/ microsoft/guidance.


गेब्रियल पोएसिया, ओलेक्सांद्र पोलोज़ोव, वु ले, आशीष तिवारी, गुस्तावो सोरेस, क्रिस्टोफर मीक और सुमित गुलवानी। सिंक्रोमेश: पूर्व-प्रशिक्षित भाषा मॉडल से विश्वसनीय कोड जेनरेशन। arXiv प्रीप्रिंट arXiv:2201.11227, 2022a।


गेब्रियल पोएसिया, ओलेक्सांद्र पोलोज़ोव, वु ले, आशीष तिवारी, गुस्तावो सोरेस, क्रिस्टोफर मीक और सुमित गुलवानी। सिंक्रोमेश: पूर्व-प्रशिक्षित भाषा मॉडल से विश्वसनीय कोड जेनरेशन, जनवरी 2022बी।


मैक्सिम राबिनोविच, मिशेल स्टर्न, और डैन क्लेन। कोड जनरेशन और सिमेंटिक पार्सिंग के लिए एब्सट्रैक्ट सिंटैक्स नेटवर्क। arXiv प्रीप्रिंट arXiv:1704.07535, 2017।


एलेक रेडफ़ोर्ड, जेफ़री वू, रेवन चाइल्ड, डेविड लुआन, डारियो अमोदी और इल्या सुत्सकेवर। भाषा मॉडल अप्रशिक्षित मल्टीटास्क शिक्षार्थी हैं। ओपनएआई ब्लॉग, 1(8):9, 2019।


मैट रिकार्ड. parserLLM, जुलाई 2023a. URL https://github.com/r2d4/ parserllm.


मैट रिकार्ड. R2d4/rellm: किसी भी भाषा मॉडल पूर्णता से सटीक संरचना., 2023b. URL https://github.com/r2d4/rellm.


टॉर्स्टन स्कोलक, नाथन शूचर, और डिज़मिट्री बहदानौ। PICARD: भाषा मॉडल से विवश ऑटो-रिग्रैसिव डिकोडिंग के लिए वृद्धिशील रूप से पार्स करना। arXiv प्रीप्रिंट arXiv:2109.05093, 2021।


रिको सेनरिच, बैरी हैडो, और एलेक्जेंड्रा बिर्च। सबवर्ड इकाइयों के साथ दुर्लभ शब्दों का न्यूरल मशीन अनुवाद। arXiv प्रीप्रिंट arXiv:1508.07909, 2015।


माइकल सिप्सर। कम्प्यूटेशन के सिद्धांत का परिचय। इंटरनेशनल थॉमसन पब्लिशिंग, 1996।


आशीष वासवानी, नोम शज़ीर, निकी परमार, जैकब उस्कोरिट, लियोन जोन्स, ऐडन एन. गोमेज़, \लुकाज़ कैसर, और इलिया पोलोसुखिन। ध्यान ही आपकी ज़रूरत है। तंत्रिका सूचना प्रसंस्करण प्रणालियों में प्रगति, 30, 2017।


बैलिन वांग, ज़ी वांग, ज़ुएज़ी वांग, युआन काओ, रिफ़ ए. सोरस, और यूं किम। बड़े भाषा मॉडल के साथ डोमेन-विशिष्ट भाषा निर्माण के लिए व्याकरण संकेत, मई 2023।


लिलियन वेंग. नियंत्रणीय तंत्रिका पाठ पीढ़ी, जनवरी 2021. URL https://lilianweng.github.io/posts/ 2021-01-02-controllable-text-generation/.

स्वीकृतियाँ

हम डैन गेर्लांक और डैन सिम्पसन को उनके समर्थन और रचनात्मक प्रतिक्रिया के लिए धन्यवाद देना चाहते हैं।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


L O A D I N G
. . . comments & more!

About Author

Writings, Papers and Blogs on Text Models HackerNoon profile picture
Writings, Papers and Blogs on Text Models@textmodels
We publish the best academic papers on rule-based techniques, LLMs, & the generation of text that resembles human text.

लेबल

इस लेख में चित्रित किया गया था...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
X REMOVE AD