paint-brush
बिना जीपीयू के लामा चलाएं! एलएलएमवेयर और क्वांटाइज्ड ड्रैगन के साथ क्वांटाइज्ड एलएलएमद्वारा@shanglun
3,225 रीडिंग
3,225 रीडिंग

बिना जीपीयू के लामा चलाएं! एलएलएमवेयर और क्वांटाइज्ड ड्रैगन के साथ क्वांटाइज्ड एलएलएम

द्वारा Shanglun Wang12m2024/01/07
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

जैसे-जैसे जीपीयू संसाधन अधिक सीमित होते जा रहे हैं, लघुकरण और विशेषज्ञ एलएलएम धीरे-धीरे प्रमुखता प्राप्त कर रहे हैं। आज हम परिमाणीकरण का पता लगाते हैं, एक अत्याधुनिक लघुकरण तकनीक जो हमें विशेष हार्डवेयर के बिना उच्च-पैरामीटर मॉडल चलाने की अनुमति देती है।
featured image - बिना जीपीयू के लामा चलाएं! एलएलएमवेयर और क्वांटाइज्ड ड्रैगन के साथ क्वांटाइज्ड एलएलएम
Shanglun Wang HackerNoon profile picture
0-item

परिचय

जैसे-जैसे एलएलएम प्रौद्योगिकियां मुख्यधारा में अपनाई जा रही हैं और पारिस्थितिकी तंत्र परिपक्व होने लगा है, संगठन एलएलएम प्रौद्योगिकियों के उपयोग की सीमाओं और लागतों को पहचानने लगे हैं। कई उद्यम, जो मूल रूप से एलएलएम प्रौद्योगिकियों के अनुप्रयोग के बारे में उत्साहित थे, ने केंद्रीकृत पहल को छोड़ दिया है, इसके बजाय चैटजीपीटी और क्लाउड जैसी सेवाओं को अपने वर्कफ़्लो में शामिल करने के लिए विकेंद्रीकृत प्रयासों को प्रोत्साहित करने की रणनीति अपनाई है।


इस घटना के कई कारण हैं। एलएलएम विशेषज्ञता की कमी, एमएलओपीएस आवश्यकताएं, और विशेष जीपीयू बुनियादी ढांचे पर निर्भरता सभी बड़े पैमाने पर एआई पहल को लागू करने में बाधाएं हैं। हालाँकि, इनमें से सबसे कठिन मुद्दा GPU पर निर्भरता है।


इस लेख में, हम GPU निर्भरता से उत्पन्न विशिष्ट कठिनाइयों पर चर्चा करेंगे, एक संभावित समाधान का पता लगाएंगे, और इस क्षेत्र में काम करने वाली अग्रणी कंपनियों में से एक के रोमांचक उदाहरण को देखेंगे।

एलएलएम की सीमाओं के रूप में जीपीयू उपलब्धता


अधिकांश सार्वजनिक रूप से उपलब्ध और उच्च प्रदर्शन वाले मॉडल, जैसे जीपीटी-4, लामा 2 और क्लाउड, सभी अत्यधिक विशिष्ट जीपीयू बुनियादी ढांचे पर निर्भर करते हैं। GPT-4, व्यावसायिक रूप से उपलब्ध सबसे बड़े मॉडलों में से एक, प्रसिद्ध रूप से 8 A100 GPU के क्लस्टर पर चलता है। Llama 2 का 70B मॉडल, जो बहुत छोटा है, को उचित गति से चलाने के लिए अभी भी कम से कम A40 GPU की आवश्यकता होती है।


GPU आवश्यकता का यह स्तर व्यावहारिक रूप से इन मॉडलों को स्थानीय रूप से चलाने की संभावना को समाप्त कर देता है - एक A100 GPU, यह मानते हुए कि आप एक विक्रेता पा सकते हैं, की लागत $25,000 के करीब है। एक बार जब आप जीपीयू प्राप्त कर लेते हैं, तो आपको सर्वर स्थापित करने और बनाए रखने के लिए विशेष कौशल की आवश्यकता होती है। बहुत कम संगठन एलएलएम प्रौद्योगिकियों के साथ प्रयोग करने के लिए इतना खर्च करने को तैयार होंगे।


इस समस्या को हल करने के लिए, कई स्टार्टअप और क्लाउड प्रदाताओं ने व्यापक PaaS पेशकश विकसित की है। रेप्लिकेट जैसी कुछ सेवाएँ, जिनका उपयोग मैंने पिछले लेखों और परियोजनाओं में किया है, उपयोगकर्ताओं को GPU सर्वर किराए पर लेने और उपयोग किए गए गणना समय के लिए भुगतान करने की अनुमति देती हैं। अन्य प्रदाता, जैसे ओपनएआई और एंथ्रोपिक, अपने मॉडल को प्रति-टोकन एपीआई के रूप में पेश करते हैं, जिससे बुनियादी ढांचागत जटिलताएं दूर हो जाती हैं। हालाँकि, इन सेवाओं के लिए डेटा को बाहरी नेटवर्क पर भेजने की आवश्यकता होती है, जो गोपनीयता के प्रति जागरूक संगठनों के लिए इन सेवाओं का उपयोग गैर-स्टार्टर बनाता है। इसके अतिरिक्त, मांग बढ़ने के दौरान इनमें से कई सेवाओं की कमी हो जाती है क्योंकि GPU का उपयोग उपलब्धता से अधिक हो जाता है, जिससे वे उत्पादन-महत्वपूर्ण कार्यभार के लिए अविश्वसनीय विकल्प बन जाते हैं।


इसके अतिरिक्त, जीपीयू का समय, भले ही उनके लिए कितना भी शुल्क लिया जाए, बड़े कंप्यूटिंग कार्यों के लिए महंगा है - जो कंपनियां इन जीपीयू की मालिक हैं और उन्हें संचालित करती हैं, उन्हें आखिरकार अपने निवेश पर रिटर्न की आवश्यकता होती है। हालाँकि प्रायोगिक उपयोग के मामलों के लिए ये लागत लगभग नगण्य हैं, व्यावसायिक उपयोग के मामलों में अक्सर बड़े संदर्भों, फाइन-ट्यूनिंग या मल्टी-शॉट उदाहरणों को एम्बेड करने की आवश्यकता होती है। ये लागतें अपनाने में एक महत्वपूर्ण बाधा का प्रतिनिधित्व करती हैं, विशेष रूप से बड़े डेटासेट वाले संगठनों या जिनके पास बड़ी अमेरिकी फर्मों के वित्तीय संसाधनों की कमी है, के लिए।


पिछले लेख में, हमने GPU पर निर्भरता कम करने की एक रणनीति के रूप में पैरामीटर संपीड़न का पता लगाया था। आज के लेख में, हम परिमाणीकरण नामक एक और रोमांचक तकनीक का पता लगाएंगे।


हालाँकि, इससे पहले कि हम अन्वेषण में उतरें, हम पहले परिमाणीकरण के बारे में थोड़ा सीखना चाहेंगे।

परिमाणीकरण (वैकल्पिक पढ़ना)

इस खंड में, हम परिमाणीकरण की मूल बातों पर संक्षेप में चर्चा करेंगे। हालाँकि, यदि आप अपने कंप्यूटर पर स्थानीय रूप से शक्तिशाली एलएलएम चलाने का तरीका ढूंढ रहे हैं, तो आप बेझिझक इस अनुभाग को अभी छोड़ सकते हैं और बाद में वापस आ सकते हैं। एलएलएमवेयर, जिस कंपनी की तकनीक का हम आज उपयोग करेंगे, उसने कुछ अद्भुत उपकरण बनाए हैं जो आपको सी/सी++ के जटिल कार्यान्वयन में पड़े बिना परिमाणित मॉडल के साथ शुरुआत करने देते हैं।

परिमाणीकरण क्या है?

क्वांटाइजेशन एक ऐसी तकनीक है जो कम-सटीक संख्यात्मक प्रकारों का उपयोग करके एलएलएम चलाने की कम्प्यूटेशनल और मेमोरी आवश्यकताओं को कम करना चाहती है। कई लोकप्रिय ओपन-सोर्स मॉडल, जैसे लामा, फाल्कन और अल्पाका, अंतर्निहित ढांचे के रूप में PyTorch का उपयोग करते हैं। डिफ़ॉल्ट रूप से, PyTorch मॉडल 32-बिट फ़्लोटिंग पॉइंट का उपयोग करते हैं, जिसका अर्थ है कि एक एकल पैरामीटर GPU मेमोरी में 32 "बिट्स" लेता है। क्वांटाइज़ेशन का लक्ष्य इन मापदंडों को 16-बिट फ़्लोटिंग पॉइंट, 8-बिट पूर्णांक, या यहां तक कि 4-बिट पूर्णांक के साथ बदलना है। सफल परिमाणीकरण से कम्प्यूटेशनल गति में नाटकीय सुधार होता है और मेमोरी उपयोग में कमी आती है, जिसका अर्थ है कि बड़े मॉडल निचले स्तर के जीपीयू, एम्बेडेड ग्राफिक चिप्स या यहां तक कि सीपीयू पर चलने योग्य हो जाते हैं। यह विचार कुछ समय से मौजूद है - प्रौद्योगिकी के परिपक्व होने के साथ-साथ PyTorch ने स्वयं 16-बिट फ़्लोटिंग पॉइंट और मॉडल संकलन के लिए समर्थन जोड़ा है, लेकिन PyTorch ढांचे में शुरुआती डिज़ाइन निर्णयों के कारण प्रगति धीमी रही है।

क्या परिमाणीकरण प्रदर्शन को ख़राब करता है?

इस बिंदु पर, यह आश्चर्य होना स्वाभाविक है कि क्या इससे मॉडल की सटीकता गंभीर रूप से कम नहीं हो जाएगी? संक्षिप्त उत्तर हां है, लेकिन केवल तभी जब आप इसे लापरवाही से करते हैं। प्रत्येक अनुकूलन अंतर्निहित ट्रेड-ऑफ के साथ आता है, लेकिन कुछ विशेष तकनीकों के साथ, शोधकर्ता अत्यधिक मात्रा वाले मॉडल से अविश्वसनीय रूप से स्थिर प्रदर्शन को निचोड़ने में सक्षम हुए हैं। हालाँकि हम अत्यधिक तकनीकी विवरण में नहीं जाएंगे, आइए अभी उपयोग की जा रही सबसे आम रणनीतियों के व्यापक पहलुओं पर गौर करें। यदि आप और अधिक जानना चाहते हैं, तो आप हगिंगफेस की मार्गदर्शिका में इसके बारे में और अधिक जानकारी प्राप्त कर सकते हैं।


अंशांकित परिमाणीकरण

परिमाणीकरण प्रक्रिया के दौरान, मॉडल के माध्यम से एक अंशांकन डेटासेट चलाया जाता है। प्रत्येक पैरामीटर का मान रिकॉर्ड किया जाता है, और रेंज का उपयोग यह निर्धारित करने के लिए किया जाता है कि पैरामीटर कैसे परिमाणित होते हैं। यह मानते हुए कि अंशांकन डेटासेट उन इनपुटों का प्रतिनिधि है जिनका मॉडल सामना करेगा, इससे परिणामी मॉडल की सटीकता में सुधार होगा।


परिमाणीकरण-जागरूक

जबकि कैलिब्रेटेड क्वांटाइजेशन प्रशिक्षण के बाद होता है, क्वांटाइजेशन-अवेयर ट्रेनिंग प्रशिक्षण के दौरान मॉडल को अनुकूलित करने का प्रयास करता है। जबकि मॉडल प्रशिक्षण कर रहा है, सक्रियणों को "नकली परिमाणीकरण" के माध्यम से रखा जाता है, जो त्रुटियों का अनुकरण करता है जो संभवतः परिमाणीकरण प्रक्रिया द्वारा पेश किए जाएंगे। मॉडल तब त्रुटियों के अनुकूल होने में सक्षम होता है, जिसके परिणामस्वरूप एक अधिक मजबूत मॉडल बनता है जो विशेष रूप से संभावित विकृतियों के अनुकूल हो सकता है।

Llama.cpp और GGUF

जबकि PyTorch परिमाणीकरण और अनुकूलन को फ्रेमवर्क डिज़ाइन द्वारा लंबे समय से अवरुद्ध किया गया है, दो हालिया ओपन-सोर्स प्रौद्योगिकियों ने इन बाधाओं को तोड़ दिया और परिमाणीकरण प्रौद्योगिकियों को आम जनता के लिए और अधिक सुलभ बना दिया। आइए नीचे उन्हें संक्षेप में कवर करें।


लामा.सीपीपी

Llama.cpp लामा मॉडल को C/C++ में पोर्ट करने के लिए जॉर्जी गेर्गनोव द्वारा एक परियोजना थी। इससे PyTorch द्वारा शुरू की गई जटिलता से छुटकारा मिल गया, और मूल कार्यान्वयन ने परिमाणीकरण को सीधे लागू करने की अनुमति दी। इसलिए, परिणामी मॉडल 4-बिट पूर्णांक परिमाणीकरण के साथ चल सकता है, जिससे उच्च-पैरामीटर-गिनती लामा मॉडल को एक विशेष जीपीयू के बिना चलाया जा सकता है।


तब से इस परियोजना को समुदाय द्वारा ओपन-सोर्स मॉडल के रोस्टर को शामिल करने के लिए विस्तारित किया गया है, जिसमें फाल्कन और मिस्ट्रल जैसे लोकप्रिय मॉडल शामिल हैं।


जीजीयूएफ

मॉडल जानकारी संग्रहीत और स्थानांतरित करने के लिए GGUF Llama.cpp का फ़ाइल स्वरूप है। क्वांटाइज़्ड मॉडल को इस प्रारूप में संग्रहीत किया जाता है ताकि उन्हें अंतिम उपयोगकर्ता द्वारा लोड और चलाया जा सके। जीजीयूएफ जीजीएमएल का उत्तराधिकारी प्रारूप है और इसका उद्देश्य तेजी से विकास की अनुमति देते हुए अधिक विस्तारशीलता, पिछड़ी संगतता और स्थिरता प्रदान करके जीजीएमएल में सुधार करना है।


एक सार्वभौमिक फ़ाइल प्रारूप के विकास ने ओपन-सोर्स समुदाय के लिए अन्य मॉडलों को अनुकूलित करने के लिए Llama.cpp का विस्तार करने का द्वार खोल दिया, और TheBloke और LLMWare जैसे नवप्रवर्तक पिछले कई महीनों से लोकप्रिय ओपन-सोर्स मॉडल को छोटा करने के लिए काम कर रहे हैं।

एलएलएमवेयर का क्वांटाइज्ड ड्रैगन मॉडल

आज के उदाहरण में, हम एलएलएमवेयर द्वारा उपलब्ध कराए गए ओपन-सोर्स लाइब्रेरी और क्वांटाइज्ड मॉडल का उपयोग करेंगे, जो विशेष आरएजी वर्कफ़्लो को जल्दी से बनाने के लिए सुविधाजनक उपकरण प्रदान करता है।

एलएलएमवेयर कौन है?

एलएलएमवेयर, कानूनी और वित्तीय उद्योगों में विशेषज्ञता वाली एक जेनेरिक एआई कंपनी, परिमाणीकरण समुदाय में सक्रिय रूप से शामिल रही है। जैसा कि मैंने पहले लिखा है, गोपनीयता के प्रति जागरूक क्षेत्रों पर उनका ध्यान उन्हें लघुकरण प्रौद्योगिकियों में प्रयोग और नवाचार के लिए एक स्वाभाविक उम्मीदवार बनाता है।


पहले, मैंने उनके RAG-अनुकूलित BLING मॉडल के बारे में लिखा था जो अनुबंध समीक्षा और वित्तीय विश्लेषण जैसे विशेष कार्यों के लिए 1 से 3 बिलियन पैरामीटर मॉडल में से अविश्वसनीय प्रदर्शन को निचोड़ते हैं। जबकि ऐसे पैरामीटर गणना वाले अधिकांश ओपन-सोर्स मॉडल केवल खिलौना समस्याओं के लिए उपयोगी होते हैं, एलएलएमवेयर इन मॉडलों को संकीर्ण रूप से लक्षित कार्यों के लिए प्रशिक्षित करके उत्पादन-तैयार प्रदर्शन उत्पन्न करने में सक्षम है। ये छोटे मॉडल तब बाहरी जीपीयू के बिना चलने में सक्षम होते हैं, जिससे गोपनीयता और स्केलेबिलिटी में वृद्धि होती है।

ड्रैगन क्या है?

ड्रैगन एलएलएम का एक संग्रह है जिसे उनके ब्लिंग कजिन्स के अधिक शक्तिशाली संस्करण के रूप में माना जा सकता है। ड्रैगन का मूल उद्देश्य समान निर्देश फाइन-ट्यूनिंग तकनीकों का उपयोग करके एक उच्च पैरामीटर मॉडल को प्रशिक्षित करना था, जो उन उपयोगकर्ताओं के लिए एक विकल्प प्रदान करता है जिन्हें अधिक प्रदर्शन की आवश्यकता होती है और जिनके पास निचले स्तर के जीपीयू तक पहुंच होती है।


अतिरिक्त पैरामीटर गणना के परिणामस्वरूप अधिक शक्तिशाली मॉडल तैयार हुए जो बड़ी संदर्भ विंडो का लाभ उठा सकते थे और अधिक जटिल आउटपुट उत्पन्न कर सकते थे, लेकिन इसके लिए उपयोगकर्ता के पास अधिक विशिष्ट हार्डवेयर की आवश्यकता होती थी, जैसे कि GPU-एम्बेडेड लैपटॉप या GPU के साथ क्लाउड कंप्यूट कंटेनर। हालाँकि, वे अभी भी बहुत बड़े मॉडलों की तुलना में सुधार का प्रतिनिधित्व करते हैं, जिसके लिए दुर्लभ A40 या A100 GPU तक पहुंच के लिए प्रतीक्षा करने की आवश्यकता होगी।

क्वांटाइज़्ड ड्रैगन, दोनों दुनियाओं में सर्वश्रेष्ठ

उपरोक्त को देखते हुए, यह देखना आसान है कि परिमाणीकरण ने एलएलएमवेयर के एआई उपकरणों के सुइट को महत्वपूर्ण बढ़ावा क्यों दिया। परिमाणीकरण के साथ, उपयोगकर्ता ड्रैगन-टियर मॉडल को BLING मॉडल के समान वातावरण पर चला सकता है, जिससे कमोडिटी कंप्यूटर पर अधिक शक्तिशाली विश्लेषण की अनुमति मिलती है।


पिछले महीने के दौरान, एलएलएमवेयर ने कई ड्रैगन मॉडलों के परिमाणित संस्करण प्रकाशित किए हैं। आज, हम कानूनी विश्लेषण RAG समस्या के साथ लामा के शीर्ष पर निर्मित LLMWare के ड्रैगन मॉडल का मूल्यांकन करेंगे और इसकी तुलना एक समान BLING मॉडल से करेंगे। इच्छुक पहुंचकर्ता अन्य मॉडलों का भी पता लगा सकते हैं - एक मिस्ट्रल-आधारित मॉडल और एक यी-आधारित मॉडल इस लेखन के समय एलएलएमवेयर पर उपलब्ध हैं। इसके अतिरिक्त, LLMWare ने ctransformers लाइब्रेरी के साथ अपने कड़े एकीकरण के साथ Llama.cpp मॉडल पर चल रहे निष्कर्षों को आसान बना दिया है, जो gguf मॉडल को PyTorch आधारित मॉडल के साथ निर्बाध रूप से स्वैप करने की अनुमति देता है।


इस प्रयोग के लिए हम एम1 चिप के साथ मैकबुक एयर का उपयोग करेंगे, जिसका अर्थ है कि हम इस अभ्यास के लिए केवल व्यापक रूप से उपलब्ध हार्डवेयर का उपयोग करेंगे।

क्वांटाइज़्ड ड्रैगन का परीक्षण

याद रखें कि मेरे पिछले लेख में, हमने कानून खोज पर केंद्रित एक RAG एप्लिकेशन बनाया था। हमने कई बड़े कानूनों को शीघ्रता से खोजने के लिए वेक्टर खोज का उपयोग किया, योग्य अवसर क्षेत्र साझेदारी हित के बारे में हमारे प्रश्न से संबंधित अनुभाग पाए, और प्रश्न को BLING मॉडल के माध्यम से चलाया। आज के लेख में, हम एलएलएमवेयर के क्वांटाइज्ड ड्रैगन मॉडल के माध्यम से एक ही प्रश्न चलाएंगे और निर्धारित करेंगे कि क्या यह BLING मॉडल से बेहतर प्रदर्शन करता है।


मॉडल तुलना पर ध्यान केंद्रित करने और आवश्यक पूर्व ज्ञान की मात्रा को कम करने के लिए, हम बहुत सारी पीडीएफ पार्सिंग और वेक्टर खोज मैन्युअल रूप से करेंगे। इससे मॉडल के लिए समस्या को कृत्रिम रूप से कठिन बनाने का अतिरिक्त लाभ है - एलएलएमवेयर की डिफ़ॉल्ट एम्बेडिंग खोज स्रोत सामग्री को लगभग 1000 टोकन तक बढ़ा देती है, लेकिन पार्सिंग को मैन्युअल रूप से संभालने से हमें संदर्भ को लगभग 3000 टोकन तक बढ़ाने की अनुमति मिलती है। इससे हमें ड्रैगन और ब्लिंग मॉडल के बीच अंतर को स्पष्ट रूप से प्रदर्शित करने में मदद मिलेगी।


हालाँकि, यदि आप एलएलएमवेयर पर मेरे पिछले लेख के सेटअप चरणों का पालन करके उनके टूल का लाभ उठाना चाहते हैं तो आपको एलएलएमवेयर के बाकी पारिस्थितिकी तंत्र के साथ आसानी से एकीकृत होने में सक्षम होना चाहिए। वास्तव में, यदि आप इस आलेख से ब्लिंग मॉडल के नाम को क्वांटाइज्ड ड्रैगन मॉडल से बदल देते हैं, तो सब कुछ निर्बाध रूप से चलना चाहिए।


बिना किसी देरी के, आइए शुरू करें!


सबसे पहले, आइए आवश्यक निर्भरताएँ आयात करें:


 import sklearn import sklearn.metrics # for cosine similarity from llmware.prompts import Prompt import time import os from openai import OpenAI from PyPDF2 import PdfReader client = OpenAI() # the library now loads the key automatically as an environment variable.


अब हम पीडीएफ लोड कर सकते हैं। पिछले उदाहरण में, हमने कई बड़े कानून लोड किए थे, लेकिन आज के लिए, हम केवल टैक्स कट्स एंड जॉब्स एक्ट 2017 के पीडीएफ संस्करण पर ध्यान केंद्रित करेंगे।

 reader = PdfReader([path to PDF of tax cuts and jobs act])


अब हम प्रत्येक पृष्ठ के लिए एम्बेडिंग उत्पन्न कर सकते हैं:

 embeddings = [] for pg in reader.pages: text = pg.extract_text() embeddings.append(client.embeddings.create( input=text, model="text-embedding-ada-002" ).data[0].embedding)


आइए हम जो प्रश्न पूछने जा रहे हैं उसके लिए एम्बेडिंग भी तैयार करें:

 question = 'What is a qualified opportunity zone partnership interest?' q_embed = client.embeddings.create( input=question, model="text-embedding-ada-002" ).data[0].embedding


हाथ में एम्बेडिंग के साथ, हम एक वेक्टर खोज कर सकते हैं। चूँकि हमारा खोज स्थान छोटा है, हम इसे केवल मैन्युअल रूप से कर सकते हैं।


 cos_sim = [(idx, sklearn.metrics.pairwise.cosine_similarity([e], [q_embed])[0][0]) for idx, e in enumerate(embeddings)]


अब हम सबसे अधिक प्रासंगिक पृष्ठ ले सकते हैं (यदि आप परिणामों को सत्यापित करना चाहते हैं तो यह सूचकांक 132 या पृष्ठ 133 है):

 most_relevant = sorted(cos_sim, key=lambda x: x[1], reverse=True)[0][0]


और इसके साथ ही, हम सबसे महत्वपूर्ण कदम पर आ गये हैं। हम परिमाणित लामा ड्रैगन मॉडल के साथ एक एलएलएमवेयर प्रॉम्प्टर ऑब्जेक्ट को इंस्टेंट करेंगे। प्रॉम्प्टर क्लास यहां महत्वपूर्ण है क्योंकि यह हमारे लिए प्रॉम्प्ट इंजीनियरिंग को संभालता है और यह सुनिश्चित करता है कि हमारा प्रॉम्प्ट ड्रैगन के प्रशिक्षण डेटा की संरचना के अनुरूप है। प्रॉम्प्ट क्लास स्वचालित रूप से llamacpp बाइंडिंग को भी संभालती है, ताकि आप अन्य मॉडलों की तरह क्वांटाइज्ड ड्रैगन मॉडल का उपयोग कर सकें।


 model_name = "llmware/dragon-llama-7b-gguf" prompter = Prompt().load_model(model_name) response = prompter.prompt_main(question, context='\n\n'.join([reader.pages[132].extract_text()]), prompt_name="default_with_context", temperature=0.3)


थोड़ी देर प्रतीक्षा करें, और आपको फ़ंक्शन कॉल रिटर्न देखना चाहिए। अब परिणाम प्रिंट करें:

 print(response['llm_response'])


और आपको निम्नलिखित जैसा कुछ देखना चाहिए:

 • A capital or profits interest acquired by the qualified opportunity fund after December 31, 2017, from the partnership solely in exchange for cash; •As of the time such interest was acquired, the partnership was a qualified opportunity zone business (or, in the case of a new partnership, it was being organized for purposes of being a qualified opportunity zone business); •During substantially all of the qualified opportunity fund's holding period for such interest, the partnership qualified as a qualified opportunity zone business.


यह काफी अच्छा उत्तर है!


तुलना के लिए, आइए देखें कि एक BLING मॉडल उसी समस्या पर कैसा प्रदर्शन करेगा। जिन मुद्दों की हम उम्मीद कर सकते हैं उनमें से एक यह है कि बड़े संदर्भ का आकार निम्न-पैरामीटर मॉडल को "अभिभूत" कर सकता है और कम जानकारीपूर्ण उत्तर दे सकता है। मेरे पिछले प्रयोगों में, शियरड लामा 2.7बी इस समस्या के लिए सबसे अच्छा प्रदर्शन करने वालों में से एक था, इसलिए मैंने इसे BLING मॉडल के प्रतिनिधि के रूप में उपयोग करने का निर्णय लिया।

 model_name_2 = "llmware/bling-sheared-llama-2.7b-0.1" prompter2 = Prompt().load_model(model_name_2) response = prompter2.prompt_main(question, context='\n\n'.join([reader.pages[132].extract_text()]), prompt_name="default_with_context", temperature=0.3)


कुछ प्रोसेसिंग के बाद, आपको कुछ इस तरह दिखना चाहिए।


 A qualified opportunity zone partnership interest is a capital or profits interest in a domestic partnership if such interest is acquired by the qualified opportunity fund after December 31, 2017, from the partnership solely in exchange for cash.


प्रतिक्रिया अभी भी अच्छी है लेकिन ड्रैगन मॉडल द्वारा कैप्चर किए गए कुछ विवरण छूट गए हैं। विशेष रूप से, उत्तर में होल्डिंग अवधि की आवश्यकता और नए व्यवसाय का मामला शामिल नहीं है। यह बड़े संदर्भों को संसाधित करने में निचले-पैरामीटर मॉडल की कठिनाई के बारे में हमारी अपेक्षाओं के अनुरूप है। इच्छुक पाठक इससे भी कम पैरामीटर वाले मॉडल का उपयोग करके या दिए गए संदर्भ का आकार बढ़ाकर इस प्रयोग को बढ़ा सकते हैं। आपको प्रभाव को और अधिक स्पष्ट होते देखना चाहिए, जिसके बाद मॉडल संक्षिप्त, विकृत उत्तर देगा।


इस प्रयोग से, यह स्पष्ट होना चाहिए कि परिमाणित ड्रैगन मॉडल मॉडल की सटीकता से समझौता किए बिना अपने इच्छित उपयोग के मामलों के लिए निचले-पैरामीटर मॉडल से बेहतर प्रदर्शन करने में सक्षम हैं।


और इसके साथ, हमने वास्तविक दुनिया के उपयोग के मामले को हल करने के लिए एक परिमाणित मॉडल का उपयोग किया है और इस प्रक्रिया में इसकी प्रदर्शन विशेषताओं के बारे में सीखा है!

निष्कर्ष

आज, हमने एलएलएम परिमाणीकरण के रोमांचक क्षेत्र का पता लगाया और देखा कि कैसे एलएलएमवेयर जैसी कंपनियां अपने विशेष भाषा मॉडल को बढ़ाने के लिए इन विकासों का लाभ उठा रही हैं। जैसा कि मैंने पहले भी तर्क दिया है, लघुकरण एआई प्रौद्योगिकियों को व्यापक रूप से अपनाने के लिए सबसे आशाजनक मार्गों में से एक का प्रतिनिधित्व करता है। विशेषज्ञता, फाइन-ट्यूनिंग और परिमाणीकरण के संयोजन से, एआई क्षेत्र में नवप्रवर्तक स्केलेबल और प्रदर्शनशील मॉडल बना सकते हैं जो वास्तविक दुनिया की समस्याओं को हल करते हैं।


आप जीथब पर एलएलएमवेयर का आरएजी फ्रेमवर्क और एलएलएमवेयर के हगिंग फेस रिपोजिटरी पर उनके ड्रैगन और ब्लिंग मॉडल पा सकते हैं।


वैसे, मैं एक रोमांचक परियोजना पर काम कर रहा हूं जो विकासशील दुनिया में शिक्षा में क्रांति लाने के लिए भाषा एआई और लघुकरण का उपयोग करना चाहता है। हम दुनिया भर में अविश्वसनीय कार्यकर्ताओं और शिक्षकों के साथ काम कर रहे हैं, और हम वैश्विक डिजिटल विभाजन को पाटने के लिए काम कर रहे हैं। यदि आप मेरे प्रोजेक्ट के बारे में अधिक जानना चाहते हैं या एलएलएम क्षेत्र में रोमांचक विकास के बारे में बात करना चाहते हैं, तो कृपया जीथब या लिंक्डइन पर मुझसे संपर्क करने में संकोच न करें।