आगे मैं यह कहकर शुरुआत करना चाहता हूं कि मेरा मतलब बड़े भाषा मॉडल (एलएलएम) के रचनाकारों, उनके मूल्यांकन के उपकरण, या उन व्यक्तियों/संगठनों के प्रति कोई अपराध नहीं है जो उन्हें रैंक करते हैं और लीडर-बोर्ड बनाते हैं। इस पारिस्थितिकी तंत्र में एक अपेक्षाकृत नवागंतुक के रूप में, मैं आपके काम का आभारी हूं और आभारी हूं कि मेरे लिए उन कार्यों को पूरा करने का रास्ता आसान हो गया है जो अन्यथा श्रमसाध्य होते। स्पष्ट रूप से, मेरी अगली पोस्ट में मॉडल रैंकिंग के लिए विभिन्न तरीकों की खोज होनी चाहिए, ताकि इवेल्स कैसे काम करते हैं, इसके बारे में थोड़ा और विवरण प्राप्त किया जा सके। परिचय यदि आपने मेरा पिछला लेख नहीं पढ़ा है, तो आपको इसकी समीक्षा करना फायदेमंद लग सकता है, क्योंकि मैंने शब्दों को परिभाषित किया है और उन साधनों की व्याख्या की है जिनके द्वारा मैं विभिन्न प्रथाओं और मान्यताओं तक पहुंचा हूं। प्राइवेटजीपीटी फॉर बुक समराइज़ेशन: टेस्टिंग एंड रैंकिंग कॉन्फ़िगरेशन वेरिएबल्स यदि आपने वह लेख पढ़ा है, तो आप जानते होंगे कि मैं पुस्तकों को सारांशित करने के उद्देश्य से बड़े भाषा मॉडल (एलएलएम) का उपयोग करते हुए, कुछ महीनों से अपनी प्रक्रियाओं को परिष्कृत कर रहा हूं। मैंने प्रॉम्प्ट टेम्प्लेट, सिस्टम प्रॉम्प्ट, यूजर प्रॉम्प्ट आदि सहित मापदंडों की एक श्रृंखला को मापा। मॉडल रैंकिंग के उस प्रारंभिक दौर और कॉन्फ़िगरेशन चर के उपयोग पर डेटा एकत्र करने से, मुझे उच्चतम गुणवत्ता वाले बुलेटेड नोट्स बनाने के लिए मिला, और इसे सर्वश्रेष्ठ बनाने के लिए एक की खोज कर रहा हूं। तब से यह मेरे 12जीबी 3060 पर फिट बैठता है। मिस्ट्रल-7बी-इंस्ट्रक्ट-v0.2.Q8_0.gguf इस रैंकिंग के लिए, मैं विभिन्न प्रमुख 7बी मॉडलों का आकलन करने के लिए ज्ञान के उस आधार का उपयोग कर रहा हूं। इस बार मैं उपयोग कर रहा हूं, क्योंकि मुझे इसका उपयोग करना आसान और काफी उपयोगी लगता है। ओलामा का मैंने निम्नलिखित मॉडलों को चुना क्योंकि मैंने उन्हें विभिन्न लीडर-बोर्डों पर से ऊपर रैंकिंग में पाया, या उन्हें सर्वश्रेष्ठ 7बी के रूप में स्व-घोषित किया गया था। मिस्ट्रल 7बी इंस्ट्रक्शन 0.2 (चैट टेम्प्लेट कोष्ठक में परीक्षण किया गया) ओपनचैट-3.5-0106.Q8_0.gguf (ओपनचैट) स्नोर्कल-मिस्ट्रल-पेयरआरएम-dpo.Q8_0.gguf (मिस्ट्रल) डॉल्फिन-2.6-मिस्ट्रल-7b.Q8_0.gguf (मिस्ट्रल) सुपरमारियो-v2.Q8_0.gguf (चैटएमएल) openhermes-2.5-मिस्ट्रल-7b.Q8_0.gguf (चैटएमएल) openhermes-2.5-न्यूरल-चैट-7b-v3-1-7b.Q8_0.gguf (चैटएमएल) openhermes-2.5-न्यूरल-चैट-v3-3-slerp.Q8_0.gguf (चैटएमएल) वेस्टलेक-7B-v2-Q8_0.gguf (चैटएमएल, मिस्ट्रल) MBX-7B-v3-DPO.q8_0.gguf (चैटएमएल, मिस्ट्रल) न्यूरलबीगल14-7b.q8_0.gguf (चैटएमएल, मिस्ट्रल) omnibeagle-7b-q8_0.gguf (चैटएमएल, मिस्ट्रल) कुछ मॉडलों के लिए, जहां मुझे वांछित परिणाम नहीं मिल रहे थे, क्योंकि वे ज्यादातर मिस्ट्रल व्युत्पन्न हैं, मैंने मिस्ट्रल टेम्पलेट का परीक्षण किया, भले ही वे चैटएमएल को अपने पसंदीदा इनपुट के रूप में सूचीबद्ध करते हों। बोल्ड पॉइंट नोट्स शीर्षकों और शब्दों के साथ बोल्ड में निम्नलिखित पाठ को संक्षेप में शीर्षकों, शब्दों और मुख्य अवधारणाओं के साथ बोल्ड में सारांशित करते हुए व्यापक बुलेटेड नोट्स लिखें।\n\nपाठ: हालाँकि GPT3.5 मेरी व्यक्तिगत आधार रेखा नहीं है, यह एक उद्योग मानक है, और मुझे उम्मीद है कि यह अधिकांश 7b Q8 GGUF की तुलना में बेहतर परिणाम देगा। हालाँकि बोल्ड में शब्दों की कोई मुख्य अवधारणा नहीं है, शीर्षक बोल्ड में , और कुल मिलाकर, पैराग्राफ के ब्लॉक की तुलना में इसे पढ़ना काफी आसान है। साथ ही, हमें बोल्ड में शब्द मिलेंगे या नहीं, यह इनपुट टेक्स्ट पर ही निर्भर हो सकता है, जहां बुलेट पॉइंट सारांश में बोल्ड शीर्षक शामिल होने चाहिए। हैं हमेशा मैं ऐसे मॉडल की तलाश में हूं जो नोट्स तैयार करें: और तेज अधिक विवरण के साथ, कम भराव के साथ लंबे संदर्भ के साथ तुलनीय विवरण के साथ (वर्तमान में इन क्षमताओं को 2.5k संदर्भ के आसपास बढ़ाया गया है) मैं इसे किसी भी निर्देश मॉडल के लिए एक मौलिक कार्य के रूप में देखता हूं। आदर्श रूप से, डेवलपर्स इस प्रकार के आदर्श बुलेटेड नोट्स उत्पन्न करने के लिए अपने मॉडलों को प्रशिक्षित करेंगे। मेरे पास ढेर सारा डेटा है, कुछ पुस्तकें पहले से ही प्रशिक्षित हैं, लेकिन किसी पुस्तक के लिए इन नोट्स को तैयार करना अपेक्षाकृत सरल है ( उपयोग करके पाठ को शब्दार्थ रूप से, हाथ से, 2.5k टोकन से नीचे के भागों में विभाजित किया गया है, प्रत्येक)। मिस्ट्रल 7 बी इंस्ट्रक्शन 0.2 का यदि यह 300-600 पेज की किताब है, तो इसे आमतौर पर एक ही दिन में किया जा सकता है, जिसमें प्री-प्रोसेसिंग और पोस्ट-प्रोसेसिंग भी शामिल है। आख़िरकार, मैं स्वयं उनकी क्षमताओं में सुधार करने के प्रयास में कुछ बढ़िया-ट्यूनिंग का प्रयोग कर सकता हूँ। रैंकिंग पहले, मैंने प्रत्येक रैंकिंग को एक अंक देने का प्रयास किया था। संख्यात्मक अंक देना सचमुच कठिन है। भविष्य में, मुझे लगता है कि मैं सारांशों को रैंक करने के लिए एलएलएम प्राप्त करने का प्रयास करूंगा। इस बार, मैं प्रत्येक मॉडल को कोई संख्यात्मक अंक दिए बिना केवल इस पर एक टिप्पणी छोड़ दूँगा कि यह कहाँ कम है, और मुझे क्या पसंद है। मैंने निम्नलिखित मॉडलों में से प्रत्येक को एक ही पुस्तक अध्याय पर परीक्षण किया, जो कि 1900-3000 टोकन के 6 भागों में विभाजित था। मैं प्रत्येक से एक प्रतिनिधि उदाहरण आउटपुट साझा करूंगा, और पूरा डेटा हमेशा की तरह GitHub पर उपलब्ध होगा। मिस्ट्रल 7बी निर्देश 0.2 क्यू8 जीजीयूएफ मुझे यकीन है कि अब तक आपको यह एहसास हो गया होगा कि, मेरी राय में, पास हराने के लिए 7बी है। मिस्ट्रल के मॉडलफ़ाइल जहां आप एक मॉडल फ़ाइल में मॉडल स्थान, टेम्पलेट और पैरामीटर इनपुट करते हैं, जिसका उपयोग यह आपके निर्दिष्ट कॉन्फ़िगरेशन का उपयोग करके आपके एलएलएम की एक प्रति को सहेजने के लिए करता है। इससे मापदंडों के साथ हमेशा झंझट किए बिना विभिन्न मॉडलों का प्रदर्शन करना आसान हो जाता है। ओलामा में एक सुविधा है मैंने चैट टेम्प्लेट को छोड़कर सभी मॉडलों के लिए पैरामीटर समान रखे हैं, लेकिन मैं आपके साथ वह टेम्प्लेट साझा करूंगा जो मैं प्रत्येक के लिए उपयोग कर रहा हूं, ताकि आप सटीक रूप से देख सकें कि मैं टेम्प्लेट का उपयोग कैसे करता हूं। आप मुझे बता सकते हैं कि क्या मुझे अलग-अलग कॉन्फ़िगर किए गए मॉडलफाइल का उपयोग करके निम्नलिखित मॉडलों से बेहतर परिणाम मिलेंगे। TEMPLATE """ <s></s>[INST] {{ .Prompt }} [/INST] """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 मिस्ट्रल 7बी निर्देश v0.2 परिणाम मैं यह नहीं कहूंगा कि मिस्ट्रल हर बार इसे पूरी तरह से करता है, लेकिन अक्सर, यह मेरा परिणाम होता है। और यदि आप GPT3.5 प्रतिक्रिया को देखें, तो आप सहमत हो सकते हैं कि यह बेहतर है। ओपनचैट 3.5 0106 Q8 GGUF मुझे से सुखद आश्चर्य हुआ। यहां एक मॉडल है जो सर्वोत्तम 7बी मॉडल होने का दावा करता है, और कम से कम मिस्ट्रल 7बी के साथ प्रतिस्पर्धी है। OpenChat के 0106 मॉडलफ़ाइल TEMPLATE """ GPT4 Correct User: {{ .Prompt }}<|end_of_turn|>GPT4 Correct Assistant: """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 ओपनचैट 3.5 0106 परिणाम इस छोटे से नमूने में इसने 4/6 बार बोल्ड हेडिंग दी। बाद में, मैं अधिक विस्तृत विश्लेषण का उपयोग करके अन्य शीर्ष दावेदारों के साथ इसकी समीक्षा करूंगा। स्नोर्कल मिस्ट्रल पेयरर्म डीपीओ क्यू8 जीजीयूएफ जाहिर है, मैं यहां पक्षपाती हूं, क्योंकि स्नोर्कल को मिस्ट्रल 7बी इंस्ट्रक्शन 0.2 पर प्रशिक्षित किया गया था। इसके बावजूद, मैं पूरी तरह से आशावादी हूं और से और अधिक रिलीज की प्रतीक्षा कर रहा हूं। स्नोर्केल.एआई मॉडलफ़ाइल TEMPLATE """ <s></s>[INST] {{ .Prompt }} [/INST] """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 स्नोर्कल मिस्ट्रल पेयरर्म डीपीओ परिणाम इनमें से 4/6 सारांश सही हैं, लेकिन अन्य में अनियमितताएं हैं जैसे कि सारांश के भाग के रूप में केवल इनलाइन बोल्ड करने के बजाय प्रमुख शब्दों और शीर्षकों की अत्यधिक लंबी सूची। डॉल्फिन 2.6 मिस्ट्रल 7बी क्यू8 जीजीयूएफ यहां है जिसे अच्छी तरह से माना जाता है। एक और मिस्ट्रल व्युत्पन्न मॉडलफ़ाइल TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 डॉल्फिन 2.6 मिस्ट्रल 7बी परिणाम यह एक और अच्छा मॉडल है जो मिस्ट्रल 7बी इंस्ट्रक्शन 0.2 जितना ही अच्छा है। 6 में से तीन सारांशों ने उचित प्रारूप और बोल्ड शीर्षक दिए, दूसरे का प्रारूप अच्छा था और कोई बोल्ड नहीं था, लेकिन 2/6 का प्रारूप खराब था। लगभग ओपनहर्मिस 2.5 मिस्ट्रल-7बी क्यू8 जीजीयूएफ काफी लोकप्रिय है, लीडरबोर्ड पर और "लोगों" के बीच असंबद्ध कलह वाली चैट में। मैं चाहता हूं कि यह इस रैंकिंग में अग्रणी बने, लेकिन ऐसा नहीं है। यह मॉडल मॉडलफ़ाइल TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 ओपनहर्मिस 2.5 मिस्ट्रल परिणाम 3/6 परिणाम उचित संरचना उत्पन्न करते हैं, लेकिन कोई बोल्ड टेक्स्ट नहीं। उनमें से एक में संरचना और बोल्ड टेक्स्ट दोनों हैं। अन्य दो में पाठ के अधिक बड़े ब्लॉक थे और संरचना ख़राब थी। ओपनहर्मेस 2.5 न्यूरल चैट 7बी v3.1 7बी क्यू8 जीजीयूएफ मैंने यह देखने के लिए कि क्या मुझे बेहतर परिणाम मिल सकते हैं, ओपनहर्मिस 2.5 मिस्ट्रल के कुछ उच्च-रैंकिंग भी आज़माए। दुर्भाग्यवश, ऐसा नहीं था। डेरिवेटिव मॉडलफ़ाइल TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 ओपनहर्मिस 2.5 न्यूरल चैट 7बी v3.1 परिणाम इनमें से कोई भी परिणाम वांछनीय नहीं था. ओपनहर्म्स 2.5 न्यूरल-चैट v3.3 स्लेर्प Q8 GGUF उन्होंने जो कुछ भी किया, इन मूल में सुधार नहीं हुआ। व्युत्पन्नों से मॉडलफ़ाइल TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 ओपनहर्म्स 2.5 न्यूरल-चैट v3.3 स्लेर्प परिणाम प्रत्येक नये संस्करण के साथ यह और भी बदतर होती जा रही है! सुपर मारियो V2 Q8 मैं मारियो से ज्यादा उम्मीद नहीं कर रहा था, लेकिन यह कुछ वादे दिखाता है। इस बीच, V3 और V4 उपलब्ध हैं, लेकिन मुझे अभी तक उनके लिए GGUF नहीं मिला है। मॉडलफ़ाइल TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 सुपर मारियो V2 परिणाम इसका पहला परिणाम भ्रामक रूप से अच्छा था। हालाँकि, निम्नलिखित में से प्रत्येक सारांश वांछित पैटर्न से भटक गया। मैं नई रिलीज़ों के GGUF की तलाश में रहूंगा। आप यहां देख सकते हैं कि हमें शुरुआती बोल्ड शीर्षक वाले पैराग्राफ के ब्लॉक मिले हैं। वास्तव में वह नहीं जो मैंने मांगा था। सम्मानपूर्वक उल्लेख (चैटएमएल) - यह वास्तव में एक अच्छा प्रारूप तैयार कर रहा है लेकिन कोई बोल्ड टेक्स्ट नहीं है। ऑम्निबीगल-7बी (चैटएमएल, मिस्ट्रल) - मिस्ट्रल टेम्पलेट के साथ बेहतर काम करता है। "ठीक" परिणाम लेकिन मेरी पसंद के अनुसार त्वरित टेम्पलेट्स को लेकर बहुत अधिक भ्रम है। न्यूरलबीगल14-7बी (चैटएमएल) - मैंने इससे भी बदतर देखा है वेस्टलेक-7बी-वी2 (ChatML) - प्रारूप में कोई स्थिरता नहीं। MBX-7B-v3-DPO निष्कर्ष काश मेरे पास साझा करने के लिए बेहतर समाचार होता। मेरा आदर्श शीर्षक यह है कि दुर्भाग्यवश, ऐसा नहीं है। ऐसे अग्रणी मॉडलों की बहुतायत है जो और मेरे लिए उनमें से चयन करना बहुत कठिन है। व्यापक बुलेटेड नोट सारांश बनाते समय गुणवत्तापूर्ण आउटपुट देते हैं, हो सकता है कि वे पूर्ण रूप में मिस्ट्रल 0.2 से बेहतर प्रदर्शन करें लेकिन केवल जीजीयूएफ प्रारूप में पीछे हैं? मुझे लगता है कि इसकी काफी संभावना है कि हमारा कोई भी मौजूदा ईवैल इस प्रकार के आउटपुट को लक्षित नहीं करता है, लेकिन मैं निश्चित रूप से तर्क दूंगा कि यह एक ऐसा कार्य है जिसे किसी भी अग्रणी 7बी जीजीयूएफ मॉडल को प्रबंधित करने में सक्षम होना चाहिए। विचार करने योग्य एक और बात यह है कि मिस्ट्रल 7बी इंस्ट्रक्ट v0.2, मिक्सट्रल के तुरंत बाद, धूमधाम के बीच सामने आया। मुझे लगता है कि वह रिलीज़ रडार के नीचे से फिसल गई। वास्तव में, जिन "अग्रणी" मॉडलों को मैंने देखा उनमें से कई 0.1 मिस्ट्रल पर आधारित हैं। शायद चीजें बदल जाएंगी, और दुनिया को एहसास होगा कि उनके सर्वश्रेष्ठ मॉडल अभी भी मिस्ट्रल से आगे नहीं निकल सकते हैं? फिर, शायद वे सभी मॉडल उन सभी अन्य कार्यों में वास्तव में अच्छे हैं जिनकी मैं अपेक्षा नहीं कर रहा हूँ। मैं मदद करने को तैयार हूं, और मैं गलत साबित होने को तैयार हूं मेरे पास डेटा है, मेरे पास एक पाइपलाइन है, और मुझे बुलेटेड नोट सारांश बनाने की अंतहीन आवश्यकता है। यदि आप मेरे साथ काम करना चाहते हैं तो कृपया संपर्क करें। मेरा GitHub देखने, डेटा जांचने और इस प्रयोग का अपना संस्करण आज़माने के लिए भी आपका स्वागत है। मैं गलत साबित होने से खुश हूं।