ফরোয়ার্ড আমাকে বলতে শুরু করা যাক যে আমি লার্জ ল্যাঙ্গুয়েজ মডেল (LLM) এর নির্মাতাদের, তাদের মূল্যায়নের সরঞ্জাম বা ব্যক্তি/সংগঠন যারা তাদের র্যাঙ্ক করে এবং লিডার-বোর্ড তৈরি করে তাদের প্রতি কোন অপরাধ নয়। এই ইকোসিস্টেমের একজন আপেক্ষিক নবাগত হিসাবে, আমি আপনার কাজের জন্য ঋণী এবং কৃতজ্ঞ যে আমার জন্য কাজগুলি সম্পাদন করার উপায় সহজ করা হয়েছে যা অন্যথায় শ্রমসাধ্য হবে। স্পষ্টতই, আমার পরবর্তী পোস্টটি মডেল র্যাঙ্কিংয়ের জন্য বিভিন্ন পদ্ধতির অন্বেষণ করতে হবে, কীভাবে ইভালগুলি কাজ করে সে সম্পর্কে একটু বিস্তারিত জানার জন্য। ভূমিকা আপনি যদি আমার আগের নিবন্ধটি না পড়ে থাকেন তাহলে আপনি এটি পর্যালোচনা করা উপকারী বলে মনে করতে পারেন, কারণ আমি শর্তাবলী সংজ্ঞায়িত করেছি এবং ব্যাখ্যা করেছি যে উপায়গুলির মাধ্যমে আমি বিভিন্ন অনুশীলন এবং বিশ্বাসগুলিতে এসেছি৷ প্রাইভেটজিপিটি ফর বুক সামারাইজেশন: টেস্টিং এবং র্যাঙ্কিং কনফিগারেশন ভেরিয়েবল আপনি যদি সেই নিবন্ধটি পড়ে থাকেন, তাহলে আপনি অবগত হবেন যে আমি কয়েক মাস ধরে আমার প্রসেসগুলিকে পরিমার্জন করছি, বইগুলিকে সংক্ষিপ্ত করার উদ্দেশ্যে লার্জ ল্যাঙ্গুয়েজ মডেল (LLM) ব্যবহার করে৷ আমি প্রম্পট টেমপ্লেট, সিস্টেম প্রম্পট, ব্যবহারকারী প্রম্পট, ইত্যাদি সহ পরামিতিগুলির একটি সিরিজ পরিমাপ করেছি। মডেল র্যাঙ্কিংয়ের সেই প্রাথমিক রাউন্ড থেকে এবং কনফিগারেশন ভেরিয়েবলের ব্যবহারে ডেটা সংগ্রহ করে, আমি সবচেয়ে বেশি মানের বুলেটযুক্ত নোট তৈরি করার জন্য খুঁজে পেয়েছি, এবং এটি সেরা করার জন্য একটি অনুসন্ধান করছি, যেটি আমার 12GB 3060 এ ফিট করে, তখন থেকেই। mistral-7b-instruct-v0.2.Q8_0.gguf এই র্যাঙ্কিংয়ের জন্য, আমি বিভিন্ন ধরনের 7b মডেলের মূল্যায়ন করতে জ্ঞানের সেই ভিত্তিটি ব্যবহার করছি। এবার আমি ব্যবহার করছি, কারণ আমি এটি ব্যবহার করা সহজ এবং বেশ পারফরম্যান্ট বলে মনে করি। ওল্লামা আমি নিম্নলিখিত মডেলগুলি বেছে নিয়েছি কারণ আমি সেগুলিকে বিভিন্ন লিডার-বোর্ডে এর উপরে স্থান পেয়েছি, বা সেরা 7b হিসাবে স্ব-ঘোষিত হয়েছে৷ Mistral 7b Instruct 0.2- (চ্যাট টেমপ্লেট বন্ধনীতে পরীক্ষা করা হয়েছে) openchat-3.5-0106.Q8_0.gguf (ওপেনচ্যাট) snorkel-mistral-pairrm-dpo.Q8_0.gguf (মিস্ট্রাল) ডলফিন-2.6-মিস্ট্রাল-7b.Q8_0.gguf (মিস্ট্রাল) supermario-v2.Q8_0.gguf (ChatML) openhermes-2.5-mistral-7b.Q8_0.gguf (ChatML) openhermes-2.5-neural-chat-7b-v3-1-7b.Q8_0.gguf (ChatML) openhermes-2.5-neural-chat-v3-3-slerp.Q8_0.gguf (ChatML) WestLake-7B-v2-Q8_0.gguf (ChatML, Mistral) MBX-7B-v3-DPO.q8_0.gguf (ChatML, Mistral) neuralbeagle14-7b.q8_0.gguf (ChatML, Mistral) omnibeagle-7b-q8_0.gguf (ChatML, Mistral) কিছু মডেলের জন্য, যেখানে আমি পছন্দসই ফলাফল পাচ্ছিলাম না, যেহেতু সেগুলি বেশিরভাগই মিস্ট্রাল থেকে প্রাপ্ত, আমি মিস্ট্রাল টেমপ্লেটটি পরীক্ষা করেছি যদিও তারা তাদের পছন্দের ইনপুট হিসাবে ChatML-কে তালিকাভুক্ত করেছে। বোল্ডে হেডিং এবং শর্তাবলী সহ বুলেট পয়েন্ট নোট নিচের টেক্সটের সারসংক্ষেপ করে বিস্তৃত বুলেটযুক্ত নোট লিখুন, শিরোনাম, পদ এবং মূল ধারণাগুলি বোল্ডে।\n\nTEXT: যদিও GPT3.5 আমার ব্যক্তিগত বেসলাইন নয়, এটি একটি ইন্ডাস্ট্রি স্ট্যান্ডার্ডের কিছু, এবং আমি আশা করব এটি বেশিরভাগ 7b Q8 GGUF-এর থেকে ভাল ফলাফল দেবে৷ যদিও বোল্ডে পদগুলির কোন মূল ধারণা নেই, গাঢ় এবং সামগ্রিকভাবে, অনুচ্ছেদের ব্লকগুলির তুলনায় এটি পড়া বেশ সহজ। এছাড়াও, আমরা বোল্ডে পদগুলি খুঁজে পাব কিনা তা নির্ভর করতে পারে ইনপুট টেক্সটের উপর, যেখানে একটি বুলেট পয়েন্ট সারাংশ বোল্ড করা শিরোনাম অন্তর্ভুক্ত করা উচিত। শিরোনামগুলি সবসময় আমি এমন মডেল খুঁজছি যা নোট তৈরি করে: দ্রুত আরও বিশদ সহ, কম ফিলার দীর্ঘ প্রেক্ষাপটের সাথে তুলনামূলক বিশদ সহ (বর্তমানে এই ক্ষমতাগুলিকে 2.5k প্রসঙ্গে প্রসারিত করা হচ্ছে) আমি এটিকে যেকোন নির্দেশ মডেলের জন্য একটি মৌলিক কাজ হিসাবে দেখি। আদর্শভাবে, বিকাশকারীরা এই ধরনের আদর্শ বুলেটযুক্ত নোট তৈরি করতে তাদের মডেলদের প্রশিক্ষণ দেবে। আমার কাছে প্রচুর ডেটা আছে, কিছু বই ইতিমধ্যেই প্রশিক্ষিত, কিন্তু একটি বইয়ের জন্য এই নোটগুলি তৈরি করা তুলনামূলকভাবে সহজ (প্রত্যেকটি 2.5k টোকেনের নীচের অংশে, হাত দিয়ে শব্দার্থগতভাবে খণ্ডিত পাঠ্যের সাথে ব্যবহার করে)। Mistral 7b Instruct 0.2 যদি এটি একটি 300-600 পৃষ্ঠার বই হয়, তাহলে এটি সাধারণত এক দিনেই করা যেতে পারে, যার মধ্যে প্রাক এবং পরবর্তী প্রক্রিয়াকরণও রয়েছে। অবশেষে, আমি নিজে তাদের ক্ষমতা উন্নত করার প্রয়াসে কিছু ফাইন-টিউনিং নিয়ে পরীক্ষা করতে পারি। র্যাঙ্কিং পূর্বে, আমি প্রতিটি র্যাঙ্কিংকে একটি স্কোর দেওয়ার চেষ্টা করেছি। সংখ্যাসূচক স্কোর দেওয়া সত্যিই কঠিন। ভবিষ্যতে, আমি মনে করি আমি সারাংশ র্যাঙ্ক করার জন্য একটি LLM পেতে চেষ্টা করব। এই সময়, আমি প্রতিটি মডেলকে একটি সংখ্যাসূচক স্কোর না দিয়ে শুধু কোথায় এটি কম পড়ে এবং আমি কী পছন্দ করি সে সম্পর্কে একটি মন্তব্য করব৷ আমি একটি একক বই অধ্যায়ে নিম্নলিখিত মডেলগুলির প্রতিটি পরীক্ষা করেছি, প্রতিটি 1900-3000 টোকেন থেকে 6 খণ্ডে বিভক্ত। আমি প্রতিটি থেকে একটি প্রতিনিধি উদাহরণ আউটপুট ভাগ করব, এবং সর্বদা হিসাবে সম্পূর্ণ ডেটা GitHub এ উপলব্ধ হবে। Mistral 7b নির্দেশ 0.2 Q8 GGUF আমি নিশ্চিত যে আপনি এতক্ষণে বুঝতে পেরেছেন যে, আমার মতে, কাছে 7 বি হারানোর জন্য রয়েছে। মিস্ট্রালের মডেলফাইল যেখানে আপনি একটি মডেল ফাইলে মডেলের অবস্থান, টেমপ্লেট এবং পরামিতিগুলি ইনপুট করেন, যা এটি আপনার নির্দিষ্ট কনফিগারেশন ব্যবহার করে আপনার LLM-এর একটি অনুলিপি সংরক্ষণ করতে ব্যবহার করে। এটি পরামিতিগুলির সাথে সর্বদা ঝগড়া না করে বিভিন্ন মডেলের ডেমো করা সহজ করে তোলে। ওল্লামার একটি বৈশিষ্ট্য রয়েছে আমি চ্যাট টেমপ্লেট ব্যতীত সমস্ত মডেলের জন্য প্যারামিটারগুলি একই রেখেছি, তবে আমি প্রতিটির জন্য যে টেমপ্লেটটি ব্যবহার করছি তা আমি আপনার সাথে ভাগ করব, যাতে আপনি সঠিকভাবে দেখতে পারেন আমি কীভাবে টেমপ্লেটটি ব্যবহার করি। আপনি আমাকে জানাতে পারেন যদি আমি একটি ভিন্নভাবে কনফিগার করা মডেলফাইল ব্যবহার করে নিম্নলিখিত মডেলগুলি থেকে আরও ভাল ফলাফল পেতে পারি। TEMPLATE """ <s></s>[INST] {{ .Prompt }} [/INST] """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 Mistral 7b নির্দেশ v0.2 ফলাফল আমি বলব না যে মিস্ট্রাল প্রতি একক সময় এটি নিখুঁতভাবে করে, তবে প্রায়শই না, এটি আমার ফলাফল। এবং যদি আপনি GPT3.5 প্রতিক্রিয়ার দিকে ফিরে তাকান, তাহলে আপনি সম্মত হতে পারেন যে এটি আরও ভাল। OpenChat 3.5 0106 Q8 GGUF আমি দ্বারা আনন্দদায়কভাবে বিস্মিত হয়েছিলাম। এখানে একটি মডেল রয়েছে যা দাবি করে যে সেরা 7b মডেল রয়েছে এবং অন্তত মিস্ট্রাল 7b এর সাথে প্রতিযোগিতামূলক। OpenChat এর 0106 মডেলফাইল TEMPLATE """ GPT4 Correct User: {{ .Prompt }}<|end_of_turn|>GPT4 Correct Assistant: """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 OpenChat 3.5 0106 ফলাফল এই ছোট নমুনায়, এটি 4/6 বার সাহসী শিরোনাম দিয়েছে। পরে, আমি আরও বিশদ বিশ্লেষণ ব্যবহার করে অন্য যেকোনো শীর্ষ প্রতিযোগীদের সাথে এটি পর্যালোচনা করব। Snorkel Mistral Pairrm DPO Q8 GGUF স্পষ্টতই, আমি এখানে পক্ষপাতদুষ্ট, কারণ স্নরকেলকে মিস্ট্রাল 7বি ইনস্ট্রাকট 0.2-তে প্রশিক্ষণ দেওয়া হয়েছিল। যাই হোক না কেন, আমি সতর্কভাবে আশাবাদী এবং থেকে আরও রিলিজের অপেক্ষায় আছি। Snorkel.ai মডেলফাইল TEMPLATE """ <s></s>[INST] {{ .Prompt }} [/INST] """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 Snorkel Mistral Pairrm DPO ফলাফল এই সারাংশগুলির 4/6টি স্পট অন রয়েছে, কিন্তু অন্যগুলিতে সারাংশের অংশ হিসাবে কেবল ইনলাইনে বোল্ড করার পরিবর্তে মূল পদ এবং শিরোনামের অত্যন্ত দীর্ঘ তালিকার মতো অনিয়ম রয়েছে৷ ডলফিন 2.6 মিস্ট্রাল 7B Q8 GGUF এখানে যা ভালভাবে বিবেচিত। আরেকটি মিস্ট্রাল ডেরিভেটিভ মডেলফাইল TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 ডলফিন 2.6 মিস্ট্রাল 7B ফলাফল এটি আরেকটি শালীন মডেল যা Mistral 7b Instruct 0.2 এর মতোই ভালো। ৬টি সারাংশের মধ্যে তিনটি সঠিক ফরম্যাট এবং বোল্ড হেডিং দিয়েছে, আরেকটিতে ভালো ফরম্যাট ছিল বোল্ড ছাড়াই, কিন্তু 2/6টি চারদিকে খারাপ ফর্ম ছিল। প্রায় OpenHermes 2.5 Mistral-7B Q8 GGUF লিডারবোর্ডে এবং অসংলগ্ন বিরোধ চ্যাটে "মানুষ" উভয়ের মধ্যেই বেশ জনপ্রিয়। আমি এটি এই র্যাঙ্কিং একটি নেতা হতে চাই, কিন্তু এটা ঠিক না. এই মডেলটি মডেলফাইল TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 OpenHermes 2.5 মিস্ট্রাল ফলাফল 3/6 ফলাফল সঠিক কাঠামো তৈরি করে, কিন্তু কোন গাঢ় লেখা নেই। তাদের একটিতে গঠন এবং গাঢ় লেখা উভয়ই রয়েছে। অন্য দুটিতে পাঠ্যের আরও বড় ব্লক \ এবং দুর্বল কাঠামো ছিল। OpenHermes 2.5 নিউরাল চ্যাট 7b v3.1 7B Q8 GGUF আমি আরও ভাল ফলাফল পেতে পারি কিনা তা দেখার জন্য আমি OpenHermes 2.5 Mistral-এর কয়েকটি উচ্চ-র্যাঙ্কিং চেষ্টা করেছি। দুর্ভাগ্যবশত, যে ক্ষেত্রে ছিল না। ডেরিভেটিভ মডেলফাইল TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 OpenHermes 2.5 নিউরাল চ্যাট 7b v3.1 ফলাফল এই ফলাফলগুলির কোনটিই কাম্য ছিল না। OpenHermes 2.5 নিউরাল-চ্যাট v3.3 Slerp Q8 GGUF তারা যাই করুক না কেন, এই মূলের উপর উন্নত হয়নি। ডেরিভেটিভগুলি মডেলফাইল TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 OpenHermes 2.5 নিউরাল-চ্যাট v3.3 Slerp ফলাফল এটি প্রতিটি নতুন সংস্করণের সাথে খারাপ হচ্ছে! সুপার মারিও V2 Q8 আমি মারিওর কাছ থেকে খুব বেশি আশা করছিলাম না, তবে এটি কিছু প্রতিশ্রুতি দেখায়। ইতিমধ্যে, V3 এবং V4 উপলব্ধ, কিন্তু আমি এখনও তাদের জন্য GGUF খুঁজে পাইনি। মডেলফাইল TEMPLATE """ <|im_start|>system You are a helpful AI writing assistant.<|im_end|> <|im_start|>user {{ .Prompt }} <|im_end|> <|im_start|>assistant {{ .Response }}<|im_end|> """ PARAMETER num_ctx 8000 PARAMETER num_gpu -1 PARAMETER num_predict 4000 সুপার মারিও V2 ফলাফল এর প্রথম ফলাফল প্রতারণামূলকভাবে ভাল ছিল। যাইহোক, নিম্নলিখিত সারাংশের প্রতিটি কাঙ্ক্ষিত প্যাটার্ন থেকে বিচ্যুত হয়েছে। আমি নতুন রিলিজের GGUF খুঁজতে থাকব। আপনি এখানে দেখতে পারেন যে আমরা একটি প্রাথমিক বোল্ড হেডিং সহ অনুচ্ছেদের ব্লক পেয়েছি। আমি যা চেয়েছিলাম তা সত্যিই নয়। সম্মানিত উল্লেখ (ChatML) - এটি আসলে একটি শালীন বিন্যাস তৈরি করছে কিন্তু কোন বোল্ড লেখা নেই। omnibeagle-7b (ChatML, Mistral) - মিস্ট্রাল টেমপ্লেটের সাথে আরও ভাল কাজ করে। "ঠিক আছে" ফলাফল কিন্তু আমার পছন্দের জন্য প্রম্পট টেমপ্লেটের চারপাশে খুব বেশি বিভ্রান্তি। neuralbeagle14-7b (ChatML) - আমি আরও খারাপ দেখেছি WestLake-7B-v2 (ChatML)- বিন্যাসে কোনো ধারাবাহিকতা নেই। MBX-7B-v3-DPO উপসংহার আমি শেয়ার করার জন্য ভাল খবর আছে. আমার আদর্শ শিরোনাম হল যে দুর্ভাগ্যবশত, যে ক্ষেত্রে না. প্রচুর পরিমাণে নেতৃস্থানীয় মডেল রয়েছে যা তৈরি করার সময় গুণমানের আউটপুট তৈরি করে এবং সেগুলির মধ্যে বেছে নেওয়া আমার পক্ষে খুব কঠিন। ব্যাপক বুলেটযুক্ত নোট সারাংশ হয়তো তারা মিস্ট্রাল 0.2 কে পূর্ণ ফর্মে ছাড়িয়েছে কিন্তু শুধুমাত্র GGUF ফর্ম্যাটে পিছিয়ে আছে? আমি মনে করি এটা খুবই সম্ভব যে আমাদের বিদ্যমান ইভালগুলির মধ্যে কেউই এই ধরণের আউটপুটকে লক্ষ্য করে না, তবে আমি অবশ্যই যুক্তি দেব যে এটি এমন একটি কাজ যা যে কোনো নেতৃস্থানীয় 7b gguf মডেল পরিচালনা করতে সক্ষম হওয়া উচিত। বিবেচনা করার আরেকটি বিষয় হল Mistral 7b Instruct v0.2 Mixtral-এর পরেই বেরিয়ে এসেছে, একগুচ্ছ ধুমধামের মধ্যে। আমি মনে করি যে মুক্তি রাডার অধীনে স্খলিত. প্রকৃতপক্ষে, আমি দেখেছি অনেক "নেতৃস্থানীয়" মডেল 0.1 মিস্ট্রালের উপর ভিত্তি করে। হয়তো জিনিসগুলি পরিবর্তিত হবে, এবং বিশ্ব বুঝতে পারবে যে তাদের সেরা মডেলগুলি এখনও মিস্ট্রালকে শীর্ষে রাখতে পারে না? তারপরে আবার, সম্ভবত সেই সমস্ত মডেলগুলি অন্য সমস্ত কাজে সত্যিই ভাল যা আমি চাই না। আমি সাহায্য করতে ইচ্ছুক, এবং আমি ভুল প্রমাণিত হতে ইচ্ছুক আমার কাছে ডেটা আছে, আমার কাছে একটি পাইপলাইন আছে, এবং বুলেটযুক্ত নোটের সারাংশ তৈরি করার জন্য আমার অবিরাম প্রয়োজন আছে। আপনি যদি আমার সাথে কাজ করতে চান, অনুগ্রহ করে যোগাযোগ করুন। আপনি আমার GitHub চেক আউট, ডেটা পরীক্ষা, এবং এই পরীক্ষার আপনার নিজস্ব সংস্করণ চেষ্টা করতে স্বাগত জানাই. আমি ভুল প্রমাণিত হতে পেরে খুশি।