এটা আর খবর নয় যে এলএলএমগুলি পরিবর্তিত হয়েছে এবং শিল্প জুড়ে এআই এবং ব্যবসার জন্য গেম পরিবর্তন করতে থাকবে। IBM-এর একটি সমীক্ষায় দেখা গেছে যে সিইওরা উত্পাদনশীলতা উন্নত করতে এবং প্রতিযোগিতামূলক প্রান্ত অর্জনের জন্য ক্রমবর্ধমানভাবে জেনারেটিভ এআই গ্রহণ করছেন । সমীক্ষা, যা সারা বিশ্ব থেকে 3,000 CEO-এর উপর জরিপ করেছে, দেখা গেছে যে 75% CEO বিশ্বাস করেন যে সবচেয়ে উন্নত জেনারেটিভ এআই সহ প্রতিষ্ঠানের একটি প্রতিযোগিতামূলক সুবিধা থাকবে।
আপনি যদি LLM ব্যবহার করার সর্বোত্তম উপায় সম্পর্কে ভাবছেন এবং সেগুলি তৈরি বা সূক্ষ্ম-টিউন করবেন কিনা, আমরা এই নির্দেশিকাটি শেয়ার করতে চাই যে এটি কার্যকরভাবে এবং দক্ষতার সাথে করতে আপনাকে কী জানতে হবে।
প্রথমত, আমরা LLMগুলি কীভাবে প্রয়োগ করা হচ্ছে এবং কোন শিল্পগুলিতে তারা সবচেয়ে বেশি প্রভাব ফেলতে পারে তা দেখব যাতে আপনি একটি LLM দিয়ে কী অর্জন করতে পারেন সে সম্পর্কে আপনার আরও ভাল ধারণা রয়েছে। তারপর, আমরা কেন একটি এলএলএম তৈরি বা সূক্ষ্ম টিউন করি সে সম্পর্কে কথা বলব। এবং পরিশেষে, আমরা সমালোচনামূলক বিবেচনা, কৌশল এবং সর্বোত্তম অনুশীলনগুলি ভাগ করব, যাতে আপনি সিদ্ধান্ত নেওয়ার পরে আপনার টিম একটি তীক্ষ্ণ দৃষ্টিভঙ্গি পেতে পারে।
এখন, আসুন আরও গভীরে প্রবেশ করি যে কীভাবে এলএলএমগুলি শিল্প এবং ব্যবসায় পরিবর্তনের জন্য অনুমান করা হয়:
ওপেনএআই, ওপেন রিসার্চ, এবং পেনসিলভানিয়া বিশ্ববিদ্যালয়ের গবেষকদের একটি সাম্প্রতিক কার্যপত্রে দেখা গেছে যে এলএলএমগুলি সাধারণত একাধিক মার্কিন বাজারকে প্রভাবিত করতে পারে এবং তথ্য শিল্প সম্ভবত নিম্নলিখিত কারণে সবচেয়ে বেশি প্রভাবিত হবে:
এদিকে, ম্যাককিন্সির একটি গবেষণায় ব্যাঙ্কিংকে এমন একটি শিল্প হিসাবে উল্লেখ করা হয়েছে যা এলএলএম-এর জন্য সবচেয়ে উল্লেখযোগ্য প্রভাব দেখতে পারে। যদি ব্যবহারের ক্ষেত্রে সম্পূর্ণরূপে প্রয়োগ করা হয়, তারা প্রযুক্তিটি $200 বিলিয়ন থেকে $340 বিলিয়নের অতিরিক্ত বার্ষিক মূল্য প্রদানের প্রত্যাশা করে।
মজার বিষয় হল, ম্যাককিন্সির একই গবেষণায় দাবি করা হয়েছে যে ফাউন্ডেশন মডেল এবং জেনারেটিভ এআই-এর জন্য ফার্মাসিউটিক্যালস এবং চিকিৎসা পণ্যগুলিকে বাড়ানো যেতে পারে। গবেষণায় বলা হয়েছে যে প্রভাব বার্ষিক $60 থেকে $110 বিলিয়ন হতে পারে। বিশেষ করে, তারা মাদক আবিষ্কারের সম্ভাবনা দেখে। এখানে কিভাবে:
কিন্তু ফাউন্ডেশন মডেল এবং এলএলএম-এর আশেপাশে হাইপ জাদুকরী সংশোধনের ধারণা তৈরি করতে পারে, বাস্তবতা হল এলএলএম, এবং ফাউন্ডেশন মডেলগুলি নিখুঁত নয়। যে কেউ ChatGPT ব্যাপকভাবে বা বাজারে অন্যান্য LLM ব্যবহার করেছেন তারা দেখেছেন যে, বিশেষ করে ডোমেন-নির্দিষ্ট কাজের জন্য, সরাসরি বাক্সের বাইরে LLM ব্যবহার করা ফ্ল্যাট পড়ে যেতে পারে। এখানে এলএলএম-এর কিছু চ্যালেঞ্জ এবং সীমাবদ্ধতা রয়েছে:
সম্ভবত আমাদের সবচেয়ে সাধারণ সমস্যা হল হ্যালুসিনেশন। হ্যালুসিনেশন এমন একটি ঘটনা যেখানে এলএলএম ভুল বিবৃতি ফেরত দিতে পারে যা বিশ্বাসযোগ্য বলে মনে হয়। দুটি ধরণের হ্যালুসিনেশন রয়েছে: অভ্যন্তরীণ এবং বহির্মুখী। অভ্যন্তরীণ হ্যালুসিনেশন ঘটে যখন মডেলটি ত্রুটিযুক্ত যুক্তি ব্যবহার করে যা ব্যবহারকারীর ইনপুটের বিরুদ্ধে যায়, যখন বহিরাগত হ্যালুসিনেশন ঘটে যখন মডেল ব্যবহারকারীর প্রশ্নের প্রসঙ্গে ভুল বোঝে।
GPT-এর মতো ফাউন্ডেশন মডেলগুলির একটি ছোট প্রসঙ্গ উইন্ডো থাকে এবং ইনপুট হিসাবে শুধুমাত্র সীমিত সংখ্যক অক্ষর নিতে পারে, যা নির্দিষ্ট অ্যাপ্লিকেশনের জন্য আদর্শ নাও হতে পারে। মানুষের মতো, ইনপুটের দৈর্ঘ্য বাড়ার সাথে সাথে মডেলটির জন্য এটিকে সঠিকভাবে প্রক্রিয়া করতে অসুবিধা হয়।
বিপর্যয়মূলক ভুলে যাওয়া একটি ঘটনা যা ঘটে যখন একটি কৃত্রিম নিউরাল নেটওয়ার্ককে পর্যায়ক্রমে একাধিক কাজের প্রশিক্ষণ দেওয়া হয়, এবং টাস্ক A-এর জন্য নেটওয়ার্কের গুরুত্বপূর্ণ ওজনগুলি টাস্ক B-এর উদ্দেশ্যগুলির সাথে সারিবদ্ধ করার জন্য পরিবর্তিত হয়। এর ফলে নেটওয়ার্ক টাস্ক A ভুলে যেতে পারে, যদিও এটি আগে এটি ভালভাবে সম্পাদন করতে সক্ষম হয়েছিল।
এলএলএম, যেগুলি প্রাথমিকভাবে লেবেলবিহীন ডেটাতে প্রশিক্ষিত, তারা পক্ষপাতের প্রবণ হতে পারে কারণ তাদের প্রশিক্ষণ প্রক্রিয়ায় ব্যবহৃত ডেটা বাস্তব-বিশ্বের ডেটা বিতরণের সঠিক উপস্থাপনা নাও হতে পারে। কারণ প্রশিক্ষণের জন্য ব্যবহৃত পক্ষপাতমূলক ডেটা মডেলের আউটপুটে প্রতিফলিত হতে পারে।
এই সীমাবদ্ধতাগুলি কোম্পানি এবং এন্টারপ্রাইজগুলিকে কৌশলগতভাবে চিন্তা করতে পরিচালিত করে যে তারা কীভাবে LLM-এর সাথে কাজ করতে চায়। প্রকৃতপক্ষে, কোম্পানিগুলি কীভাবে কাজ করে তা পরিবর্তন করার জন্য এলএলএমগুলির ব্যাপক সম্ভাবনা রয়েছে, যা তাদের আরও মূল্য দিতে পারে, তবে এই চ্যালেঞ্জগুলি অবশ্যই মোকাবেলা করতে হবে। এখানেই একটি বিদ্যমান এলএলএম তৈরি বা ফাইন-টিউনিংয়ের প্রশ্ন উঠতে পারে।
স্ক্র্যাচ থেকে এলএলএম তৈরি করা কখন বোঝা যায়? আপনার নিজের এলএলএম তৈরি করা সবচেয়ে বেশি অর্থবহ হবে যদি আপনার একটি খুব অনন্য ব্যবহারের ক্ষেত্রে থাকে যা বিদ্যমান সাধারণ এলএলএমগুলি পরিবেশন করতে পারে না বা যদি এলএলএম আপনার কোম্পানির জন্য একটি মূল পণ্য বা একটি প্রাথমিক ব্যবসায়িক ড্রাইভার হয়ে ওঠে। উপরন্তু, যদি আপনার কাছে প্রচুর পরিমাণে মূল্যবান মালিকানাধীন ডেটা অ্যাক্সেস থাকে, তবে ডেটা গোপনীয়তা এবং নিরাপত্তা বজায় রেখে আপনার সুবিধার জন্য এটি ব্যবহার করার জন্য একটি LLM তৈরি করাও বোধগম্য হবে।
একটি LLM ফাইন-টিউনিং করার সময় আপনার কাছে দুটি বিকল্প রয়েছে: বিদ্যমান ওপেন-সোর্স LLM-এর সাথে যাওয়া বা বাণিজ্যিক LLM-এর API ব্যবহার করা। আপনার টিমের প্রযুক্তিগত দক্ষতা কম থাকলে একটি বাণিজ্যিক এলএলএম আরও অর্থবহ হতে পারে, যখন একটি ওপেন-সোর্স মডেল আপনাকে আরও নিয়ন্ত্রণ দেবে। এটি বলেছে, একটি এলএলএম ফাইন-টিউনিংয়ের সাথে যুক্ত ঝুঁকি রয়েছে। আপনাকে সম্ভাব্য পক্ষপাত, বিষাক্ততা এবং ডেটা সুরক্ষা এক্সপোজারগুলির জন্য নজর রাখতে হবে। অতিরিক্তভাবে, বাণিজ্যিক APIগুলি মডেলের কাস্টমাইজযোগ্যতা এবং প্রশিক্ষণ ডেটা এবং পণ্যের নিয়ন্ত্রণকে সীমাবদ্ধ করতে পারে।
আপনি সূক্ষ্ম টিউনিং করছেন বা না করছেন বা স্ক্র্যাচ থেকে একটি LLM তৈরি করতে বেছে নিচ্ছেন, জেনে রাখুন যে আপনার লক্ষ্যে পৌঁছানোর জন্য আপনাকে উল্লেখযোগ্য সংস্থান বরাদ্দ করতে ইচ্ছুক হতে হবে। স্ক্র্যাচ থেকে একটি LLM তৈরি করতে সময় এবং আর্থিক উত্সর্গের পাশাপাশি সঠিক দক্ষতার সন্ধানের জন্য বিশাল গণনা শক্তির প্রয়োজন।
উদাহরণস্বরূপ, প্রায় 175 বিলিয়ন প্যারামিটার সহ একটি বৃহৎ ভাষার মডেল, OpenAI-এর GPT-3-এর অনুমান $4.6 মিলিয়নের বেশি । ওপেনএআই মাইক্রোসফ্ট থেকে একটি সুপার কম্পিউটারে বিনিয়োগ করেছে যাতে 285,000 এর বেশি CPU কোর এবং 10,000 GPU রয়েছে। ব্লুমবার্গের ছোট ব্লুমবার্গজিপিটি মডেল, 50 বিলিয়ন প্যারামিটার সহ, এটি নির্মাণে প্রায় $2.7 মিলিয়ন খরচ হবে বলে অনুমান করা হয়েছে। এই অনুমানগুলি এই এলএলএমগুলিকে কার্যকরী করা এবং তা নিশ্চিত করার জন্য প্রয়োজনীয় মডেল পুনরাবৃত্তিকে কভার করে না।
LLM-এর বিশাল আকার কার্যকরভাবে পরিচালনা করার জন্য, এটি নিশ্চিত করা প্রয়োজন যে ডেটা পর্যাপ্তভাবে পরিষ্কার, লেবেলযুক্ত, সংগঠিত এবং দক্ষতার সাথে সংরক্ষণ করা হয়েছে। মনে রাখবেন যে ডেটা পরিচালনা এবং প্রক্রিয়াকরণ ব্যয়বহুল হতে পারে, বিশেষ করে প্রয়োজনীয় অবকাঠামো, সরঞ্জাম এবং ডেটা ইঞ্জিনিয়ার বিবেচনা করে।
একটি এলএলএমকে ফাইন-টিউনিং করা, অবশ্যই, এটি আরও ব্যবহারিক হতে পারে কারণ এটি আপনার প্রতিষ্ঠানের নিজস্ব নির্মাণের চেয়ে কম খরচ করে। একটি এলএলএম ফাইন-টিউন করার খরচ মডেলের আকার, এটিকে সূক্ষ্ম-টিউন করার জন্য ব্যবহৃত ডেটার পরিমাণ এবং ব্যবহৃত কম্পিউটিং সংস্থান সহ বিভিন্ন কারণের উপর নির্ভর করে।
একটি এলএলএম ফাইন-টিউনিং এর খরচও ব্যবহৃত নির্দিষ্ট ফাইন-টিউনিং অ্যালগরিদম দ্বারা প্রভাবিত হতে পারে এবং কিছু অ্যালগরিদম অন্যদের তুলনায় গণনাগতভাবে বেশি ব্যয়বহুল। OpenAI-এর ফাইন-টিউনিং মডেলগুলির দাম প্রতি 1,000 টোকেনে $0.0004 থেকে $0.0300 হতে পারে এবং আপনি প্রশিক্ষণের জন্য যে মডেলটি ব্যবহার করবেন তার উপর নির্ভর করবে। এবং তার পরে প্রতি 1,000 টোকেনগুলিতে প্রায় $0.0016 থেকে $0.1200 ব্যবহারের জন্য একটি অতিরিক্ত খরচ।
এটি বলেছে, বিভিন্ন ফাইন-টিউনিং কৌশলের অগ্রগতি এটি তৈরি করেছে যাতে আর্থিক এবং গণনামূলক খরচ কমানো যায়। একটি উদাহরণ হল সূক্ষ্ম-টিউন GPT-3 করার জন্য ন্যায্যতা এবং স্বচ্ছতার পদ্ধতির সাথে নীতি মূল্যায়নের আলিঙ্গন মুখের ব্যবহার । এই পদ্ধতি এবং বিটস্যান্ডবাইট লাইব্রেরি ব্যবহার করে, হাগিং ফেস প্রমাণ করেছে যে উপলব্ধ GPU মেমরির থেকে উল্লেখযোগ্যভাবে বড় একটি LLM-কে ফাইন-টিউন করা সম্ভব। আমরা এই নিবন্ধে আরও কয়েকটি পদ্ধতি নিয়ে আলোচনা করব।
এতে অবাক হওয়ার কিছু নেই যে একটি এলএলএম তৈরি এবং সূক্ষ্ম টিউন করার জন্য উন্নত প্রযুক্তিগত দক্ষতা প্রয়োজন। একজন সিনিয়র মেশিন লার্নিং প্রকৌশলী এলএলএমকে সূক্ষ্ম সুর করার জন্য প্রয়োজনীয় জ্ঞান দিয়ে সজ্জিত হবেন। যাইহোক, স্ক্র্যাচ থেকে আপনার নিজের এলএলএম সঠিকভাবে নেতৃত্ব দিতে এবং তৈরি করতে আপনার সত্যিকারের ব্যতিক্রমী মেশিন লার্নিং ইঞ্জিনিয়ারদের একটি দলের প্রয়োজন হবে। ওপেনএআই, মেটা এবং গুগল এআই-এর মতো এআই কোম্পানির নেতৃস্থানীয় বিজ্ঞানী, গবেষক এবং স্থপতিদের প্রোফাইল দেখে নিন যাতে আপনার প্রতিষ্ঠানের নিজস্ব এলএলএম তৈরি করতে আপনার দলে কী ধরনের প্রকৌশলী থাকতে হবে সে সম্পর্কে আরও ভাল ধারণা পেতে আঁচড় আপনাকে নিশ্চিত করতে হবে যে এই গবেষকদের আপনার শিল্প এবং ব্যবসা সম্পর্কে শক্তিশালী ডোমেন জ্ঞান রয়েছে।
এটা সুপরিচিত যে স্ক্র্যাচ থেকে আপনার নিজস্ব LLM তৈরি করতে প্রচুর পরিমাণে ডেটার প্রয়োজন হবে। উদাহরণস্বরূপ, LLaMA 4.6 টেরাবাইটে পৌঁছে 1.4 ট্রিলিয়ন টোকেন ধারণকারী একটি প্রশিক্ষণ ডেটাসেট ব্যবহার করেছে। LLaMA এর ছোট সংস্করণগুলিকে 1 ট্রিলিয়ন টোকেনে প্রশিক্ষণ দেওয়া হয়েছিল। জিপিটির ক্ষেত্রে ১.৫ ট্রিলিয়ন টোকেন ব্যবহার করা হয়েছে।
আপনার পদ্ধতি এবং সংস্থানগুলির উপর নির্ভর করে সূক্ষ্ম-টিউনিং এলএলএমগুলির জন্য, আপনার কম প্রয়োজন হবে৷ একটি উদাহরণ Google এর Med-PaLM 2, যা PaLM LLM থেকে সূক্ষ্ম-টিউন করা হয়েছিল। কাগজ অনুসারে, এআই টিম নির্দেশনা ফাইন-টিউনিং ব্যবহার করেছে এবং 193,000 উদাহরণের প্রয়োজন যা প্রায় 19 মিলিয়ন থেকে 39 মিলিয়ন টোকেন হবে। Med-PaLM 2 MedQA ডেটাসেটে 86.5% স্কোর করে তার পূর্বসূরির তুলনায় একটি নতুন অত্যাধুনিক সেট করেছে, যা Med-PaLM এবং PaLM-এর কর্মক্ষমতা পরিমাপ করতে ব্যবহৃত হয়েছিল।
কিন্তু ডেটা আকারের চেয়েও বেশি, কোম্পানিগুলিকে অবশ্যই নিশ্চিত করতে হবে যে তারা সঠিক ডেটা মানের ব্যবস্থা গ্রহণ করেছে কারণ "আবর্জনা ভিতরে, আবর্জনা আউট" এখনও প্রযোজ্য বৃহৎ ভাষার মডেলগুলির ক্ষেত্রেও যেগুলি প্রচুর পরিমাণে প্রশিক্ষণ ডেটা ব্যবহার করে৷
মালিকানাধীন ডেটা ব্যবহার করার সময়, আরও কার্যকরী মডেলের জন্য গুণমান এবং নৈতিকতাকে উচ্চ মানদণ্ডে রাখা হয়েছে তা নিশ্চিত করতে সংস্থাগুলিকে নিম্নলিখিত কাজগুলি বের করতে হবে:
সংস্থার লক্ষ্যগুলির উপর নির্ভর করে, একটি এলএলএমকে সূক্ষ্ম-টিউনিং আসলে যথেষ্ট হতে পারে। আপনার প্রতিষ্ঠানের প্রয়োজন অনুসারে এবং এর কর্মক্ষমতা উন্নত করার জন্য একটি LLM মানিয়ে নেওয়ার বিভিন্ন উপায় রয়েছে। যাইহোক, আমরা সর্বোত্তম পদ্ধতি নির্ধারণ করতে একটি পশ্চাদপদ পদ্ধতি অনুসরণ করার পরামর্শ দিই। এই পদ্ধতিটি একটি এলএলএমকে ফাইন-টিউনিং করার জন্য খরচ কমাতেও সাহায্য করে, কারণ আপনি এই ধাপগুলিতে যত বেশি "পিছিয়ে" যান, কৌশলগুলি তত বেশি ব্যয়বহুল হতে পারে।
এর সহজতম উপায়ে এটি ভেঙে দেওয়া যাক।
সাধারণত, একটি ফাউন্ডেশন মডেল বা এলএলএম প্রশিক্ষণের শুরু হয় মেশিন লার্নিং ইঞ্জিনিয়ারদের অ-তদারকি প্রশিক্ষণের মধ্য দিয়ে যাওয়া, তারপর এলএলএমকে সূক্ষ্ম সুর করার জন্য তত্ত্বাবধানে প্রশিক্ষণ এবং অবশেষে প্রয়োজনীয় আউটপুট পাওয়ার জন্য প্রম্পট এবং প্রম্পট টিউনিং দিয়ে। অবশ্যই, এর মধ্যে বিভিন্ন ধাপ রয়েছে, তবে আমরা এই তিনটি ধাপে আটকে থাকব।
একটি এলএলএম ফাইন-টিউনিং করার জন্য আমাদের প্রস্তাবিত পথটি পিছিয়ে যাবে। যেখানে আপনি প্রথমে প্রম্পট-টিউনিং শুরু করেন, যার মধ্যে রয়েছে প্রম্পট ইঞ্জিনিয়ারিং এবং প্রম্পট ডিবাগিং। এটি সর্বনিম্ন সম্পদ ব্যবহার করবে। যাইহোক, ধরুন LLM স্থির হয়ে যাচ্ছে বা আপনার ইচ্ছা মত পারফর্ম করছে না। সেই ক্ষেত্রে, আপনি তত্ত্বাবধানে/নির্দেশনা ফাইন-টিউনিং-এ এগিয়ে যান, যার মধ্যে RLHF, পুনরুদ্ধার-বর্ধিত প্রজন্ম, বা স্থানান্তর শেখার মতো পদ্ধতি অন্তর্ভুক্ত থাকতে পারে।
অবশেষে, যদি অন্য সব কিছু ব্যর্থ হয়, পরবর্তী পদক্ষেপটি হবে তত্ত্বাবধানহীন পদ্ধতির জন্য এবং মডেলটির প্রাক-প্রশিক্ষণের জন্য আমাদের একটি উপযুক্ত ডেটাসেট আছে তা নিশ্চিত করা।
গতিশীল পরিবেশে মোতায়েন করা বেশিরভাগ মডেলের মতো, বিল্ট বা ফাইন-টিউন করা হোক না কেন, LLM-গুলিকে নতুন ডেটার সাথে কার্যকর থাকার জন্য পুনরাবৃত্তির প্রয়োজন হয়। পুনরুক্তি হল একটি মডেলকে নতুন ডেটা বা রিফ্রেশ করা উদ্দেশ্যের সাথে রিফিটিং করা। কোম্পানিগুলিকে অবশ্যই তাজা ডেটাসেটগুলি ব্যবহার করে নিয়মিতভাবে পুনরাবৃত্তি করার জন্য শক্তিশালী প্রক্রিয়া তৈরি করতে হবে, সাধারণত পুনরাবৃত্ত, বিল্ডিং/ফাইন-টিউনিং, টেস্টিং এবং সেগুলিকে উত্পাদনে স্থাপন সহ।
যেসব কোম্পানি সফল এলএলএম তৈরি করেছে, যেমন ওপেনএআই, তারা ক্রমাগত GPT-3-এর নতুন সংস্করণ তৈরি করে। যদিও ChatGPT-এর প্রশিক্ষণ ডেটা কাট-অফ সেপ্টেম্বর 2021, OpenAI মডেলের ভবিষ্যদ্বাণী করার ক্ষমতা উন্নত করতে, পক্ষপাত কমাতে এবং কম ক্ষতি করতে ব্যবহারকারীর আচরণ থেকে নতুন ডেটা ব্যবহার করে।
একটি এলএলএম তৈরি করা বা ফাইন-টিউনিং করা অর্থপূর্ণ হবে কিনা তার জন্য আপনার ব্যবসার উদ্দেশ্যও একটি গুরুত্বপূর্ণ বিষয়। কোম্পানীর বৃহত্তর কৌশলগত দৃষ্টিভঙ্গির সাথে LLM-এর ক্ষমতাগুলি কীভাবে কাজ করে তা বিবেচনা করুন। এইভাবে, আপনি এই শক্তিশালী সরঞ্জামগুলিকে তাদের মূল ব্যবসায়িক উদ্দেশ্যগুলিতে মনোনিবেশ করার সময় তাদের পূর্ণ সম্ভাবনার জন্য ব্যবহার করেন। এই নিবন্ধের শীর্ষে উল্লিখিত শিল্পগুলিতে কিছু উদাহরণ উদ্ধৃত করা হয়েছে, কিন্তু এখন আসুন কিছু কাজ নিয়ে আলোচনা করা যাক যেগুলি এলএলএমগুলি এক্সেল করে এবং বিভিন্ন শিল্পের জন্য তাদের কৌশলগত প্রভাব:
আপনি একটি LLM নির্মাণ বা ফাইন-টিউনিং করুন না কেন, সঠিক LLM নির্বাচন করা প্রায়শই প্রথম পদক্ষেপ। হ্যাঁ, এমনকি একটি এলএলএম তৈরির জন্য, এটি একটি সাধারণ মডেলের আর্কিটেকচারের দিকে নজর দেওয়া এবং সেখান থেকে শুরু করা সাধারণ। আপনার পছন্দ যাই হোক না কেন, দলগুলিকে অবশ্যই তাদের সেরা সূচনা পয়েন্ট খুঁজে পেতে বেশ কয়েকটি মডেলের সাথে পরীক্ষা এবং মূল্যায়ন করতে হবে।
এলএলএম-এর মূল্যায়নও তার নিজস্ব চ্যালেঞ্জের সাথে আসে। সর্বোপরি, এটি এখনও গবেষণার একটি চলমান ক্ষেত্র, তাই এই মডেলগুলির মূল্যায়নের কোনও কঠোর মানককরণ বা পদ্ধতিগতকরণ নেই।
অবশ্যই, HuggingFace-এর মতো সম্প্রদায়ের দ্বারা সেট করা লিডারবোর্ড রয়েছে, যা আপনাকে একটি সাধারণ ধারণা দিতে পারে যে একটি মডেল কতটা ভালো পারফর্ম করবে। কিন্তু লিডারবোর্ডে যা ভালো পারফর্ম করতে পারে তা আপনার নির্দিষ্ট ব্যবহারের ক্ষেত্রে সহজে অনুবাদ নাও করতে পারে। এলএলএমগুলি প্রায়শই বেঞ্চমার্ক ডেটাসেটে মূল্যায়ন করা হয়, তবে তাদের কার্যকারিতা সঠিকভাবে প্রতিফলিত নাও হতে পারে যে তারা বাস্তব-বিশ্বের পরিস্থিতিতে কীভাবে কাজ করবে, যা অনেক বেশি বৈচিত্র্যময় এবং অপ্রত্যাশিত হতে পারে।
বৃহৎ ভাষা মডেলের মূল্যায়ন করার জন্য দুটি পন্থা রয়েছে: একটি পরিমাণগত এবং একটি গুণগত পদ্ধতি। দুজনেই তাদের সতর্কতা নিয়ে আসে।
পরিমাণগত মূল্যায়নে প্রায়শই মেশিন লার্নিং মেট্রিক্স যেমন বিভ্রান্তি, BLEU, ক্রস-এনট্রপি লস ইত্যাদি জড়িত থাকে। ওপেনএআই ইভাল লাইব্রেরি, এলএম-ইভাল পাইথন প্যাকেজ EleutherAI-এর মতো টুল এবং ল্যাংগুয়েজ মডেলের হোলিস্টিক ইভালুয়েশন (HELM) ব্যবহারকারীদের তাদের মূল্যায়ন করতে দেয়। পরিমাণগতভাবে অসংখ্য বেঞ্চমার্কের মডেল।
যদিও পরিমাণগত মূল্যায়ন সহজবোধ্য, এই মেট্রিকগুলি ব্যবহারকারীদের তাদের নির্দিষ্ট কাজের জন্য একটি উপযুক্ত মডেল নির্বাচন করতে অগত্যা সাহায্য করতে পারে না। ব্যবহারকারীদের প্রায়শই এমন একটি মডেলের প্রয়োজন হয় যা তাদের নির্দিষ্ট কাজের ক্ষেত্রে পারদর্শী হয়, যেমন একটি আইনি নথির খসড়া তৈরি করা বা একটি কোম্পানির আর্থিক প্রতিবেদন বিশ্লেষণ করা, এমন একটি মডেলের পরিবর্তে যা সর্বোচ্চ নির্ভুলতার সাথে পরবর্তী টোকেনের পূর্বাভাস দিতে পারে।
গুণগত মূল্যায়নে সমন্বয়, পক্ষপাত, সৃজনশীলতা এবং নির্ভরযোগ্যতার মতো মানদণ্ড ব্যবহার করে নির্দিষ্ট কাজের উপর ভিত্তি করে এলএলএম মূল্যায়ন জড়িত। এই ম্যানুয়াল মূল্যায়ন তুলনামূলকভাবে ধীর কারণ মানুষের মূল্যায়নকারীদের গতি এবং প্রাপ্যতা এটিকে বাধাগ্রস্ত করতে পারে। যাইহোক, ডেটা লেবেলিং-এ একই অটোমেশন কৌশল প্রয়োগ করে প্রক্রিয়াটিকে অপ্টিমাইজ করা সম্ভব: সক্রিয় শিক্ষা, প্রোগ্রামেটিক QA, অটো QA ইত্যাদি।
আপনার কোম্পানির নির্দিষ্ট ডেটাসেট ব্যবহার করে পরিমাণগত এবং গুণগত উভয় মূল্যায়নের সংমিশ্রণকে সূক্ষ্ম-টিউন বা বেস-অন করার জন্য সেরা LLM খুঁজে বের করার পরামর্শ দেওয়া হবে।
কম্পিউট বাজেট প্রসারিত হওয়ার সাথে সাথে ডেটাসেটের আকারের তুলনায় মডেলের আকার বাড়ানোর উপর ফোকাস করার জন্য মেশিন লার্নিং-এ স্কেলিং আইন ব্যবহৃত হয়। এটি ধারণার অধীনে ছিল যে বৃহত্তর মডেলগুলি আরও অন্তর্দৃষ্টি বের করতে পারে এবং ডেটার পরিমাণ স্থির থাকলেও আরও ভাল কার্য সম্পাদন করতে পারে।
কিন্তু 2022 সালে, ডিপমাইন্ড এই পদ্ধতিকে চ্যালেঞ্জ করেছিল , পরামর্শ দিয়েছিল যে মডেলগুলি সাধারণত কম প্রশিক্ষণপ্রাপ্ত হয় এবং তাই, ডেটাসেটের আকার মডেলের আকারের পাশাপাশি বৃদ্ধি করা উচিত। ডিপমাইন্ডের অনুসন্ধান অনুসারে, কম্পিউটিং শক্তিতে প্রতি দশগুণ বৃদ্ধির জন্য মডেল এবং ডেটাসেটের আকার প্রায় তিনগুণ বৃদ্ধি করা উচিত। এটি বোঝায় যে বর্তমান মডেলগুলি সর্বোত্তম ডেটা/কম্পিউট বক্ররেখার নীচে রয়েছে এবং কেবলমাত্র সেগুলিকে বড় করা ডেটার সাথে বৃদ্ধি ছাড়া ভাল ফলাফল দেবে না।
এই নতুন স্কেলিং আইনগুলি উপলব্ধ তথ্যের উপর ভিত্তি করে প্রথমে সর্বোচ্চ উচ্চ-মানের ডেটাসেটের আকার নির্ধারণ করার সুপারিশ করে। তারপর, ডিপমাইন্ড-এর ডেটা-অনুকূল স্কেলিং আইন ব্যবহার করে উপলব্ধ গণনার উপর ভিত্তি করে সেই ডেটাসেটের জন্য সর্বোত্তম মডেলের আকার বেছে নেওয়া যেতে পারে। মডেলগুলিকে ইচ্ছামত বড় না করে ডেটার উপর ভিত্তি করে সঠিক ভারসাম্য খুঁজে বের করা অপরিহার্য। অধিকন্তু, বৃহত্তর ডেটাসেটগুলি সংগ্রহ করার জন্য দক্ষতার প্রয়োজন এবং সাধারণীকরণের উন্নতির জন্য বৈচিত্র্যের প্রয়োজন, যা প্রক্রিয়াটিতে জটিলতার আরেকটি স্তর যুক্ত করে।
আপনি ফাইন-টিউনিং করুন বা একটি LLM তৈরি করুন না কেন, মডেলগুলি কেবলমাত্র তাদের দেওয়া ডেটার মতোই ভাল হবে৷ তাই আপনার ডেটা অবশ্যই প্রতিনিধিত্বশীল এবং ব্যাপকভাবে প্রিপ্রসেসড হতে হবে। ডাটা উৎসের বৈচিত্র্য এমনকি ডোমেন-নির্দিষ্ট এলএলএম-এর জন্যও উপকারী।
উদাহরণ স্বরূপ, Google-এর Med-PaLM 2 মডেলটিকে সঠিকভাবে সূক্ষ্মভাবে তৈরি করার জন্য বেশ কয়েকটি স্বাস্থ্য ও চিকিৎসা QA ডেটাসেট থেকে শত শত থেকে হাজার হাজার উদাহরণের প্রয়োজন। এবং ব্লুমবার্গজিপিটি তৈরি করার জন্য, তিনি ব্যবহৃত ডেটাসেট মিশ্রণটি 51% আর্থিক ডেটা এবং 49% সাধারণ ডোমেন ডেটা সাময়িক বৈচিত্র্যের জন্য ব্যবহার করেছিলেন । উভয় ক্ষেত্রেই, গবেষকরা কার্যকর মডেল তৈরি করতে উচ্চ-মানের এবং প্রাসঙ্গিক ডেটা ব্যবহার করা হয়েছে তা নিশ্চিত করার জন্য ব্যাপক ডেটা কিউরেশন করেছেন।
এলএলএম তৈরি বা ফাইন-টিউনিং করার ক্ষেত্রে কোনও সরাসরি পথ নেই। বেশিরভাগ মেশিন লার্নিং বা AI প্রচেষ্টার মতো, ছোট থেকে শুরু করা সর্বদা একটি ভাল পরিমাপ । একটি ছোট ডেটাসেটে একটি ছোট মডেল দিয়ে শুরু করা পরীক্ষাকে সহজ করে তুলবে৷ মডেল আর্কিটেকচারে ক্রমবর্ধমান পরিবর্তনগুলি পুনরাবৃত্তি করা এবং প্রবর্তন করা, যেমন প্রস্থ, গভীরতা, স্প্যার্সিটি ইত্যাদি, আপনার দলের পক্ষে তাদের প্রভাব মূল্যায়ন করা সহজ করে তুলবে৷ আপনি পুরানো বিদ্যমান মডেলগুলি দিয়ে শুরু করতে পারেন, সেগুলিকে আপনার প্রয়োজনের সাথে সামঞ্জস্য করতে পারেন এবং সেখান থেকে শুরু করতে পারেন৷ একবার আপনার ছোট মডেলটি ভালভাবে কাজ করলে, আপনি ধীরে ধীরে মডেল এবং ডেটাসেটের আকার বাড়াতে পারেন।
একটি ফলব্যাক প্রয়োজন হলে ব্যাকআপ হিসাবে আপনার মডেলের স্ন্যাপশটগুলি সংরক্ষণ করতে ভুলবেন না৷ আপনি বিল্ডিং বা ফাইন-টিউনিং করুন না কেন বিপত্তি অনিবার্য হবে, তাই সমস্যাগুলির পূর্বাভাস করা গুরুত্বপূর্ণ।
এটি আমাদের অস্থিরতা প্রশমনের সমালোচনামূলক সময় বাঁচানোর অনুশীলনের দিকে নিয়ে যায়। মডেল যত বড়, রক্ষণাবেক্ষণ করা তত কঠিন। ওভারফিটিং এবং আন্ডারফিটিং এর বাইরে, আপনার মডেলটি অদৃশ্য হয়ে যাওয়া বা বিস্ফোরিত গ্রেডিয়েন্ট, মোডের পতন, ক্ষতির স্পাইক, বিপর্যয়কর ভুলে যাওয়া এবং হার্ডওয়্যার সীমাবদ্ধতার মতো সমস্যাগুলির মধ্য দিয়ে যেতে পারে।
আমরা ইতিমধ্যেই বিপর্যয়কর ভুলে যাওয়া নিয়ে আলোচনা করেছি, যেটি ঘটে যখন একটি মডেল একটি নতুন ধরনের টাস্ক প্রবর্তনের পরে একটি পূর্ববর্তী টাস্কে খারাপ করে। অদৃশ্য হওয়া বা বিস্ফোরিত গ্রেডিয়েন্টগুলি গভীর নিউরাল নেটওয়ার্কের প্রশিক্ষণে সাধারণ সমস্যা, যেখানে গ্রেডিয়েন্টগুলি খুব ছোট বা খুব বড় হয়ে যায়, যার ফলে শেখার প্রক্রিয়াটি মন্থর বা অস্থিরতা দেখা দেয়। মোড পতন জেনারেটিভ মডেলগুলিতে ঘটে এবং ঘটে যখন মডেলটি বিভিন্ন ইনপুট থাকা সত্ত্বেও একই আউটপুট তৈরি করে। লস স্পাইক মডেল থেকে ক্রমবর্ধমান দুর্বল ভবিষ্যদ্বাণী উল্লেখ করে। এবং অবশেষে, LLM-এর সাথে কাজ করা হার্ডওয়্যারের জন্য চ্যালেঞ্জিং হতে পারে এবং এর ফলে ব্যর্থতা হতে পারে।
আপনি প্রস্তুত করতে পারেন বা অন্ততপক্ষে, অস্থিরতা প্রশমিত করতে পারেন এমন বিভিন্ন উপায় রয়েছে। এগুলি যুগান্তকারী নয়, তবে সাধারণ অনুশীলন যা আপনি বিভিন্ন গভীর শিক্ষার অ্যাপ্লিকেশনগুলিতেও দেখতে পারেন:
ব্যাচের আকার - সাধারণত আপনার GPU মেমরির সাথে মানানসই সবচেয়ে বড় ব্যাচের আকার ব্যবহার করার পরামর্শ দেওয়া হয়। বৃহত্তর ব্যাচের মাপ গণনীয় দক্ষতা, মেমরি ব্যবহার এবং সম্ভাব্য আরও সঠিক গ্রেডিয়েন্ট অনুমানের ক্ষেত্রে সুবিধা প্রদান করে। তারা GPU গুলির সমান্তরাল প্রক্রিয়াকরণ ক্ষমতাগুলি আরও ভালভাবে ব্যবহার করতে পারে, যার ফলে দ্রুত প্রশিক্ষণের সময় হয়।
নিয়মিতকরণের কৌশলগুলি ব্যবহার করুন — নিয়মিতকরণের কৌশলগুলি যেমন ড্রপআউট এবং ওজন ক্ষয় অতিরিক্ত ফিটিং বা মডেলের অস্থিরতা প্রতিরোধে সাহায্য করতে পারে।
ব্যাচ স্বাভাবিকীকরণ — ব্যাচ স্বাভাবিকীকরণ অভ্যন্তরীণ কোভেরিয়েট শিফট কমাতে সাহায্য করতে পারে, যা প্রশিক্ষণের সময় দ্রুত এবং আরও স্থিতিশীল একত্রিত হওয়ার অনুমতি দেয়। নেটওয়ার্কের মাধ্যমে গ্রেডিয়েন্টগুলি আরও মসৃণভাবে প্রবাহিত হয় তা নিশ্চিত করে এটি অদৃশ্য হয়ে যাওয়া গ্রেডিয়েন্ট সমস্যা দূর করতেও সাহায্য করে।
সঠিক ওজন প্রারম্ভিকতা নির্বাচন করা — ওজন প্রারম্ভিকতা প্রশিক্ষণের অস্থিরতা প্রশমিত করতে এবং কার্যকর শিক্ষা নিশ্চিত করতে একটি গুরুত্বপূর্ণ ভূমিকা পালন করে। ওজন শুরু করার একটি সাধারণ পদ্ধতি হল ছোট গাউসিয়ান শব্দ ব্যবহার করা। এর মধ্যে শূন্যের গড় এবং একটি ছোট স্ট্যান্ডার্ড বিচ্যুতি সহ গাউসিয়ান ডিস্ট্রিবিউশন থেকে এলোমেলোভাবে ওজন শুরু করা জড়িত। এলোমেলো শব্দ যোগ করে, ওজনগুলিকে প্রাথমিক বৈচিত্র্য দেওয়া হয়, যা মডেলটিকে প্রশিক্ষণের সময় বিভিন্ন সমাধান অন্বেষণ করতে সক্ষম করে।
ডেটা অগমেন্টেশন — যদি আপনার মডেলটি সাধারণীকরণের জন্য লড়াই করে এবং অতিরিক্ত ফিটিং প্রবণ হয়, তবে ডেটা পরিবর্ধন প্রশিক্ষণের ডেটার বিভিন্নতা প্রবর্তন করে এবং মডেলের দৃঢ়তা উন্নত করে এটি প্রশমিত করতে সহায়তা করতে পারে।
শেখার হার নির্ধারণ — আপনার ক্ষতি কমাতে এবং যতটা সম্ভব মডেলের স্থিতিশীলতা বজায় রাখতে সময়ের সাথে সাথে আপনার শেখার হার ধীরে ধীরে হ্রাস করুন। আপনি ধাপ ক্ষয় বা সূচকীয় ক্ষয় ব্যবহার করতে পারেন। ধাপ ক্ষয় হল যখন আপনি নিয়মিত ব্যবধানে একটি ফ্যাক্টর দ্বারা শেখার হার হ্রাস করেন, যখন সূচকীয় ক্ষয় তাত্ক্ষণিকভাবে শেখার হার হ্রাস করে।
যেহেতু ব্যবসাগুলি LLM-এর প্রভাবগুলি উপলব্ধি করতে থাকে, এটি কেবলমাত্র বোধগম্য হয় যে কোম্পানিগুলি জিজ্ঞাসা করা শুরু করে যে এই মূল্যবান সরঞ্জামটি ব্যবহার করার সর্বোত্তম উপায় কী। সঠিক এলএলএম বেছে নেওয়া এবং আপনার কোম্পানির প্রয়োজন অনুসারে এটিকে ফাইন-টিউন করা সহজ বিকল্প হতে পারে। যাইহোক, এটি এখনও কার্যকরভাবে এবং সম্ভাব্য সবচেয়ে কার্যকর উপায়ে মডেলটিকে সূক্ষ্ম-টিউন করার জন্য বিভিন্ন বিবেচনার সাথে জড়িত থাকবে।
প্রথমত, সেরা সূচনা বিন্দু বেছে নিতে আপনার দলকে অবশ্যই বিভিন্ন ধরনের এলএলএম সঠিকভাবে মূল্যায়ন করতে হবে। তারা মডেল সঙ্গে পরীক্ষা সঙ্গে আরামদায়ক হওয়া উচিত. দক্ষ হওয়ার জন্য, তাদের উচ্চ-মানের ডেটা এবং সর্বোত্তম অনুশীলনের প্রয়োজন হয় কারণ তারা একটি LLM তৈরি বা সূক্ষ্ম-টিউন করার জন্য একটি কৌশল তৈরি করে।
এটি একটি জটিল এবং উচ্চাভিলাষী প্রজেক্ট যেভাবেই হোক আপনি বেছে নিন, কিন্তু আমরা ইতিমধ্যে দেখেছি, এলএলএম-এর মূল্য আনতে চিত্তাকর্ষক সম্ভাবনা রয়েছে।