ঠিক আছে, ChatGPT প্রকাশের পর এক বছরেরও বেশি সময় হয়ে গেছে। এই টার্নিং পয়েন্টের আগে, গবেষণা সম্প্রদায় এবং শিল্পের নেতারা ইতিমধ্যেই সক্রিয়ভাবে জেনারেটিভ AI-তে কাজ করছিল, বিশেষ করে কম্পিউটার ভিশনের ক্ষেত্রে, স্থিতিশীল বিস্তার অনুসন্ধান এবং অ্যাপ্লিকেশনগুলির একটি সিরিজ সহ। সংক্ষিপ্তভাবে বলতে গেলে, 2022কে স্থিতিশীল বিস্তারের বছর এবং 2023কে বড় ভাষা মডেলের (LLMs) বছর হিসেবে বিবেচনা করা যেতে পারে।
2023 সালের শুরুতে LLM-এর আধিপত্য চিহ্নিত করা হয়েছে, যেখানে ChatGPT ব্যাপক গ্রহণ ও উদ্ভাবনের ক্ষেত্রে নেতৃত্ব দিচ্ছে। এই বছর এলএলএমগুলি বিভিন্ন সেক্টরে ব্যাপক হয়ে উঠতে দেখেছে, কার্যকরভাবে তাত্ত্বিক গবেষণা এবং ব্যবহারিক শিল্প অ্যাপ্লিকেশনের মধ্যে ব্যবধান পূরণ করেছে। আসুন 2023 সালে এলএলএম ল্যান্ডস্কেপকে রূপদানকারী মূল মাইলফলক এবং প্রবণতাগুলি অন্বেষণ করি, তারা কীভাবে প্রযুক্তির সাথে আমাদের মিথস্ক্রিয়াকে বৈপ্লবিক পরিবর্তন করেছে সে সম্পর্কে কিছু অন্তর্দৃষ্টিও রয়েছে।
ওপেন সোর্স এলএলএম এর বছর
2023 সালে, আমরা ওপেন সোর্স লার্জ ল্যাঙ্গুয়েজ মডেলের (LLMs) জন্য একটি উল্লেখযোগ্য বছর প্রত্যক্ষ করেছি। সবচেয়ে উল্লেখযোগ্য রিলিজ ছিল মেটা-র LLaMa সিরিজ, যা পরবর্তীতে ঘন ঘন রিলিজের নজির স্থাপন করে, প্রতি মাসে, সপ্তাহে এবং কখনও কখনও প্রতিদিন নতুন মডেলের আবির্ভাব ঘটে। Meta, EleutherAI, MosaicML, TIIUAE, এবং StabilityAI এর মত মূল খেলোয়াড়রা পাবলিক ডেটাসেটে প্রশিক্ষিত বিভিন্ন মডেল প্রবর্তন করেছে, যা এআই সম্প্রদায়ের বিভিন্ন চাহিদা পূরণ করে। এই মডেলগুলির বেশিরভাগই ছিল ডিকোডার-অনলি ট্রান্সফরমার, যা ChatGPT দ্বারা প্রতিষ্ঠিত প্রবণতা অব্যাহত রাখে। এই বছর প্রকাশিত সবচেয়ে উল্লেখযোগ্য মডেলগুলির মধ্যে কয়েকটি এখানে রয়েছে:
মেটা দ্বারা LLaMa: LLaMa পরিবারে বিভিন্ন আকারের মডেল রয়েছে, যেখানে 1.4 ট্রিলিয়ন টোকেনগুলিতে প্রশিক্ষিত 65 বিলিয়ন প্যারামিটার নিয়ে গর্বিত সবচেয়ে বড় মডেল রয়েছে৷ উল্লেখযোগ্যভাবে, ছোট মডেলগুলি, বিশেষ করে 13 বিলিয়ন প্যারামিটার সহ একটি, 1 ট্রিলিয়ন টোকেনে প্রশিক্ষিত, আরও ডেটার উপর বর্ধিত প্রশিক্ষণ সময়কালের সুবিধার মাধ্যমে উচ্চতর কর্মক্ষমতা প্রদর্শন করেছে, এমনকি কিছু বেঞ্চমার্কে বড় মডেলগুলিকে ছাড়িয়ে গেছে। 13B LLaMa মডেলটি বেশিরভাগ বেঞ্চমার্কে GPT-3কে ছাড়িয়ে গেছে এবং সবচেয়ে বড় মডেলটি প্রকাশের পর নতুন অত্যাধুনিক পারফরম্যান্স বেঞ্চমার্ক সেট করেছে।
এলিউথার এআই দ্বারা পাইথিয়া: Pythia 154টি আংশিকভাবে প্রশিক্ষিত চেকপয়েন্ট সহ 16 মডেলের একটি স্যুট নিয়ে গঠিত, যা খোলাখুলিভাবে অ্যাক্সেসযোগ্য এবং স্বচ্ছভাবে প্রশিক্ষিত এলএলএমগুলির উপর নিয়ন্ত্রিত বৈজ্ঞানিক গবেষণার সুবিধার্থে ডিজাইন করা হয়েছে। এই সিরিজটি এলএলএম প্রশিক্ষণের জন্য বিস্তারিত কাগজপত্র এবং একটি ব্যাপক কোডবেস প্রদান করে গবেষকদের ব্যাপকভাবে সাহায্য করে।
MosaicML দ্বারা MPTএবংTIIUAE দ্বারা ফ্যালকন সিরিজ: উভয়কেই 1T থেকে 1.5T টোকেন পর্যন্ত ডেটা উত্সের বিভিন্ন পরিসরে প্রশিক্ষণ দেওয়া হয়েছিল এবং 7B এবং 30B প্যারামিটার সহ সংস্করণ তৈরি করা হয়েছিল। উল্লেখযোগ্যভাবে, বছরের শেষের দিকে, TIIUAE একটি 180B মডেল প্রকাশ করেছে, যা এখন পর্যন্ত সবচেয়ে বড় ওপেন সোর্স মডেল।
মিস্ট্রাল,ফিএবংওরকা: এই মডেলগুলি 2023 সালে আরেকটি প্রবণতা তুলে ধরে, সীমিত হার্ডওয়্যার এবং বাজেটের সীমাবদ্ধতার জন্য উপযুক্ত ছোট এবং আরও দক্ষ মডেলের প্রশিক্ষণের উপর দৃষ্টি নিবদ্ধ করে, যা এআই মডেলের বিকাশে অ্যাক্সেসযোগ্যতা এবং ব্যবহারিকতার দিকে একটি উল্লেখযোগ্য পরিবর্তন চিহ্নিত করে।
ছোট এবং দক্ষ মডেল
2023 সালে, আমরা অসংখ্য ছোট এবং দক্ষ মডেল প্রকাশের সাক্ষী হয়েছি। এই প্রবণতার প্রাথমিক কারণ হল বেশিরভাগ গবেষণা গোষ্ঠীর জন্য বড় মডেলের প্রশিক্ষণের নিষেধমূলকভাবে উচ্চ খরচ। অতিরিক্তভাবে, বড় মডেলগুলি প্রায়শই তাদের ব্যয়বহুল প্রশিক্ষণ এবং স্থাপনার খরচ, সেইসাথে তাদের উল্লেখযোগ্য মেমরি এবং গণনাগত শক্তির প্রয়োজনীয়তার কারণে অনেক বাস্তব-বিশ্বের অ্যাপ্লিকেশনের জন্য অনুপযুক্ত। অতএব, ছোট এবং দক্ষ মডেলগুলি বছরের অন্যতম প্রধান প্রবণতা হিসাবে আবির্ভূত হয়েছে। আগেই উল্লেখ করা হয়েছে, মিস্ট্রাল এবং ওরকা সিরিজ এই প্রবণতার মূল খেলোয়াড়। মিস্ট্রাল একটি 7B মডেল দিয়ে সম্প্রদায়কে অবাক করেছে যা বেশিরভাগ বেঞ্চমার্কে তার বৃহত্তর সমকক্ষগুলিকে ছাড়িয়ে গেছে, যখন Phi সিরিজটি আরও ছোট, শুধুমাত্র 1.3B থেকে 2.7B প্যারামিটার সহ, তবুও এটি চিত্তাকর্ষক কর্মক্ষমতা প্রদান করে।
আরেকটি উদ্ভাবনী পদ্ধতি হলOrca 2: ছোট ভাষা শেখানো মডেল কিভাবে যুক্তি , যা একটি বৃহত্তর মডেল, যেমন GPT-4 থেকে একটি ছোট মডেল থেকে জ্ঞান পাতন করে। পূর্ববর্তী গবেষণার বিপরীতে যা প্রাথমিকভাবে বড় মডেলের আউটপুট প্রতিলিপি করার জন্য অনুকরণ শেখার উপর নির্ভর করে, Orca 2-এর লক্ষ্য "ছোট" LLM, বিশেষ করে 7B এবং 13B প্যারামিটার সহ বিভিন্ন যুক্তি পদ্ধতি, যেমন ধাপে ধাপে বিশ্লেষণ এবং প্রত্যাহার করা। -তারপর কৌশল তৈরি করুন। এই পদ্ধতিটি এই মডেলগুলিকে প্রতিটি কাজের জন্য সবচেয়ে উপযুক্ত পদ্ধতি সনাক্ত করতে এবং প্রয়োগ করতে দেয়, Orca 2কে একই আকারের মডেলগুলিকে উল্লেখযোগ্যভাবে ছাড়িয়ে যেতে এবং এমনকি 5 থেকে 10 গুণ বড় মডেলগুলির সাথে প্রতিযোগিতা করতে সক্ষম করে।
ছোট এবং দক্ষ মডেলগুলির সাফল্য মূলত ডেটা গুণমান এবং দ্রুত মনোযোগের কৌশলগুলির উপর নির্ভর করে। যদিও মিস্ট্রাল তার প্রশিক্ষণের তথ্যের সুনির্দিষ্ট তথ্য প্রকাশ করেনি, বিভিন্ন গবেষণা এবং মডেলগুলি দেখিয়েছে যে কার্যকর মডেলের প্রশিক্ষণের জন্য ডেটা গুণমান অত্যন্ত গুরুত্বপূর্ণ। এই বছরের সবচেয়ে উল্লেখযোগ্য ফলাফলগুলির মধ্যে একটিলিমা: "সারিবদ্ধতার জন্য কম বেশি" , যা দেখায় যে শুধুমাত্র 1,000টি প্রশিক্ষণ উদাহরণ সমন্বিত একটি মানব-উত্পাদিত, উচ্চ-মানের ডেটাসেট 50,000 ChatGPT-উত্পাদিত প্রতিক্রিয়াগুলিতে একই মডেলের ফাইন-টিউনিংকে ছাড়িয়ে যাওয়ার জন্য ফাইন-টিউনিংয়ের জন্য ব্যবহার করা যেতে পারে।
নিম্ন-র্যাঙ্ক অভিযোজন টিউনিং
ঠিক আছে, এর সম্পর্কে কথা বলা যাকLoRA , যা গত বছর প্রবর্তিত প্যারামিটার-দক্ষ ফাইন-টিউনিং পদ্ধতিগুলির মধ্যে উজ্জ্বল নক্ষত্র হিসাবে উজ্জ্বল হয়েছে৷ নিম্ন-র্যাঙ্ক অ্যাডাপ্টেশন (LoRA) দক্ষতার সাথে সূক্ষ্ম-টিউনিং এলএলএমগুলির জন্য একটি গেম-চেঞ্জার হিসাবে আবির্ভূত হয়েছে। প্রাক-প্রশিক্ষিত মডেলগুলিতে নিম্ন-র্যাঙ্ক ম্যাট্রিক্সের আনুমানিকতা প্রবর্তন করে, LoRA প্যারামিটার-দক্ষ ফাইন-টিউনিংয়ের জন্য অনুমতি দেয়, উল্লেখযোগ্যভাবে গণনামূলক লোড এবং স্টোরেজ প্রয়োজনীয়তা হ্রাস করে। এই পদ্ধতিটি শুধুমাত্র সম্পদ সংরক্ষণ করে না কিন্তু বেস মডেলের মূল ক্ষমতার সাথে আপস না করে বিভিন্ন অ্যাপ্লিকেশনের জন্য কাস্টমাইজেশন সক্ষম করে।
LoRA মূলত হিমায়িত প্রাক-প্রশিক্ষিত মডেল ওজন এবং প্রশিক্ষনযোগ্য স্তরগুলি ইনজেকশন ( র্যাঙ্ক-ডিকপোজিশন ম্যাট্রিক্স )। এই ম্যাট্রিক্সগুলি কমপ্যাক্ট তবুও মডেলের আচরণের প্রয়োজনীয় অভিযোজনগুলি আনুমানিক করতে সক্ষম, মূল মডেলের জ্ঞানের অখণ্ডতা বজায় রেখে দক্ষ সূক্ষ্ম-টিউনিংয়ের অনুমতি দেয়। LoRA এর সর্বাধিক ব্যবহৃত বৈকল্পিকগুলির মধ্যে একটিQLoRA (কোয়ান্টাইজড লো-র্যাঙ্ক অ্যাডাপশন) . এটি নিম্ন-র্যাঙ্কের ম্যাট্রিক্সের পরিমাপ করে ভ্যানিলা LoRA-এর মেমরি কার্যকরী সংস্করণ। এই পদ্ধতিটি মেমরির পদচিহ্ন না বাড়িয়ে এবং কম কম্পিউটেশনাল-ইনটেনসিভ না করে ফাইন-টিউনিং প্রক্রিয়ায় নিম্ন-র্যাঙ্ক ম্যাট্রিক্স ব্যবহারের অনুমতি দেয়।
বিশেষজ্ঞদের মিশ্রণ
দ্যবিশেষজ্ঞদের মিশ্রণ (MoE) পদ্ধতি গত বছর এলএলএম আর্কিটেকচারে একটি উল্লেখযোগ্য লাফের প্রতিনিধিত্ব করে। MoE হল একটি দীর্ঘ-ইতিহাস মেশিন লার্নিং দৃষ্টান্ত যা জটিল সমস্যাগুলিকে ছোট, আরও পরিচালনাযোগ্য উপ-সমস্যাগুলিতে বিভক্ত করে সরল করে, প্রতিটিকে একটি বিশেষ উপ-মডেল বা "বিশেষজ্ঞ" দ্বারা সম্বোধন করা হয়। এটি বিশেষজ্ঞদের একটি দল থাকার অনুরূপ, যেখানে প্রতিটি সদস্য একটি নির্দিষ্ট ডোমেনে দক্ষতা অর্জন করে। একটি MoE মডেলে, প্রতিটি বিশেষজ্ঞ ডেটা বা কাজের একটি নির্দিষ্ট উপসেটে মনোনিবেশ করেন। প্রদত্ত ইনপুটের জন্য কোন বিশেষজ্ঞ ব্যবহার করবেন তার সিদ্ধান্ত একটি "গেটিং মেকানিজম" দ্বারা তৈরি করা হয়, যা একজন ট্রাফিক পরিচালক হিসাবে কাজ করে, সবচেয়ে উপযুক্ত বিশেষজ্ঞের কাছে কাজগুলি রাউটিং করে৷ এই পদ্ধতিটি MoE মডেলগুলিকে দক্ষতার সাথে এবং সঠিকভাবে কাজগুলির বিস্তৃত বর্ণালী পরিচালনা করতে দেয়। MoE বিশেষভাবে উপকারী কারণ এটি বিভিন্ন মডেলের শক্তিকে একত্রিত করে, যা জটিল কাজগুলিতে বর্ধিত কর্মক্ষমতার দিকে পরিচালিত করে যা একটি একক, অভিন্ন মডেলের পক্ষে সমাধান করা কঠিন হতে পারে। এটি আপনার নিষ্পত্তিতে বিশেষজ্ঞদের একটি দল থাকার সাথে তুলনীয়, এটি নিশ্চিত করে যে সমস্যার প্রতিটি দিক প্রয়োজনীয় বিশেষজ্ঞের দ্বারা পরিচালিত হয়, আরও পরিমার্জিত এবং কার্যকর সমাধান দেয়।
গত বছর প্রকাশিত সবচেয়ে উল্লেখযোগ্য MoE মডেলগুলির মধ্যে একটিMixtral-8x-7B , যা MoE পদ্ধতি ব্যবহার করে, 7B প্যারামিটার সহ আটটি ছোট মডেলকে একত্রিত করে চিত্তাকর্ষক কর্মক্ষমতা অর্জন করেছে। এছাড়াও গুজব রয়েছে যে GPT-4 একটি MoE মডেল হতে পারে, যার মধ্যে আটটি বিশেষজ্ঞ মডেল রয়েছে, যার প্রতিটিতে 220 বিলিয়ন প্যারামিটার রয়েছে।
ভাষা থেকে সাধারণ ফাউন্ডেশন মডেল পর্যন্ত
এলএলএমগুলি সাধারণ ভিত্তি মডেলে বিকশিত হচ্ছে, ভাষা প্রক্রিয়াকরণের বাইরে তাদের ক্ষমতা প্রসারিত করছে। এই রূপান্তরটি এমন মডেলগুলির দিকে একটি পরিবর্তনকে নির্দেশ করে যা কেবল পাঠ্যই নয় কোড, ভিজ্যুয়াল সামগ্রী, অডিও এবং আরও অনেক কিছু বুঝতে এবং তৈরি করতে পারে৷ গত বছর, আমরা মডেলের প্রচলন দেখেছিLLaVA এবং দৃষ্টির জন্য GPT-4, যা ভিজ্যুয়াল বিষয়বস্তু বোঝার জন্য চিত্তাকর্ষক ক্ষমতা প্রদান করেছে। এটি সাধারণ ভিত্তি মডেলের ক্ষেত্রে প্রতিশ্রুতিশীল গবেষণার জন্ম দিয়েছে। অদূর ভবিষ্যতে, সাধারণ ভিত্তি মডেলগুলি তাদের চারপাশের বিশ্ব দেখতে, শুনতে এবং বুঝতে সক্ষম হবে, মানুষের সাথে আরও প্রাকৃতিক এবং স্বজ্ঞাত মিথস্ক্রিয়া সক্ষম করবে।
টুল-সজ্জিত এজেন্ট
বিভিন্ন সরঞ্জাম এবং প্ল্যাটফর্মের সাথে LLM-এর একীকরণ AI-কে দৈনন্দিন ব্যবহারের জন্য আরও সহজলভ্য এবং ব্যবহারিক করে তুলছে। এই সরঞ্জামগুলির সাথে সজ্জিত এজেন্টগুলি নির্দিষ্ট কাজের জন্য তৈরি করা হচ্ছে, কোডিং সহায়তা থেকে শুরু করে সৃজনশীল লেখা পর্যন্ত, এআইকে অনেক পেশাদার কর্মপ্রবাহের একটি অপরিহার্য অংশ করে তুলেছে। এলএলএম-এর যুক্তি ও কর্মক্ষমতার কারণে এই উন্নয়ন সম্ভব হয়েছে। এই ধরনের বৈশিষ্ট্য প্রায়ই অধীনে ফাংশন কলিং হিসাবে উল্লেখ করা হয়প্রতিক্রিয়া কাঠামো এছাড়াও ডেটাসেটগুলিতে প্রশিক্ষিত অনেক মডেল রয়েছে যাতে এই বৈশিষ্ট্যটি সক্ষম করার জন্য ফাংশন কলিং অন্তর্ভুক্ত থাকে। এই কার্যকারিতা ডেভেলপারদের LLM এজেন্ট তৈরি করতে দেয় যা বিস্তৃত সাধারণ কাজ এবং কর্মপ্রবাহ স্বয়ংক্রিয় করতে সক্ষম।
OpenAI এখনও শিল্পের ল্যান্ডস্কেপ আধিপত্য
ওপেনএআই গবেষণা এবং প্রয়োগের ক্ষেত্রে তার নেতৃত্ব বজায় রেখে শিল্পের ল্যান্ডস্কেপে আধিপত্য বজায় রেখেছে। GPT-4 এবং নতুনজিপিটি স্টোর ChatGPT-এর বৈশিষ্ট্যটি শিল্পের মান হিসাবে রয়ে গেছে, উচ্চ-মানের জেনারেটিভ AI অ্যাপ্লিকেশনগুলি অফার করে যা অতুলনীয় এবং অনন্য, এই সময়ে কোনও প্রতিযোগী কাছাকাছি আসছে না। ওপেনএআই প্রথম আয়োজন করে তার ব্যবহারকারী সম্প্রদায়ের জন্য উল্লেখযোগ্য সমর্থন প্রদর্শন করেছেOpenAI দেব দিবস এবং 2023 সালে বিভিন্ন ডেভেলপার-বান্ধব বৈশিষ্ট্য প্রদান করে। নৃতাত্ত্বিক সবচেয়ে প্রতিশ্রুতিশীল প্রতিযোগী হিসাবে আবির্ভূত হয়, যদিও এর ফ্ল্যাগশিপ এলএলএম,ক্লদ , এখনও ব্যাপকভাবে উপলব্ধ নয়. আরেকটি টেক জায়ান্ট, গুগল, প্রকাশ করেছেমিথুনরাশি গত বছর, যা OpenAI-এর GPT সিরিজের তুলনায় বেশ চিত্তাকর্ষক ছিল, রিপোর্ট অনুযায়ী। যাইহোক, এটি এখনও সম্প্রদায়ের মধ্যে যথেষ্ট ট্র্যাকশন অর্জন করতে পারেনি। আমরা দেখব 2024 সালে কী ঘটবে যখন তারা মিথুনের সবচেয়ে বড় সংস্করণ প্রকাশ করার পরিকল্পনা করবে৷
উপসংহার
2023 সালটি বৃহৎ ভাষার মডেলের (LLMs) ক্ষেত্রে উল্লেখযোগ্য বৃদ্ধি এবং উদ্ভাবনের একটি সময়কাল চিহ্নিত করেছে। ওপেন-সোর্স মডেলের মাধ্যমে AI-এর গণতন্ত্রীকরণ থেকে শুরু করে আরও দক্ষ এবং বিশেষায়িত সিস্টেমের বিকাশ পর্যন্ত, এই অগ্রগতিগুলি কেবল প্রযুক্তিগত কৃতিত্ব নয় বরং বিভিন্ন ডোমেনে AI-কে আরও অ্যাক্সেসযোগ্য এবং প্রযোজ্য করার দিকেও পদক্ষেপ। সামনের দিকে তাকিয়ে, শিল্পগুলিকে রূপান্তরিত করার এবং মানুষের ক্ষমতা বাড়ানোর জন্য এই প্রযুক্তিগুলির সম্ভাবনা একটি উত্তেজনাপূর্ণ সম্ভাবনা হিসাবে অব্যাহত রয়েছে। 2024 সালে, মেটা LLaMA-3 প্রশিক্ষণের পরিকল্পনা ঘোষণা করে এবং এটিকে ওপেন-সোর্সিং করার পরিকল্পনার সাথে আমরা আরও উল্লেখযোগ্য মাইলফলকের প্রত্যাশা করছি। ইন্ডাস্ট্রি ল্যান্ডস্কেপে, গুগলের মতো জায়ান্ট বা অ্যানথ্রপিকের মতো স্টার্টআপগুলি ওপেনএআইকে ছাড়িয়ে যেতে পারে কিনা তা দেখার জন্যও গভীর আগ্রহ রয়েছে৷