paint-brush
2023 সালে এলএলএমের অবস্থা: সাম্প্রতিক অগ্রগতিগুলির উপর একটি দ্রুত সংক্ষিপ্ত বিবরণদ্বারা@vndee
620 পড়া
620 পড়া

2023 সালে এলএলএমের অবস্থা: সাম্প্রতিক অগ্রগতিগুলির উপর একটি দ্রুত সংক্ষিপ্ত বিবরণ

দ্বারা Duy Huynh8m2024/01/26
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

2023 সালটি বড় ভাষা মডেলের (LLMs) ক্ষেত্রে উল্লেখযোগ্য বৃদ্ধি এবং উদ্ভাবনের একটি সময়কাল চিহ্নিত করেছে।
featured image - 2023 সালে এলএলএমের অবস্থা: সাম্প্রতিক অগ্রগতিগুলির উপর একটি দ্রুত সংক্ষিপ্ত বিবরণ
Duy Huynh HackerNoon profile picture
0-item

ঠিক আছে, ChatGPT প্রকাশের পর এক বছরেরও বেশি সময় হয়ে গেছে। এই টার্নিং পয়েন্টের আগে, গবেষণা সম্প্রদায় এবং শিল্পের নেতারা ইতিমধ্যেই সক্রিয়ভাবে জেনারেটিভ AI-তে কাজ করছিল, বিশেষ করে কম্পিউটার ভিশনের ক্ষেত্রে, স্থিতিশীল বিস্তার অনুসন্ধান এবং অ্যাপ্লিকেশনগুলির একটি সিরিজ সহ। সংক্ষিপ্তভাবে বলতে গেলে, 2022কে স্থিতিশীল বিস্তারের বছর এবং 2023কে বড় ভাষা মডেলের (LLMs) বছর হিসেবে বিবেচনা করা যেতে পারে।


লামা গ্যাং শহরে এসেছে - DALL-E 3 এর ছবি।


2023 সালের শুরুতে LLM-এর আধিপত্য চিহ্নিত করা হয়েছে, যেখানে ChatGPT ব্যাপক গ্রহণ ও উদ্ভাবনের ক্ষেত্রে নেতৃত্ব দিচ্ছে। এই বছর এলএলএমগুলি বিভিন্ন সেক্টরে ব্যাপক হয়ে উঠতে দেখেছে, কার্যকরভাবে তাত্ত্বিক গবেষণা এবং ব্যবহারিক শিল্প অ্যাপ্লিকেশনের মধ্যে ব্যবধান পূরণ করেছে। আসুন 2023 সালে এলএলএম ল্যান্ডস্কেপকে রূপদানকারী মূল মাইলফলক এবং প্রবণতাগুলি অন্বেষণ করি, তারা কীভাবে প্রযুক্তির সাথে আমাদের মিথস্ক্রিয়াকে বৈপ্লবিক পরিবর্তন করেছে সে সম্পর্কে কিছু অন্তর্দৃষ্টিও রয়েছে।

ওপেন সোর্স এলএলএম এর বছর

2023 সালে, আমরা ওপেন সোর্স লার্জ ল্যাঙ্গুয়েজ মডেলের (LLMs) জন্য একটি উল্লেখযোগ্য বছর প্রত্যক্ষ করেছি। সবচেয়ে উল্লেখযোগ্য রিলিজ ছিল মেটা-র LLaMa সিরিজ, যা পরবর্তীতে ঘন ঘন রিলিজের নজির স্থাপন করে, প্রতি মাসে, সপ্তাহে এবং কখনও কখনও প্রতিদিন নতুন মডেলের আবির্ভাব ঘটে। Meta, EleutherAI, MosaicML, TIIUAE, এবং StabilityAI এর মত মূল খেলোয়াড়রা পাবলিক ডেটাসেটে প্রশিক্ষিত বিভিন্ন মডেল প্রবর্তন করেছে, যা এআই সম্প্রদায়ের বিভিন্ন চাহিদা পূরণ করে। এই মডেলগুলির বেশিরভাগই ছিল ডিকোডার-অনলি ট্রান্সফরমার, যা ChatGPT দ্বারা প্রতিষ্ঠিত প্রবণতা অব্যাহত রাখে। এই বছর প্রকাশিত সবচেয়ে উল্লেখযোগ্য মডেলগুলির মধ্যে কয়েকটি এখানে রয়েছে:

  • মেটা দ্বারা LLaMa: LLaMa পরিবারে বিভিন্ন আকারের মডেল রয়েছে, যেখানে 1.4 ট্রিলিয়ন টোকেনগুলিতে প্রশিক্ষিত 65 বিলিয়ন প্যারামিটার নিয়ে গর্বিত সবচেয়ে বড় মডেল রয়েছে৷ উল্লেখযোগ্যভাবে, ছোট মডেলগুলি, বিশেষ করে 13 বিলিয়ন প্যারামিটার সহ একটি, 1 ট্রিলিয়ন টোকেনে প্রশিক্ষিত, আরও ডেটার উপর বর্ধিত প্রশিক্ষণ সময়কালের সুবিধার মাধ্যমে উচ্চতর কর্মক্ষমতা প্রদর্শন করেছে, এমনকি কিছু বেঞ্চমার্কে বড় মডেলগুলিকে ছাড়িয়ে গেছে। 13B LLaMa মডেলটি বেশিরভাগ বেঞ্চমার্কে GPT-3কে ছাড়িয়ে গেছে এবং সবচেয়ে বড় মডেলটি প্রকাশের পর নতুন অত্যাধুনিক পারফরম্যান্স বেঞ্চমার্ক সেট করেছে।

  • এলিউথার এআই দ্বারা পাইথিয়া: Pythia 154টি আংশিকভাবে প্রশিক্ষিত চেকপয়েন্ট সহ 16 মডেলের একটি স্যুট নিয়ে গঠিত, যা খোলাখুলিভাবে অ্যাক্সেসযোগ্য এবং স্বচ্ছভাবে প্রশিক্ষিত এলএলএমগুলির উপর নিয়ন্ত্রিত বৈজ্ঞানিক গবেষণার সুবিধার্থে ডিজাইন করা হয়েছে। এই সিরিজটি এলএলএম প্রশিক্ষণের জন্য বিস্তারিত কাগজপত্র এবং একটি ব্যাপক কোডবেস প্রদান করে গবেষকদের ব্যাপকভাবে সাহায্য করে।

  • MosaicML দ্বারা MPT এবং TIIUAE দ্বারা ফ্যালকন সিরিজ: উভয়কেই 1T থেকে 1.5T টোকেন পর্যন্ত ডেটা উত্সের বিভিন্ন পরিসরে প্রশিক্ষণ দেওয়া হয়েছিল এবং 7B এবং 30B প্যারামিটার সহ সংস্করণ তৈরি করা হয়েছিল। উল্লেখযোগ্যভাবে, বছরের শেষের দিকে, TIIUAE একটি 180B মডেল প্রকাশ করেছে, যা এখন পর্যন্ত সবচেয়ে বড় ওপেন সোর্স মডেল।

  • মিস্ট্রাল , ফি এবং ওরকা : এই মডেলগুলি 2023 সালে আরেকটি প্রবণতা তুলে ধরে, সীমিত হার্ডওয়্যার এবং বাজেটের সীমাবদ্ধতার জন্য উপযুক্ত ছোট এবং আরও দক্ষ মডেলের প্রশিক্ষণের উপর দৃষ্টি নিবদ্ধ করে, যা এআই মডেলের বিকাশে অ্যাক্সেসযোগ্যতা এবং ব্যবহারিকতার দিকে একটি উল্লেখযোগ্য পরিবর্তন চিহ্নিত করে।


Llama 2 সর্বজনীনভাবে উপলব্ধ অনলাইন ডেটা ব্যবহার করে প্রশিক্ষিত। লামা চ্যাটের একটি প্রাথমিক সংস্করণ তারপর তত্ত্বাবধানে ফাইন-টিউনিং ব্যবহার করে তৈরি করা হয়। এর পরে, লামা চ্যাটকে রিইনফোর্সমেন্ট লার্নিং ফ্রম হিউম্যান ফিডব্যাক (RLHF) ব্যবহার করে পুনরাবৃত্তিমূলকভাবে পরিমার্জিত করা হয়, যার মধ্যে রয়েছে প্রত্যাখ্যান স্যাম্পলিং এবং প্রক্সিমাল পলিসি অপ্টিমাইজেশান (PPO)। - Llama 2: ওপেন সোর্স, গবেষণা এবং বাণিজ্যিক ব্যবহারের জন্য বিনামূল্যে

ছোট এবং দক্ষ মডেল

2023 সালে, আমরা অসংখ্য ছোট এবং দক্ষ মডেল প্রকাশের সাক্ষী হয়েছি। এই প্রবণতার প্রাথমিক কারণ হল বেশিরভাগ গবেষণা গোষ্ঠীর জন্য বড় মডেলের প্রশিক্ষণের নিষেধমূলকভাবে উচ্চ খরচ। অতিরিক্তভাবে, বড় মডেলগুলি প্রায়শই তাদের ব্যয়বহুল প্রশিক্ষণ এবং স্থাপনার খরচ, সেইসাথে তাদের উল্লেখযোগ্য মেমরি এবং গণনাগত শক্তির প্রয়োজনীয়তার কারণে অনেক বাস্তব-বিশ্বের অ্যাপ্লিকেশনের জন্য অনুপযুক্ত। অতএব, ছোট এবং দক্ষ মডেলগুলি বছরের অন্যতম প্রধান প্রবণতা হিসাবে আবির্ভূত হয়েছে। আগেই উল্লেখ করা হয়েছে, মিস্ট্রাল এবং ওরকা সিরিজ এই প্রবণতার মূল খেলোয়াড়। মিস্ট্রাল একটি 7B মডেল দিয়ে সম্প্রদায়কে অবাক করেছে যা বেশিরভাগ বেঞ্চমার্কে তার বৃহত্তর সমকক্ষগুলিকে ছাড়িয়ে গেছে, যখন Phi সিরিজটি আরও ছোট, শুধুমাত্র 1.3B থেকে 2.7B প্যারামিটার সহ, তবুও এটি চিত্তাকর্ষক কর্মক্ষমতা প্রদান করে।

LLaMA সিরিজে Mistral-7b পারফরম্যান্স - https://mistral.ai/news/annnouncing-mistral-7b/


আরেকটি উদ্ভাবনী পদ্ধতি হল Orca 2: ছোট ভাষা শেখানো মডেল কিভাবে যুক্তি , যা একটি বৃহত্তর মডেল, যেমন GPT-4 থেকে একটি ছোট মডেল থেকে জ্ঞান পাতন করে। পূর্ববর্তী গবেষণার বিপরীতে যা প্রাথমিকভাবে বড় মডেলের আউটপুট প্রতিলিপি করার জন্য অনুকরণ শেখার উপর নির্ভর করে, Orca 2-এর লক্ষ্য "ছোট" LLM, বিশেষ করে 7B এবং 13B প্যারামিটার সহ বিভিন্ন যুক্তি পদ্ধতি, যেমন ধাপে ধাপে বিশ্লেষণ এবং প্রত্যাহার করা। -তারপর কৌশল তৈরি করুন। এই পদ্ধতিটি এই মডেলগুলিকে প্রতিটি কাজের জন্য সবচেয়ে উপযুক্ত পদ্ধতি সনাক্ত করতে এবং প্রয়োগ করতে দেয়, Orca 2কে একই আকারের মডেলগুলিকে উল্লেখযোগ্যভাবে ছাড়িয়ে যেতে এবং এমনকি 5 থেকে 10 গুণ বড় মডেলগুলির সাথে প্রতিযোগিতা করতে সক্ষম করে।

অর্কা 2 (7B এবং 13B) এর সাথে LLaMA-2-চ্যাট (13B এবং 70B) এবং WizardLM (13B এবং 70B) এর সাথে তুলনা করার ফলাফলগুলি বিভিন্ন মানদণ্ডে (শূন্য-শট সেটিংয়ে) ভাষা বোঝা, সাধারণ জ্ঞানের যুক্তি, বহু-পদক্ষেপ কভার করে যুক্তি, গণিত সমস্যা সমাধান ইত্যাদি - Orca 2: Teaching Small Language Models How to Reason


ছোট এবং দক্ষ মডেলগুলির সাফল্য মূলত ডেটা গুণমান এবং দ্রুত মনোযোগের কৌশলগুলির উপর নির্ভর করে। যদিও মিস্ট্রাল তার প্রশিক্ষণের তথ্যের সুনির্দিষ্ট তথ্য প্রকাশ করেনি, বিভিন্ন গবেষণা এবং মডেলগুলি দেখিয়েছে যে কার্যকর মডেলের প্রশিক্ষণের জন্য ডেটা গুণমান অত্যন্ত গুরুত্বপূর্ণ। এই বছরের সবচেয়ে উল্লেখযোগ্য ফলাফলগুলির মধ্যে একটি লিমা: "সারিবদ্ধতার জন্য কম বেশি" , যা দেখায় যে শুধুমাত্র 1,000টি প্রশিক্ষণ উদাহরণ সমন্বিত একটি মানব-উত্পাদিত, উচ্চ-মানের ডেটাসেট 50,000 ChatGPT-উত্পাদিত প্রতিক্রিয়াগুলিতে একই মডেলের ফাইন-টিউনিংকে ছাড়িয়ে যাওয়ার জন্য ফাইন-টিউনিংয়ের জন্য ব্যবহার করা যেতে পারে।

নিম্ন-র্যাঙ্ক অভিযোজন টিউনিং

ঠিক আছে, এর সম্পর্কে কথা বলা যাক LoRA , যা গত বছর প্রবর্তিত প্যারামিটার-দক্ষ ফাইন-টিউনিং পদ্ধতিগুলির মধ্যে উজ্জ্বল নক্ষত্র হিসাবে উজ্জ্বল হয়েছে৷ নিম্ন-র্যাঙ্ক অ্যাডাপ্টেশন (LoRA) দক্ষতার সাথে সূক্ষ্ম-টিউনিং এলএলএমগুলির জন্য একটি গেম-চেঞ্জার হিসাবে আবির্ভূত হয়েছে। প্রাক-প্রশিক্ষিত মডেলগুলিতে নিম্ন-র্যাঙ্ক ম্যাট্রিক্সের আনুমানিকতা প্রবর্তন করে, LoRA প্যারামিটার-দক্ষ ফাইন-টিউনিংয়ের জন্য অনুমতি দেয়, উল্লেখযোগ্যভাবে গণনামূলক লোড এবং স্টোরেজ প্রয়োজনীয়তা হ্রাস করে। এই পদ্ধতিটি শুধুমাত্র সম্পদ সংরক্ষণ করে না কিন্তু বেস মডেলের মূল ক্ষমতার সাথে আপস না করে বিভিন্ন অ্যাপ্লিকেশনের জন্য কাস্টমাইজেশন সক্ষম করে।


LoRA এবং নিয়মিত ফাইন-টিউনিংয়ের মধ্যে পার্থক্য - LoRA ব্যবহার করে LLMs Finetuning এর জন্য ব্যবহারিক টিপস (নিম্ন-র্যাঙ্ক অ্যাডাপ্টেশন)


LoRA মূলত হিমায়িত প্রাক-প্রশিক্ষিত মডেল ওজন এবং প্রশিক্ষনযোগ্য স্তরগুলি ইনজেকশন ( র্যাঙ্ক-ডিকপোজিশন ম্যাট্রিক্স )। এই ম্যাট্রিক্সগুলি কমপ্যাক্ট তবুও মডেলের আচরণের প্রয়োজনীয় অভিযোজনগুলি আনুমানিক করতে সক্ষম, মূল মডেলের জ্ঞানের অখণ্ডতা বজায় রেখে দক্ষ সূক্ষ্ম-টিউনিংয়ের অনুমতি দেয়। LoRA এর সর্বাধিক ব্যবহৃত বৈকল্পিকগুলির মধ্যে একটি QLoRA (কোয়ান্টাইজড লো-র্যাঙ্ক অ্যাডাপশন) . এটি নিম্ন-র্যাঙ্কের ম্যাট্রিক্সের পরিমাপ করে ভ্যানিলা LoRA-এর মেমরি কার্যকরী সংস্করণ। এই পদ্ধতিটি মেমরির পদচিহ্ন না বাড়িয়ে এবং কম কম্পিউটেশনাল-ইনটেনসিভ না করে ফাইন-টিউনিং প্রক্রিয়ায় নিম্ন-র্যাঙ্ক ম্যাট্রিক্স ব্যবহারের অনুমতি দেয়।


QLORA ট্রান্সফরমার মডেলটিকে 4-বিট নির্ভুলতার পরিমাপ করে এবং মেমরি স্পাইকগুলি পরিচালনা করতে পেজড অপ্টিমাইজার ব্যবহার করে LoRA-এর থেকে উন্নতি করে৷ - কাগজ থেকে ছবি: QLoRA (কোয়ান্টাইজড লো-র্যাঙ্ক অ্যাডাপশন)

বিশেষজ্ঞদের মিশ্রণ

দ্য বিশেষজ্ঞদের মিশ্রণ (MoE) পদ্ধতি গত বছর এলএলএম আর্কিটেকচারে একটি উল্লেখযোগ্য লাফের প্রতিনিধিত্ব করে। MoE হল একটি দীর্ঘ-ইতিহাস মেশিন লার্নিং দৃষ্টান্ত যা জটিল সমস্যাগুলিকে ছোট, আরও পরিচালনাযোগ্য উপ-সমস্যাগুলিতে বিভক্ত করে সরল করে, প্রতিটিকে একটি বিশেষ উপ-মডেল বা "বিশেষজ্ঞ" দ্বারা সম্বোধন করা হয়। এটি বিশেষজ্ঞদের একটি দল থাকার অনুরূপ, যেখানে প্রতিটি সদস্য একটি নির্দিষ্ট ডোমেনে দক্ষতা অর্জন করে। একটি MoE মডেলে, প্রতিটি বিশেষজ্ঞ ডেটা বা কাজের একটি নির্দিষ্ট উপসেটে মনোনিবেশ করেন। প্রদত্ত ইনপুটের জন্য কোন বিশেষজ্ঞ ব্যবহার করবেন তার সিদ্ধান্ত একটি "গেটিং মেকানিজম" দ্বারা তৈরি করা হয়, যা একজন ট্রাফিক পরিচালক হিসাবে কাজ করে, সবচেয়ে উপযুক্ত বিশেষজ্ঞের কাছে কাজগুলি রাউটিং করে৷ এই পদ্ধতিটি MoE মডেলগুলিকে দক্ষতার সাথে এবং সঠিকভাবে কাজগুলির বিস্তৃত বর্ণালী পরিচালনা করতে দেয়। MoE বিশেষভাবে উপকারী কারণ এটি বিভিন্ন মডেলের শক্তিকে একত্রিত করে, যা জটিল কাজগুলিতে বর্ধিত কর্মক্ষমতার দিকে পরিচালিত করে যা একটি একক, অভিন্ন মডেলের পক্ষে সমাধান করা কঠিন হতে পারে। এটি আপনার নিষ্পত্তিতে বিশেষজ্ঞদের একটি দল থাকার সাথে তুলনীয়, এটি নিশ্চিত করে যে সমস্যার প্রতিটি দিক প্রয়োজনীয় বিশেষজ্ঞের দ্বারা পরিচালিত হয়, আরও পরিমার্জিত এবং কার্যকর সমাধান দেয়।

কাগজ থেকে MoE লেয়ার আউট্রাজিয়াসলি লার্জ নিউরাল নেটওয়ার্ক: দ্য স্পার্সলি-গেটেড মিক্সচার-অফ-এক্সপার্টস লেয়ার, 2017।


গত বছর প্রকাশিত সবচেয়ে উল্লেখযোগ্য MoE মডেলগুলির মধ্যে একটি Mixtral-8x-7B , যা MoE পদ্ধতি ব্যবহার করে, 7B প্যারামিটার সহ আটটি ছোট মডেলকে একত্রিত করে চিত্তাকর্ষক কর্মক্ষমতা অর্জন করেছে। এছাড়াও গুজব রয়েছে যে GPT-4 একটি MoE মডেল হতে পারে, যার মধ্যে আটটি বিশেষজ্ঞ মডেল রয়েছে, যার প্রতিটিতে 220 বিলিয়ন প্যারামিটার রয়েছে।

Mixtral-8x-7b কর্মক্ষমতা - Mixtral-8x-7B

ভাষা থেকে সাধারণ ফাউন্ডেশন মডেল পর্যন্ত

এলএলএমগুলি সাধারণ ভিত্তি মডেলে বিকশিত হচ্ছে, ভাষা প্রক্রিয়াকরণের বাইরে তাদের ক্ষমতা প্রসারিত করছে। এই রূপান্তরটি এমন মডেলগুলির দিকে একটি পরিবর্তনকে নির্দেশ করে যা কেবল পাঠ্যই নয় কোড, ভিজ্যুয়াল সামগ্রী, অডিও এবং আরও অনেক কিছু বুঝতে এবং তৈরি করতে পারে৷ গত বছর, আমরা মডেলের প্রচলন দেখেছি LLaVA এবং দৃষ্টির জন্য GPT-4, যা ভিজ্যুয়াল বিষয়বস্তু বোঝার জন্য চিত্তাকর্ষক ক্ষমতা প্রদান করেছে। এটি সাধারণ ভিত্তি মডেলের ক্ষেত্রে প্রতিশ্রুতিশীল গবেষণার জন্ম দিয়েছে। অদূর ভবিষ্যতে, সাধারণ ভিত্তি মডেলগুলি তাদের চারপাশের বিশ্ব দেখতে, শুনতে এবং বুঝতে সক্ষম হবে, মানুষের সাথে আরও প্রাকৃতিক এবং স্বজ্ঞাত মিথস্ক্রিয়া সক্ষম করবে।


LLaVA প্রকল্প থেকে একটি উদাহরণ।

টুল-সজ্জিত এজেন্ট

বিভিন্ন সরঞ্জাম এবং প্ল্যাটফর্মের সাথে LLM-এর একীকরণ AI-কে দৈনন্দিন ব্যবহারের জন্য আরও সহজলভ্য এবং ব্যবহারিক করে তুলছে। এই সরঞ্জামগুলির সাথে সজ্জিত এজেন্টগুলি নির্দিষ্ট কাজের জন্য তৈরি করা হচ্ছে, কোডিং সহায়তা থেকে শুরু করে সৃজনশীল লেখা পর্যন্ত, এআইকে অনেক পেশাদার কর্মপ্রবাহের একটি অপরিহার্য অংশ করে তুলেছে। এলএলএম-এর যুক্তিকর্মক্ষমতার কারণে এই উন্নয়ন সম্ভব হয়েছে। এই ধরনের বৈশিষ্ট্য প্রায়ই অধীনে ফাংশন কলিং হিসাবে উল্লেখ করা হয় প্রতিক্রিয়া কাঠামো এছাড়াও ডেটাসেটগুলিতে প্রশিক্ষিত অনেক মডেল রয়েছে যাতে এই বৈশিষ্ট্যটি সক্ষম করার জন্য ফাংশন কলিং অন্তর্ভুক্ত থাকে। এই কার্যকারিতা ডেভেলপারদের LLM এজেন্ট তৈরি করতে দেয় যা বিস্তৃত সাধারণ কাজ এবং কর্মপ্রবাহ স্বয়ংক্রিয় করতে সক্ষম।


অন্যান্য প্রম্পটিং কৌশলগুলির সাথে ReAct পদ্ধতির তুলনা করা - ReAct: Synergizing Reasoning and Acting in Language Model

OpenAI এখনও শিল্পের ল্যান্ডস্কেপ আধিপত্য

ওপেনএআই গবেষণা এবং প্রয়োগের ক্ষেত্রে তার নেতৃত্ব বজায় রেখে শিল্পের ল্যান্ডস্কেপে আধিপত্য বজায় রেখেছে। GPT-4 এবং নতুন জিপিটি স্টোর ChatGPT-এর বৈশিষ্ট্যটি শিল্পের মান হিসাবে রয়ে গেছে, উচ্চ-মানের জেনারেটিভ AI অ্যাপ্লিকেশনগুলি অফার করে যা অতুলনীয় এবং অনন্য, এই সময়ে কোনও প্রতিযোগী কাছাকাছি আসছে না। ওপেনএআই প্রথম আয়োজন করে তার ব্যবহারকারী সম্প্রদায়ের জন্য উল্লেখযোগ্য সমর্থন প্রদর্শন করেছে OpenAI দেব দিবস এবং 2023 সালে বিভিন্ন ডেভেলপার-বান্ধব বৈশিষ্ট্য প্রদান করে। নৃতাত্ত্বিক সবচেয়ে প্রতিশ্রুতিশীল প্রতিযোগী হিসাবে আবির্ভূত হয়, যদিও এর ফ্ল্যাগশিপ এলএলএম, ক্লদ , এখনও ব্যাপকভাবে উপলব্ধ নয়. আরেকটি টেক জায়ান্ট, গুগল, প্রকাশ করেছে মিথুনরাশি গত বছর, যা OpenAI-এর GPT সিরিজের তুলনায় বেশ চিত্তাকর্ষক ছিল, রিপোর্ট অনুযায়ী। যাইহোক, এটি এখনও সম্প্রদায়ের মধ্যে যথেষ্ট ট্র্যাকশন অর্জন করতে পারেনি। আমরা দেখব 2024 সালে কী ঘটবে যখন তারা মিথুনের সবচেয়ে বড় সংস্করণ প্রকাশ করার পরিকল্পনা করবে৷


OpenAI দেব দিবস - https://www.youtube.com/watch?v=U9mJuUkhUzk

উপসংহার

2023 সালটি বৃহৎ ভাষার মডেলের (LLMs) ক্ষেত্রে উল্লেখযোগ্য বৃদ্ধি এবং উদ্ভাবনের একটি সময়কাল চিহ্নিত করেছে। ওপেন-সোর্স মডেলের মাধ্যমে AI-এর গণতন্ত্রীকরণ থেকে শুরু করে আরও দক্ষ এবং বিশেষায়িত সিস্টেমের বিকাশ পর্যন্ত, এই অগ্রগতিগুলি কেবল প্রযুক্তিগত কৃতিত্ব নয় বরং বিভিন্ন ডোমেনে AI-কে আরও অ্যাক্সেসযোগ্য এবং প্রযোজ্য করার দিকেও পদক্ষেপ। সামনের দিকে তাকিয়ে, শিল্পগুলিকে রূপান্তরিত করার এবং মানুষের ক্ষমতা বাড়ানোর জন্য এই প্রযুক্তিগুলির সম্ভাবনা একটি উত্তেজনাপূর্ণ সম্ভাবনা হিসাবে অব্যাহত রয়েছে। 2024 সালে, মেটা LLaMA-3 প্রশিক্ষণের পরিকল্পনা ঘোষণা করে এবং এটিকে ওপেন-সোর্সিং করার পরিকল্পনার সাথে আমরা আরও উল্লেখযোগ্য মাইলফলকের প্রত্যাশা করছি। ইন্ডাস্ট্রি ল্যান্ডস্কেপে, গুগলের মতো জায়ান্ট বা অ্যানথ্রপিকের মতো স্টার্টআপগুলি ওপেনএআইকে ছাড়িয়ে যেতে পারে কিনা তা দেখার জন্যও গভীর আগ্রহ রয়েছে৷


আরও নিবন্ধের জন্য আমার ব্যক্তিগত ব্লগে যান এবং সাবস্ক্রাইব করুন।