কৃত্রিম বুদ্ধিমত্তা প্রযুক্তির বিবর্তনে আগ্রহী যে কেউ জানেন যে আজকের সমাধানগুলি এবং সম্পর্কে। সংক্ষেপে, এলএলএম হল নিউরাল নেটওয়ার্ক যা ইনপুট টোকেনগুলির উপর ভিত্তি করে পরবর্তী টোকেনের পূর্বাভাস দিতে পারে। সাধারণত, এই টোকেনগুলি হল শব্দ (এটি সম্পূর্ণরূপে সঠিক নয়, তবে এইভাবে ধারণা করা সহজ), এবং নেটওয়ার্কের আউটপুটও একটি শব্দ। এভাবেই ChatGPT কাজ করে। আপনি একটি প্রশ্ন ইনপুট, এবং নেটওয়ার্ক একটি শব্দ উৎপন্ন করে. তারপর, একটি সম্পূর্ণ উত্তর তৈরি না হওয়া পর্যন্ত, প্রশ্ন এবং শব্দটি একসাথে নেটওয়ার্ক ইনপুটে পরিণত হয়, অন্য একটি শব্দ তৈরি করে এবং আরও অনেক কিছু। বড় ভাষা মডেল (এলএলএম) ট্রান্সফরমার যাইহোক, টোকেন শুধু শব্দের চেয়ে বেশি হতে পারে। GPT-4 বা জেমিনির মতো উন্নত ভাষার মডেলগুলি এখন মাল্টিমোডাল, যার অর্থ তাদের ইনপুটে ছবি এবং শব্দ অন্তর্ভুক্ত থাকতে পারে। একটি বাক্যকে যেমন শব্দে ভাগ করা যায়, তেমনি একটি চিত্রকে ছোট ছোট প্যাচগুলিতে ভাগ করা যায় এবং সেখান থেকে একই ট্রান্সফরমার আর্কিটেকচার সেগুলিকে প্রক্রিয়া করতে পারে। উদাহরণস্বরূপ, একটি মাল্টিমোডাল নেটওয়ার্ককে একটি ছবিতে কী রয়েছে তা বর্ণনা করতে বা ছবিতে দেখা ব্যবহারকারী ইন্টারফেস কোড করতে বলা যেতে পারে। এই স্থাপত্য আরও সাধারণ। সিস্টেম হল একটি প্রধান উদাহরণ, যেখানে একটি একক ট্রান্সফরমার নেটওয়ার্ক একই সাথে প্রশ্নের উত্তর দিতে পারে, ভিডিও গেম খেলতে পারে বা একটি রোবটকে নিয়ন্ত্রণ করতে পারে এবং রোবটগুলিকে হয়েছে। যেহেতু একটি LLM টোকেনগুলির সাথে কাজ করে এবং যে কোনও কাজকে টোকেনাইজ করা যেতে পারে, একটি LLM যে কোনও কাজের জন্য একটি সর্বজনীন সমাধান প্রদান করে। ডিপমাইন্ডের গ্যাটো ChatGPT ব্যবহার করেও নিয়ন্ত্রণ করা সম্প্রতি সবচেয়ে হাইপড টেক নিউজগুলির মধ্যে একটি হল কোম্পানি একটি ডেভেলপ করছে যা প্রথাগত GPU গুলির তুলনায় অনেক বেশি দক্ষতার সাথে এবং কম শক্তিতে LLM চালাতে পারে৷ এটি স্পষ্টভাবে দেখায় যে এলএলএম আর্কিটেকচার এতটাই মৌলিক হয়ে উঠেছে যে এটির জন্য বিশেষ হার্ডওয়্যার তৈরি করা এখন সার্থক। Groq ASIC (অ্যাপ্লিকেশন-স্পেসিফিক ইন্টিগ্রেটেড সার্কিট) এছাড়াও সম্প্রতি, " " শিরোনামে একটি প্রকাশনা প্রকাশিত হয়েছে৷ নিউরাল নেটওয়ার্কের কোয়ান্টাইজেশন আকার এবং গণনাগত চাহিদা হ্রাস করার জন্য একটি সাধারণ পদ্ধতি। সমাধানের সারমর্ম হল ফ্লোটিং-পয়েন্ট নম্বরগুলি ব্যবহার করে বড় GPU ক্লাস্টারে প্রশিক্ষণ সঞ্চালন করা এবং তারপরে সমাপ্ত নেটওয়ার্কের ওজনগুলিকে একটি কম সুনির্দিষ্ট বিন্যাসে রূপান্তর করা, যা ব্যবহারকারীর ডিভাইসগুলির প্রসেসরগুলিকে আরও দক্ষতার সাথে কাজ করতে দেয়৷ উদাহরণ স্বরূপ, প্রশিক্ষণটি 16 বা 32-বিট ফ্লোটিং-পয়েন্ট নম্বরগুলির সাথে সঞ্চালিত হয়, যা দ্রুত ক্লায়েন্ট-সাইড অপারেশনের জন্য 8 বা 4-বিট ফিক্সড-পয়েন্ট নম্বরে রূপান্তরিত হয়। এইভাবে, মডেলটি এমনকি মোবাইল বা IoT ডিভাইসেও ভালভাবে কাজ করতে পারে। এই কোয়ান্টাইজেশনের একটি চরম রূপ হল যখন ওজন 1-বিট সংখ্যায় রূপান্তরিত হয়। এটি একটি হতে পারে, অথবা প্রকাশনা অনুসারে, মান ব্যবহার করে {-1,0,1} (অতএব 1.58 বিট)। কেউ ভাবতে পারে যে এই ধরনের চরম পরিমাপকরণ নেটওয়ার্কটিকে সম্পূর্ণরূপে অব্যবহারযোগ্য করে তুলবে, কিন্তু বাস্তবে এর বিপরীত সত্য; এই 1-বিট নেটওয়ার্কগুলি ব্যতিক্রমীভাবে ভাল কাজ করে। 1-বিট এলএলএমের যুগ: সমস্ত বড় ভাষার মডেলগুলি 1.58 বিটে সম্পূর্ণ বাইনারি রূপান্তর কেন এই এত বড় চুক্তি? যদি এই তিনটি মান ওজনের প্রতিনিধিত্ব করার জন্য যথেষ্ট হয়, তাহলে গুণন, যা বর্তমানে নিউরাল নেটওয়ার্কে সবচেয়ে বেশি ব্যবহৃত অপারেশন, এর আর প্রয়োজন নেই। এই কারণেই জিপিইউ ক্লাস্টারগুলি নিউরাল নেটওয়ার্কগুলির জন্য ব্যবহার করা হয়, কারণ জিপিইউগুলি খুব দক্ষতার সাথে গুণন সম্পাদন করতে পারে। গুণের প্রয়োজন ব্যতীত, GPU-এর কোন প্রয়োজন নেই, এবং মডেলগুলি এমনকি CPU-তেও দক্ষতার সাথে চালানো যেতে পারে, অথবা বিশেষ হার্ডওয়্যার (ASIC) তৈরি করা সম্ভব যা (এমনকি একটি এনালগ উপায়েও) এই 1-বিট নেটওয়ার্কগুলি চালাতে পারে। বর্তমানে, কোয়ান্টাইজেশন একটি পোস্ট-ট্রেনিং অপারেশন। সুতরাং, 1-বিট নেটওয়ার্কের ব্যবহার প্রশিক্ষণ প্রক্রিয়াকে ত্বরান্বিত করে না। তা সত্ত্বেও, তারা এখনও দরকারী কারণ প্রশিক্ষণ একটি এককালীন অপারেশন, কিন্তু নিউরাল নেটওয়ার্ক তারপর অগণিত বার চালানো হয়। ফলস্বরূপ, নেটওয়ার্কগুলি চালানো প্রশিক্ষণের তুলনায় উল্লেখযোগ্যভাবে বেশি শক্তি খরচ প্রতিনিধিত্ব করে। তাই, প্রশিক্ষণের প্রেক্ষাপটেও আমরা এই প্রযুক্তি থেকে উপকৃত হতে পারি। যেহেতু গ্রেডিয়েন্ট-ভিত্তিক প্রশিক্ষণ 1-বিট বা বাইনারাইজড নেটওয়ার্কের সাথে কাজ করে না, তাই নন-গ্রেডিয়েন্ট-ভিত্তিক প্রযুক্তিগুলি প্রাসঙ্গিক হয়ে ওঠে (চেক এবং ), যেমন জেনেটিক অ্যালগরিদম বা অন্যান্য গ্রেডিয়েন্ট-মুক্ত প্রযুক্তি। যদিও বেশিরভাগ ক্ষেত্রে ব্যাকপ্রোপগেশন গ্রেডিয়েন্ট-মুক্ত সমাধানগুলির তুলনায় অনেক বেশি দক্ষ, 1-বিট নেটওয়ার্কগুলি তাদের ফ্লোটিং-পয়েন্ট সমকক্ষগুলির তুলনায় অনেক বেশি দক্ষতার সাথে চালানো যেতে পারে। সুতরাং, এটা হতে পারে যে ব্যাকপ্রোপাগেশনের মাধ্যমে, আমরা জেনেটিক অ্যালগরিদমের তুলনায় ফ্লোটিং-পয়েন্ট সংখ্যা ব্যবহার করে 10 গুণ দ্রুত সর্বোত্তম নেটওয়ার্ক খুঁজে পাই। কিন্তু যদি 1-বিট নেটওয়ার্ক 20 গুণ দ্রুত চলে, তাহলে জেনেটিক অ্যালগরিদম ব্যবহার করে প্রশিক্ষণ এখনও দ্বিগুণ দ্রুত হবে। গ্রেডিয়েন্ট-মুক্ত পদ্ধতিতে 1-বিট নেটওয়ার্কগুলিকে কীভাবে কার্যকরভাবে প্রশিক্ষিত করা যায় তা তদন্ত করা একটি খুব আকর্ষণীয় গবেষণা বিষয় হতে পারে। নেভারগ্রাড পিজিএডি এই বিষয়টি এত আকর্ষণীয় হওয়ার আরেকটি কারণ হল যে এই নেটওয়ার্কগুলি প্রাকৃতিক মস্তিষ্কে পাওয়া নিউরাল নেটওয়ার্কগুলির সাথে আরও ঘনিষ্ঠভাবে সাদৃশ্যপূর্ণ (জৈবিকভাবে বিশ্বাসযোগ্য)। অতএব, আমি বিশ্বাস করি যে একটি ভাল গ্রেডিয়েন্ট-মুক্ত প্রশিক্ষণ অ্যালগরিদম বেছে নিয়ে এবং এই 1-বিট নেটওয়ার্কগুলি প্রয়োগ করে, আমরা এমন সিস্টেম তৈরি করতে পারি যা মানুষের মস্তিষ্কের মতো অনেক বেশি। অধিকন্তু, এটি ASIC-এর বাইরে প্রযুক্তিগত সমাধানগুলির সম্ভাবনা উন্মুক্ত করে যা পূর্বে সম্ভব ছিল না, যেমন এনালগ, আলো-ভিত্তিক, এমনকি জৈবিকভাবে ভিত্তিক প্রসেসর। এটা সম্ভব যে এই দিকটি দীর্ঘমেয়াদে একটি শেষ পরিণতি হতে পারে, কিন্তু আপাতত, এর বৈপ্লবিক সম্ভাবনা স্পষ্ট, এটি কৃত্রিম বুদ্ধিমত্তার ক্ষেত্রে জড়িত যে কোনও ব্যক্তির জন্য এটি একটি খুব প্রতিশ্রুতিশীল গবেষণার পথ তৈরি করে।