6,864 পড়া

1-বিট ল্যাঙ্গুয়েজ মডেলের বিপ্লবী সম্ভাবনা (LLM)

দ্বারা Laszlo Fazekas4m2024/03/03

অতিদীর্ঘ; পড়তে

1-বিট এলএলএমগুলি আরও বেশি দক্ষ নিউরাল নেটওয়ার্ক তৈরি করার একটি সম্ভাব্য উপায় যা আরও জৈবিকভাবে বিশ্বাসযোগ্য এবং বিশেষ হার্ডওয়্যারে আরও দক্ষতার সাথে চালানো হয়। গ্রেডিয়েন্ট-মুক্ত পদ্ধতিতে 1-বিট নেটওয়ার্কগুলিকে কীভাবে কার্যকরভাবে প্রশিক্ষিত করা যায় তা তদন্ত করা একটি খুব আকর্ষণীয় গবেষণা বিষয় হতে পারে।

featured image - 1-বিট ল্যাঙ্গুয়েজ মডেলের বিপ্লবী সম্ভাবনা (LLM)

কৃত্রিম বুদ্ধিমত্তা প্রযুক্তির বিবর্তনে আগ্রহী যে কেউ জানেন যে আজকের সমাধানগুলি বড় ভাষা মডেল (এলএলএম) এবং ট্রান্সফরমার সম্পর্কে। সংক্ষেপে, এলএলএম হল নিউরাল নেটওয়ার্ক যা ইনপুট টোকেনগুলির উপর ভিত্তি করে পরবর্তী টোকেনের পূর্বাভাস দিতে পারে। সাধারণত, এই টোকেনগুলি হল শব্দ (এটি সম্পূর্ণরূপে সঠিক নয়, তবে এইভাবে ধারণা করা সহজ), এবং নেটওয়ার্কের আউটপুটও একটি শব্দ। এভাবেই ChatGPT কাজ করে। আপনি একটি প্রশ্ন ইনপুট, এবং নেটওয়ার্ক একটি শব্দ উৎপন্ন করে. তারপর, একটি সম্পূর্ণ উত্তর তৈরি না হওয়া পর্যন্ত, প্রশ্ন এবং শব্দটি একসাথে নেটওয়ার্ক ইনপুটে পরিণত হয়, অন্য একটি শব্দ তৈরি করে এবং আরও অনেক কিছু।

যাইহোক, টোকেন শুধু শব্দের চেয়ে বেশি হতে পারে। GPT-4 বা জেমিনির মতো উন্নত ভাষার মডেলগুলি এখন মাল্টিমোডাল, যার অর্থ তাদের ইনপুটে ছবি এবং শব্দ অন্তর্ভুক্ত থাকতে পারে। একটি বাক্যকে যেমন শব্দে ভাগ করা যায়, তেমনি একটি চিত্রকে ছোট ছোট প্যাচগুলিতে ভাগ করা যায় এবং সেখান থেকে একই ট্রান্সফরমার আর্কিটেকচার সেগুলিকে প্রক্রিয়া করতে পারে। উদাহরণস্বরূপ, একটি মাল্টিমোডাল নেটওয়ার্ককে একটি ছবিতে কী রয়েছে তা বর্ণনা করতে বা ছবিতে দেখা ব্যবহারকারী ইন্টারফেস কোড করতে বলা যেতে পারে।

এই স্থাপত্য আরও সাধারণ। ডিপমাইন্ডের গ্যাটো সিস্টেম হল একটি প্রধান উদাহরণ, যেখানে একটি একক ট্রান্সফরমার নেটওয়ার্ক একই সাথে প্রশ্নের উত্তর দিতে পারে, ভিডিও গেম খেলতে পারে বা একটি রোবটকে নিয়ন্ত্রণ করতে পারে এবং রোবটগুলিকে ChatGPT ব্যবহার করেও নিয়ন্ত্রণ করা হয়েছে। যেহেতু একটি LLM টোকেনগুলির সাথে কাজ করে এবং যে কোনও কাজকে টোকেনাইজ করা যেতে পারে, একটি LLM যে কোনও কাজের জন্য একটি সর্বজনীন সমাধান প্রদান করে।

সম্প্রতি সবচেয়ে হাইপড টেক নিউজগুলির মধ্যে একটি হল Groq কোম্পানি একটি ASIC (অ্যাপ্লিকেশন-স্পেসিফিক ইন্টিগ্রেটেড সার্কিট) ডেভেলপ করছে যা প্রথাগত GPU গুলির তুলনায় অনেক বেশি দক্ষতার সাথে এবং কম শক্তিতে LLM চালাতে পারে৷ এটি স্পষ্টভাবে দেখায় যে এলএলএম আর্কিটেকচার এতটাই মৌলিক হয়ে উঠেছে যে এটির জন্য বিশেষ হার্ডওয়্যার তৈরি করা এখন সার্থক।

এছাড়াও সম্প্রতি, " 1-বিট এলএলএমের যুগ: সমস্ত বড় ভাষার মডেলগুলি 1.58 বিটে " শিরোনামে একটি প্রকাশনা প্রকাশিত হয়েছে৷ নিউরাল নেটওয়ার্কের কোয়ান্টাইজেশন আকার এবং গণনাগত চাহিদা হ্রাস করার জন্য একটি সাধারণ পদ্ধতি। সমাধানের সারমর্ম হল ফ্লোটিং-পয়েন্ট নম্বরগুলি ব্যবহার করে বড় GPU ক্লাস্টারে প্রশিক্ষণ সঞ্চালন করা এবং তারপরে সমাপ্ত নেটওয়ার্কের ওজনগুলিকে একটি কম সুনির্দিষ্ট বিন্যাসে রূপান্তর করা, যা ব্যবহারকারীর ডিভাইসগুলির প্রসেসরগুলিকে আরও দক্ষতার সাথে কাজ করতে দেয়৷ উদাহরণ স্বরূপ, প্রশিক্ষণটি 16 বা 32-বিট ফ্লোটিং-পয়েন্ট নম্বরগুলির সাথে সঞ্চালিত হয়, যা দ্রুত ক্লায়েন্ট-সাইড অপারেশনের জন্য 8 বা 4-বিট ফিক্সড-পয়েন্ট নম্বরে রূপান্তরিত হয়। এইভাবে, মডেলটি এমনকি মোবাইল বা IoT ডিভাইসেও ভালভাবে কাজ করতে পারে। এই কোয়ান্টাইজেশনের একটি চরম রূপ হল যখন ওজন 1-বিট সংখ্যায় রূপান্তরিত হয়। এটি একটি সম্পূর্ণ বাইনারি রূপান্তর হতে পারে, অথবা প্রকাশনা অনুসারে, মান ব্যবহার করে {-1,0,1} (অতএব 1.58 বিট)। কেউ ভাবতে পারে যে এই ধরনের চরম পরিমাপকরণ নেটওয়ার্কটিকে সম্পূর্ণরূপে অব্যবহারযোগ্য করে তুলবে, কিন্তু বাস্তবে এর বিপরীত সত্য; এই 1-বিট নেটওয়ার্কগুলি ব্যতিক্রমীভাবে ভাল কাজ করে।

কেন এই এত বড় চুক্তি?

যদি এই তিনটি মান ওজনের প্রতিনিধিত্ব করার জন্য যথেষ্ট হয়, তাহলে গুণন, যা বর্তমানে নিউরাল নেটওয়ার্কে সবচেয়ে বেশি ব্যবহৃত অপারেশন, এর আর প্রয়োজন নেই। এই কারণেই জিপিইউ ক্লাস্টারগুলি নিউরাল নেটওয়ার্কগুলির জন্য ব্যবহার করা হয়, কারণ জিপিইউগুলি খুব দক্ষতার সাথে গুণন সম্পাদন করতে পারে। গুণের প্রয়োজন ব্যতীত, GPU-এর কোন প্রয়োজন নেই, এবং মডেলগুলি এমনকি CPU-তেও দক্ষতার সাথে চালানো যেতে পারে, অথবা বিশেষ হার্ডওয়্যার (ASIC) তৈরি করা সম্ভব যা (এমনকি একটি এনালগ উপায়েও) এই 1-বিট নেটওয়ার্কগুলি চালাতে পারে।

বর্তমানে, কোয়ান্টাইজেশন একটি পোস্ট-ট্রেনিং অপারেশন। সুতরাং, 1-বিট নেটওয়ার্কের ব্যবহার প্রশিক্ষণ প্রক্রিয়াকে ত্বরান্বিত করে না। তা সত্ত্বেও, তারা এখনও দরকারী কারণ প্রশিক্ষণ একটি এককালীন অপারেশন, কিন্তু নিউরাল নেটওয়ার্ক তারপর অগণিত বার চালানো হয়। ফলস্বরূপ, নেটওয়ার্কগুলি চালানো প্রশিক্ষণের তুলনায় উল্লেখযোগ্যভাবে বেশি শক্তি খরচ প্রতিনিধিত্ব করে। তাই, প্রশিক্ষণের প্রেক্ষাপটেও আমরা এই প্রযুক্তি থেকে উপকৃত হতে পারি।

যেহেতু গ্রেডিয়েন্ট-ভিত্তিক প্রশিক্ষণ 1-বিট বা বাইনারাইজড নেটওয়ার্কের সাথে কাজ করে না, তাই নন-গ্রেডিয়েন্ট-ভিত্তিক প্রযুক্তিগুলি প্রাসঙ্গিক হয়ে ওঠে (চেক নেভারগ্রাড এবং পিজিএডি ), যেমন জেনেটিক অ্যালগরিদম বা অন্যান্য গ্রেডিয়েন্ট-মুক্ত প্রযুক্তি। যদিও বেশিরভাগ ক্ষেত্রে ব্যাকপ্রোপগেশন গ্রেডিয়েন্ট-মুক্ত সমাধানগুলির তুলনায় অনেক বেশি দক্ষ, 1-বিট নেটওয়ার্কগুলি তাদের ফ্লোটিং-পয়েন্ট সমকক্ষগুলির তুলনায় অনেক বেশি দক্ষতার সাথে চালানো যেতে পারে। সুতরাং, এটা হতে পারে যে ব্যাকপ্রোপাগেশনের মাধ্যমে, আমরা জেনেটিক অ্যালগরিদমের তুলনায় ফ্লোটিং-পয়েন্ট সংখ্যা ব্যবহার করে 10 গুণ দ্রুত সর্বোত্তম নেটওয়ার্ক খুঁজে পাই। কিন্তু যদি 1-বিট নেটওয়ার্ক 20 গুণ দ্রুত চলে, তাহলে জেনেটিক অ্যালগরিদম ব্যবহার করে প্রশিক্ষণ এখনও দ্বিগুণ দ্রুত হবে। গ্রেডিয়েন্ট-মুক্ত পদ্ধতিতে 1-বিট নেটওয়ার্কগুলিকে কীভাবে কার্যকরভাবে প্রশিক্ষিত করা যায় তা তদন্ত করা একটি খুব আকর্ষণীয় গবেষণা বিষয় হতে পারে।

এই বিষয়টি এত আকর্ষণীয় হওয়ার আরেকটি কারণ হল যে এই নেটওয়ার্কগুলি প্রাকৃতিক মস্তিষ্কে পাওয়া নিউরাল নেটওয়ার্কগুলির সাথে আরও ঘনিষ্ঠভাবে সাদৃশ্যপূর্ণ (জৈবিকভাবে বিশ্বাসযোগ্য)। অতএব, আমি বিশ্বাস করি যে একটি ভাল গ্রেডিয়েন্ট-মুক্ত প্রশিক্ষণ অ্যালগরিদম বেছে নিয়ে এবং এই 1-বিট নেটওয়ার্কগুলি প্রয়োগ করে, আমরা এমন সিস্টেম তৈরি করতে পারি যা মানুষের মস্তিষ্কের মতো অনেক বেশি। অধিকন্তু, এটি ASIC-এর বাইরে প্রযুক্তিগত সমাধানগুলির সম্ভাবনা উন্মুক্ত করে যা পূর্বে সম্ভব ছিল না, যেমন এনালগ, আলো-ভিত্তিক, এমনকি জৈবিকভাবে ভিত্তিক প্রসেসর।

এটা সম্ভব যে এই দিকটি দীর্ঘমেয়াদে একটি শেষ পরিণতি হতে পারে, কিন্তু আপাতত, এর বৈপ্লবিক সম্ভাবনা স্পষ্ট, এটি কৃত্রিম বুদ্ধিমত্তার ক্ষেত্রে জড়িত যে কোনও ব্যক্তির জন্য এটি একটি খুব প্রতিশ্রুতিশীল গবেষণার পথ তৈরি করে।