কৃত্রিম বুদ্ধিমত্তা প্রযুক্তির বিবর্তনে আগ্রহী যে কেউ জানেন যে আজকের সমাধানগুলি   এবং   সম্পর্কে। সংক্ষেপে, এলএলএম হল নিউরাল নেটওয়ার্ক যা ইনপুট টোকেনগুলির উপর ভিত্তি করে পরবর্তী টোকেনের পূর্বাভাস দিতে পারে। সাধারণত, এই টোকেনগুলি হল শব্দ (এটি সম্পূর্ণরূপে সঠিক নয়, তবে এইভাবে ধারণা করা সহজ), এবং নেটওয়ার্কের আউটপুটও একটি শব্দ। এভাবেই ChatGPT কাজ করে। আপনি একটি প্রশ্ন ইনপুট, এবং নেটওয়ার্ক একটি শব্দ উৎপন্ন করে. তারপর, একটি সম্পূর্ণ উত্তর তৈরি না হওয়া পর্যন্ত, প্রশ্ন এবং শব্দটি একসাথে নেটওয়ার্ক ইনপুটে পরিণত হয়, অন্য একটি শব্দ তৈরি করে এবং আরও অনেক কিছু। বড় ভাষা মডেল (এলএলএম) ট্রান্সফরমার  যাইহোক, টোকেন শুধু শব্দের চেয়ে বেশি হতে পারে। GPT-4 বা জেমিনির মতো উন্নত ভাষার মডেলগুলি এখন মাল্টিমোডাল, যার অর্থ তাদের ইনপুটে ছবি এবং শব্দ অন্তর্ভুক্ত থাকতে পারে। একটি বাক্যকে যেমন শব্দে ভাগ করা যায়, তেমনি একটি চিত্রকে ছোট ছোট প্যাচগুলিতে ভাগ করা যায় এবং সেখান থেকে একই ট্রান্সফরমার আর্কিটেকচার সেগুলিকে প্রক্রিয়া করতে পারে। উদাহরণস্বরূপ, একটি মাল্টিমোডাল নেটওয়ার্ককে একটি ছবিতে কী রয়েছে তা বর্ণনা করতে বা ছবিতে দেখা ব্যবহারকারী ইন্টারফেস কোড করতে বলা যেতে পারে।   এই স্থাপত্য আরও সাধারণ।   সিস্টেম হল একটি প্রধান উদাহরণ, যেখানে একটি একক ট্রান্সফরমার নেটওয়ার্ক একই সাথে প্রশ্নের উত্তর দিতে পারে, ভিডিও গেম খেলতে পারে বা একটি রোবটকে নিয়ন্ত্রণ করতে পারে এবং রোবটগুলিকে   হয়েছে। যেহেতু একটি LLM টোকেনগুলির সাথে কাজ করে এবং যে কোনও কাজকে টোকেনাইজ করা যেতে পারে, একটি LLM যে কোনও কাজের জন্য একটি সর্বজনীন সমাধান প্রদান করে।  ডিপমাইন্ডের গ্যাটো ChatGPT ব্যবহার করেও নিয়ন্ত্রণ করা  সম্প্রতি সবচেয়ে হাইপড টেক নিউজগুলির মধ্যে একটি হল   কোম্পানি একটি   ডেভেলপ করছে যা প্রথাগত GPU গুলির তুলনায় অনেক বেশি দক্ষতার সাথে এবং কম শক্তিতে LLM চালাতে পারে৷ এটি স্পষ্টভাবে দেখায় যে এলএলএম আর্কিটেকচার এতটাই মৌলিক হয়ে উঠেছে যে এটির জন্য বিশেষ হার্ডওয়্যার তৈরি করা এখন সার্থক। Groq ASIC (অ্যাপ্লিকেশন-স্পেসিফিক ইন্টিগ্রেটেড সার্কিট)  এছাড়াও সম্প্রতি, "   " শিরোনামে একটি প্রকাশনা প্রকাশিত হয়েছে৷ নিউরাল নেটওয়ার্কের কোয়ান্টাইজেশন আকার এবং গণনাগত চাহিদা হ্রাস করার জন্য একটি সাধারণ পদ্ধতি। সমাধানের সারমর্ম হল ফ্লোটিং-পয়েন্ট নম্বরগুলি ব্যবহার করে বড় GPU ক্লাস্টারে প্রশিক্ষণ সঞ্চালন করা এবং তারপরে সমাপ্ত নেটওয়ার্কের ওজনগুলিকে একটি কম সুনির্দিষ্ট বিন্যাসে রূপান্তর করা, যা ব্যবহারকারীর ডিভাইসগুলির প্রসেসরগুলিকে আরও দক্ষতার সাথে কাজ করতে দেয়৷ উদাহরণ স্বরূপ, প্রশিক্ষণটি 16 বা 32-বিট ফ্লোটিং-পয়েন্ট নম্বরগুলির সাথে সঞ্চালিত হয়, যা দ্রুত ক্লায়েন্ট-সাইড অপারেশনের জন্য 8 বা 4-বিট ফিক্সড-পয়েন্ট নম্বরে রূপান্তরিত হয়। এইভাবে, মডেলটি এমনকি মোবাইল বা IoT ডিভাইসেও ভালভাবে কাজ করতে পারে। এই কোয়ান্টাইজেশনের একটি চরম রূপ হল যখন ওজন 1-বিট সংখ্যায় রূপান্তরিত হয়। এটি একটি   হতে পারে, অথবা প্রকাশনা অনুসারে, মান ব্যবহার করে {-1,0,1} (অতএব 1.58 বিট)। কেউ ভাবতে পারে যে এই ধরনের চরম পরিমাপকরণ নেটওয়ার্কটিকে সম্পূর্ণরূপে অব্যবহারযোগ্য করে তুলবে, কিন্তু বাস্তবে এর বিপরীত সত্য; এই 1-বিট নেটওয়ার্কগুলি ব্যতিক্রমীভাবে ভাল কাজ করে। 1-বিট এলএলএমের যুগ: সমস্ত বড় ভাষার মডেলগুলি 1.58 বিটে সম্পূর্ণ বাইনারি রূপান্তর   কেন এই এত বড় চুক্তি?  যদি এই তিনটি মান ওজনের প্রতিনিধিত্ব করার জন্য যথেষ্ট হয়, তাহলে গুণন, যা বর্তমানে নিউরাল নেটওয়ার্কে সবচেয়ে বেশি ব্যবহৃত অপারেশন, এর আর প্রয়োজন নেই। এই কারণেই জিপিইউ ক্লাস্টারগুলি নিউরাল নেটওয়ার্কগুলির জন্য ব্যবহার করা হয়, কারণ জিপিইউগুলি খুব দক্ষতার সাথে গুণন সম্পাদন করতে পারে। গুণের প্রয়োজন ব্যতীত, GPU-এর কোন প্রয়োজন নেই, এবং মডেলগুলি এমনকি CPU-তেও দক্ষতার সাথে চালানো যেতে পারে, অথবা বিশেষ হার্ডওয়্যার (ASIC) তৈরি করা সম্ভব যা (এমনকি একটি এনালগ উপায়েও) এই 1-বিট নেটওয়ার্কগুলি চালাতে পারে।  বর্তমানে, কোয়ান্টাইজেশন একটি পোস্ট-ট্রেনিং অপারেশন। সুতরাং, 1-বিট নেটওয়ার্কের ব্যবহার প্রশিক্ষণ প্রক্রিয়াকে ত্বরান্বিত করে না। তা সত্ত্বেও, তারা এখনও দরকারী কারণ প্রশিক্ষণ একটি এককালীন অপারেশন, কিন্তু নিউরাল নেটওয়ার্ক তারপর অগণিত বার চালানো হয়। ফলস্বরূপ, নেটওয়ার্কগুলি চালানো প্রশিক্ষণের তুলনায় উল্লেখযোগ্যভাবে বেশি শক্তি খরচ প্রতিনিধিত্ব করে। তাই, প্রশিক্ষণের প্রেক্ষাপটেও আমরা এই প্রযুক্তি থেকে উপকৃত হতে পারি।  যেহেতু গ্রেডিয়েন্ট-ভিত্তিক প্রশিক্ষণ 1-বিট বা বাইনারাইজড নেটওয়ার্কের সাথে কাজ করে না, তাই নন-গ্রেডিয়েন্ট-ভিত্তিক প্রযুক্তিগুলি প্রাসঙ্গিক হয়ে ওঠে (চেক   এবং   ), যেমন জেনেটিক অ্যালগরিদম বা অন্যান্য গ্রেডিয়েন্ট-মুক্ত প্রযুক্তি। যদিও বেশিরভাগ ক্ষেত্রে ব্যাকপ্রোপগেশন গ্রেডিয়েন্ট-মুক্ত সমাধানগুলির তুলনায় অনেক বেশি দক্ষ, 1-বিট নেটওয়ার্কগুলি তাদের ফ্লোটিং-পয়েন্ট সমকক্ষগুলির তুলনায় অনেক বেশি দক্ষতার সাথে চালানো যেতে পারে। সুতরাং, এটা হতে পারে যে ব্যাকপ্রোপাগেশনের মাধ্যমে, আমরা জেনেটিক অ্যালগরিদমের তুলনায় ফ্লোটিং-পয়েন্ট সংখ্যা ব্যবহার করে 10 গুণ দ্রুত সর্বোত্তম নেটওয়ার্ক খুঁজে পাই। কিন্তু যদি 1-বিট নেটওয়ার্ক 20 গুণ দ্রুত চলে, তাহলে জেনেটিক অ্যালগরিদম ব্যবহার করে প্রশিক্ষণ এখনও দ্বিগুণ দ্রুত হবে। গ্রেডিয়েন্ট-মুক্ত পদ্ধতিতে 1-বিট নেটওয়ার্কগুলিকে কীভাবে কার্যকরভাবে প্রশিক্ষিত করা যায় তা তদন্ত করা একটি খুব আকর্ষণীয় গবেষণা বিষয় হতে পারে। নেভারগ্রাড পিজিএডি  এই বিষয়টি এত আকর্ষণীয় হওয়ার আরেকটি কারণ হল যে এই নেটওয়ার্কগুলি প্রাকৃতিক মস্তিষ্কে পাওয়া নিউরাল নেটওয়ার্কগুলির সাথে আরও ঘনিষ্ঠভাবে সাদৃশ্যপূর্ণ (জৈবিকভাবে বিশ্বাসযোগ্য)। অতএব, আমি বিশ্বাস করি যে একটি ভাল গ্রেডিয়েন্ট-মুক্ত প্রশিক্ষণ অ্যালগরিদম বেছে নিয়ে এবং এই 1-বিট নেটওয়ার্কগুলি প্রয়োগ করে, আমরা এমন সিস্টেম তৈরি করতে পারি যা মানুষের মস্তিষ্কের মতো অনেক বেশি। অধিকন্তু, এটি ASIC-এর বাইরে প্রযুক্তিগত সমাধানগুলির সম্ভাবনা উন্মুক্ত করে যা পূর্বে সম্ভব ছিল না, যেমন এনালগ, আলো-ভিত্তিক, এমনকি জৈবিকভাবে ভিত্তিক প্রসেসর।  এটা সম্ভব যে এই দিকটি দীর্ঘমেয়াদে একটি শেষ পরিণতি হতে পারে, কিন্তু আপাতত, এর বৈপ্লবিক সম্ভাবনা স্পষ্ট, এটি কৃত্রিম বুদ্ধিমত্তার ক্ষেত্রে জড়িত যে কোনও ব্যক্তির জন্য এটি একটি খুব প্রতিশ্রুতিশীল গবেষণার পথ তৈরি করে।

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

This story contains AI-generated text. The author has used AI either for research, to generate outlines, or write the text itself. 

2022 - HackerNoon Contributor of the Year - Dao

2022 - HackerNoon Contributor of the Year - Neural Networks

2022 - HackerNoon Contributor of the Year - Proof Of Stake

2022 - Ios Writer of the Year

Nominated for 2022 - HackerNoon Contributor of the Year - Neural Networks

Nominated for 2022 - HackerNoon Contributor of the Year - Proof Of Stake

Nominated for 2022 - HackerNoon Contributor of the Year - Dao

Nominated for 2022 - Ios Writer of the Year

গল্পের মূল ভাষায় এই অডিও তৈরি!

1-বিট ল্যাঙ্গুয়েজ মডেলের বিপ্লবী সম্ভাবনা (LLM)

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

টেলিগ্রাম: ক্রিপ্টো দ্বীপের মূল ভূখণ্ডের সেতু

ক্রিপ্টো গ্রোথ: কার্যকরী ব্যবহারকারী ব্যক্তিত্ব তৈরি করা

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

হ্যাকারনুন লেখার প্রতিযোগিতা জিততে চান? #crypto-api প্রতিযোগিতার বিজয়ীরা কী সুপারিশ করেন তা এখানে

টেলিগ্রাম: ক্রিপ্টো দ্বীপের মূল ভূখণ্ডের সেতু

ক্রিপ্টো গ্রোথ: কার্যকরী ব্যবহারকারী ব্যক্তিত্ব তৈরি করা

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

হ্যাকারনুন লেখার প্রতিযোগিতা জিততে চান? #crypto-api প্রতিযোগিতার বিজয়ীরা কী সুপারিশ করেন তা এখানে

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps