কেন AI "স্ট্রবেরি" শব্দে "R" এর সংখ্যা গণনা করতে পারে না?
বৃহৎ ভাষার মডেল, বিশেষ করে OpenAI এর ChatGPT, আমরা কীভাবে এমন মেশিনের সাথে ইন্টারঅ্যাক্ট করেছি যেগুলি মানুষের মতো পাঠ্য বুঝতে পারে এবং তৈরি করতে পারে তা বিপ্লব করেছে৷ কিন্তু নিজেদের মধ্যে, এই মডেলগুলি তাদের নিজস্ব অদ্ভুততা-ভরা চরিত্র নিয়ে এসেছিল। সবচেয়ে বিরক্তিকর অদ্ভুততা যা সম্প্রতি সমস্ত সোশ্যাল মিডিয়ায় ঘুরেছে তা হল একটি শব্দে একটি নির্দিষ্ট অক্ষরের সংখ্যা সঠিকভাবে গণনা করতে এই বৃহৎ ভাষার মডেলের ব্যর্থতা। একটি খুব জনপ্রিয় উদাহরণ হল "স্ট্রবেরি" শব্দটি, যেখানে AI প্রায়শই সঠিকভাবে গণনা করতে ব্যর্থ হয় যে কতবার "r" এসেছে। কিন্তু কেন এটা করে? এই মডেলগুলি কীভাবে প্রক্রিয়া করে এবং ভাষা তৈরি করে তার উত্তরটি গভীরভাবে নিহিত।
অক্ষর গণনার মতো প্রশ্নে এআই হোঁচট খাওয়ার অন্যতম প্রধান কারণ হল এটি আসলে শব্দগুলিকে প্রক্রিয়া করার উপায়। ভাষা মডেল, যেমন GPT-3 এবং GPT-4, শব্দগুলিকে পৃথক অক্ষরের ক্রম হিসাবে বিবেচনা করে না। পরিবর্তে, তারা টেক্সটকে "টোকেন" নামে ছোট ছোট ইউনিটে বিভক্ত করে। টোকেনগুলি একটি অক্ষরের মতো ছোট বা একটি সম্পূর্ণ শব্দের মতো দীর্ঘ হতে পারে, প্রশ্নে থাকা মডেলের নকশা এবং জড়িত নির্দিষ্ট শব্দের উপর নির্ভর করে৷
উদাহরণস্বরূপ, "স্ট্রবেরি" শব্দটি সম্ভবত দুটি টোকেনে বিভক্ত হবে, আংশিক শব্দের খণ্ডের উপস্থাপনা যা মডেল প্রশিক্ষণ থেকে জানে। বিষয় হল যে এইগুলি সাধারণত শব্দের অক্ষরের সাথে মিলে না। এর কারণ হল, "স্ট্রবেরি" এর মতো উদাহরণে AI শব্দটিকে সম্পূর্ণ, একক অক্ষরে নয় বরং দুটি টোকেন দেখতে পারে; যেমন টোকেন আইডি 496 এবং 675। যখন, পরবর্তীতে, নির্দিষ্ট অক্ষর গণনা করতে বলা হয়, এই মডেলটি টোকেনগুলিকে একটি নির্দিষ্ট অক্ষরের সংখ্যার সাথে ম্যাপ করার সহজ উপায় খুঁজে পাবে না।
মূলত, ভাষার মডেল পূর্ববর্তী শব্দ বা টোকেন দ্বারা প্রদত্ত প্রেক্ষাপটের উপর ভিত্তি করে একটি অনুক্রমের পরবর্তী শব্দ বা টোকেন কী হবে তা ভবিষ্যদ্বাণী করে। এটি বিশেষত টেক্সট তৈরি করার জন্য কাজ করে যা শুধুমাত্র সুসংগত নয় বরং এর প্রেক্ষাপট সম্পর্কেও সচেতন। যাইহোক, এটি আসলে এমন উদ্দেশ্যগুলির জন্য উপযুক্ত নয় যার জন্য আপনাকে নির্দিষ্টভাবে কিছু গণনা করতে হবে বা পৃথক অক্ষর সম্পর্কে যুক্তি দিতে হবে।
আপনি যদি AI কে "স্ট্রবেরি" শব্দে "r" অক্ষরের সংঘটনের সংখ্যা গণনা করতে বলবেন, তবে এতে শব্দের এত সূক্ষ্ম উপস্থাপনা থাকবে না যেখান থেকে সেই অক্ষরের প্রতিটি উদাহরণের সংখ্যা এবং অবস্থান। উদ্ভূত হতে পারে। পরিবর্তে, এটি অনুরোধের কাঠামো থেকে ভবিষ্যদ্বাণী গঠনের বিষয়ে যা শিখেছে তার ছাঁচে উত্তর দেয়। অবশ্যই, এটি ভুল হতে পারে, কারণ এটি যে ডেটা থেকে শিখেছে তা অক্ষর গণনা সম্পর্কে নয়, এবং আমাদের উদাহরণ শব্দে "r" সনাক্ত করতে যে ধরনের উপাদান লাগবে তা অন্তর্ভুক্ত নাও করতে পারে৷
আরেকটি গুরুত্বপূর্ণ বিষয় হল যে বেশিরভাগ চ্যাটবটে ব্যবহৃত ভাষার মডেলগুলি স্পষ্ট গণনা বা পাটিগণিতের জন্য অনুপযুক্ত। অন্য উপায়ে, বিশুদ্ধ ভাষার মডেলগুলি উন্নত অভিধান বা ভবিষ্যদ্বাণীমূলক পাঠ্য অ্যালগরিদমগুলির তুলনায় সামান্য বেশি যা তারা যে নিদর্শনগুলি শিখেছে তার উপর ভিত্তি করে সম্ভাব্যতা সহ ওজনযুক্ত কাজগুলি করে তবে এমন কাজগুলির সাথে লড়াই করে যার জন্য কঠোর যৌক্তিক যুক্তি প্রয়োজন, যেমন গণনা। যদি AI-কে একটি শব্দের বানান করতে বলা হয় বা একে একেক অক্ষরে ভাঙতে বলা হয়, তবে এটি প্রায়শই এই অধিকার পেতে পারে, কারণ এটি যে কাজটির উপর প্রশিক্ষিত হয়েছে তার সাথে এটি আরও বেশি সামঞ্জস্যপূর্ণ: পাঠ্য প্রজন্ম।
এই সীমাবদ্ধতা সত্ত্বেও, এই ধরনের কাজগুলিতে AI-এর কর্মক্ষমতার উন্নতি সম্ভব। AI-কে সব ধরনের প্রোগ্রামিং ল্যাঙ্গুয়েজ, যেমন Python, গণনা করার জন্য ব্যবহার করতে বলে তাদের উন্নত করা যেতে পারে। উদাহরণস্বরূপ, আপনি AI কে একটি পাইথন ফাংশন লেখার জন্য একটি নির্দেশ দেওয়ার চেষ্টা করতে পারেন যা "স্ট্রবেরি" এ "r" এর সংখ্যা গণনা করে এবং এটি সম্ভবত এটি ঠিক করতে পারে। আমরা এই পদ্ধতিটি ব্যবহার করি কারণ এটি AI এর কোড বোঝার এবং তৈরি করার ক্ষমতাকে কাজে লাগায়, যা সঠিকভাবে কাজটি সম্পাদন করতে পারে।
এছাড়াও, সাম্প্রতিক প্রজন্মের ভাষা মডেলগুলিকে অন্যান্য সরঞ্জাম এবং অ্যালগরিদমগুলির সাথে একত্রিত করা হয়েছে যা এই মডেলগুলিকে আরও কাঠামোগত কাজের জন্য আরও শক্তিশালী করে তোলে, যার মধ্যে গণনা এবং গাণিতিকও রয়েছে৷
প্রতীকী যুক্তি এম্বেড করা বা বহিরাগত যুক্তি ইঞ্জিনের সাথে এলএলএমগুলিকে একত্রিত করা একটি এআই সিস্টেমকে সেই ত্রুটিগুলি কাটিয়ে উঠতে সক্ষম করে তুলবে।
শব্দে অক্ষর গণনার সমস্যা, যেমন "স্ট্রবেরি", এই বিষয়ে একটি অনেক বড় এবং আরও সাধারণ সমস্যা নির্দেশ করে: এই প্রশিক্ষিত মডেলগুলির "সম্মিলিত মূর্খতা"। এই মডেলগুলি, যদিও তারা খুব বড় ডেটাসেটে প্রশিক্ষিত হয়েছে এবং এইভাবে খুব পরিশীলিত স্তরে পাঠ্য তৈরি করতে পারে, তবুও মাঝে মাঝে খুব বোকা ভুল করে যা একটি ছোট শিশু সহজেই এড়াতে পারে। এটি ঘটে কারণ মডেলটির "জ্ঞান" অবশ্যই প্যাটার্ন স্বীকৃতি এবং পরিসংখ্যানগত সংস্থান দ্বারা গঠিত হতে হবে, এর বাস্তব-বিশ্ব বোঝা বা যৌক্তিক অনুমানের পরিবর্তে।
এমনকি যখন বিশদভাবে নির্দেশ দেওয়া হয় বা এমনকি এমন পরিস্থিতিতে সেট আপ করা হয় যেখানে একাধিক মডেল একে অপরকে পরীক্ষা করে, তখনও AI একগুঁয়েভাবে ভুল উত্তরে লেগে থাকতে পারে। এই আচরণটি বিশদভাবে দেখায় যে AI সিস্টেমগুলিকে তাদের শক্তিশালী স্যুটের বাইরে ক্ষমতার জন্য অতিরিক্ত মূল্যায়ন না করা বরং তারা কী করতে পারে এবং কী করতে পারে না তা সম্পূর্ণরূপে উপলব্ধি করা কতটা গুরুত্বপূর্ণ।
একটি "স্ট্রবেরি" তে "r" সংখ্যা গণনা করতে AI-এর অক্ষমতা একটি নিছক তুচ্ছ ত্রুটি ছাড়া অন্য কিছু; বরং, এটি ভাষা মডেলের অন্তর্নিহিত স্থাপত্য এবং নকশা দর্শনের প্রতিফলন। এই মডেলগুলি মানুষের মতো টেক্সট তৈরি করতে, প্রসঙ্গ বোঝার এবং কথোপকথনের অনুকরণে খুব শক্তিশালী কিন্তু এমন কাজগুলির জন্য সরাসরি তৈরি করা হয় না যেগুলি বিশেষভাবে চরিত্রের স্তরে বিশদে মনোযোগের প্রয়োজন হয়৷
AI ক্রমাগত উন্নতির সাথে, ভবিষ্যতের মডেলগুলি টোকেনাইজেশনের উন্নত প্রক্রিয়াগুলির মাধ্যমে, অতিরিক্ত যুক্তির সরঞ্জামগুলিকে একীভূত করার বা এমনকি ভাষা বোঝার এবং ম্যানিপুলেট করার সম্পূর্ণ ভিন্ন উপায়ের মাধ্যমে এই জাতীয় কাজগুলি আরও বেশি সক্ষম হতে পারে। ততক্ষণ পর্যন্ত, এটির সীমাবদ্ধতাগুলি বোঝার সাথে যোগাযোগ করা উচিত, উপযুক্ত সমাধান এবং স্বীকৃতি ব্যবহার করে যে এটি বোঝার অনুকরণ করতে পারে, এটি এখনও মানুষের মতো করে "বোঝে না"।