ক্রমাঙ্কন- যদিও মেশিন লার্নিংয়ের সবচেয়ে গুরুত্বপূর্ণ ধারণাগুলির মধ্যে একটি, তবে এআই/এমএল স্পেসে শিক্ষানবিস উত্সাহীদের মধ্যে যথেষ্ট কথা বলা হয় না। ক্রমাঙ্কন আমাদের বলে যে আমরা একটি মডেলের ভবিষ্যদ্বাণীকে কতটা বিশ্বাস করতে পারি, বিশেষ করে শ্রেণীবিভাগের মডেলগুলিতে। মেশিন লার্নিং ক্লাসিফায়ারগুলির সংখ্যাসূচক আউটপুটগুলির অর্থপূর্ণ ব্যাখ্যার জন্য ক্রমাঙ্কনের একটি ভাল উপলব্ধি একটি প্রয়োজনীয়তা। এই নিবন্ধে, আমরা কিছু সাধারণ বাস্তব জীবনের উদাহরণের মাধ্যমে মেশিন লার্নিং মডেল ক্রমাঙ্কনের পিছনে তত্ত্ব এবং এর গুরুত্ব নিয়ে আলোচনা করব।
একটি মেশিন লার্নিং মডেল ক্যালিব্রেট করা হয় যদি এটি ক্যালিব্রেটেড সম্ভাব্যতা তৈরি করে। আরও নির্দিষ্টভাবে, সম্ভাব্যতাগুলি ক্রমাঙ্কিত করা হয় যেখানে p আত্মবিশ্বাস সহ একটি শ্রেণির ভবিষ্যদ্বাণী সময়ের 100*p শতাংশ সঠিক
জটিল মনে হচ্ছে?
আসুন একটি সহজ উদাহরণের মাধ্যমে বুঝতে পারি:
আসুন আমরা বিবেচনা করি যে একটি নির্দিষ্ট দিনে বৃষ্টি হবে কি না তা ভবিষ্যদ্বাণী করার জন্য আমাদের একটি মেশিন-লার্নিং মডেল তৈরি করতে হবে। যেহেতু শুধুমাত্র 2টি সম্ভাব্য ফলাফল রয়েছে - "বৃষ্টি" এবং "বৃষ্টি নেই", আমরা এটিকে একটি বাইনারি শ্রেণিবিন্যাস মডেল হিসাবে বিবেচনা করতে পারি।
এখানে, "বৃষ্টি" হল একটি ধনাত্মক শ্রেণী যা 1 হিসাবে উপস্থাপন করা হয় এবং "No Rain" একটি নেতিবাচক শ্রেণী যা 0 হিসাবে উপস্থাপন করা হয়।
যদি একটি নির্দিষ্ট দিনের জন্য মডেলের ভবিষ্যদ্বাণী 1 হয় তবে আমরা বিবেচনা করতে পারি যে দিনটি বৃষ্টি হতে চলেছে।
একইভাবে, যদি একটি নির্দিষ্ট দিনের জন্য মডেলের ভবিষ্যদ্বাণী 0 হয় তবে আমরা বিবেচনা করতে পারি যে দিনটি বৃষ্টি হবে না বলে আশা করা হচ্ছে।
রিয়েল-টাইমে, মেশিন লার্নিং মডেলগুলি প্রায়শই ভবিষ্যতবাণীকে একটি সংখ্যাসূচক ভেক্টর হিসাবে উপস্থাপন করে যা কিছু সম্ভাব্যতার মান উপস্থাপন করে।
সুতরাং, এটি প্রয়োজনীয় নয় যে আমরা সর্বদা 0 বা 1 এর একটি মান পাব। সাধারণত, যদি পূর্বাভাসিত মান 0.5 এর চেয়ে বেশি বা সমান হয় তবে এটি 1 হিসাবে বিবেচিত হবে এবং যদি পূর্বাভাসিত মান 0.5 এর কম হয় তবে এটি 0 হিসাবে বিবেচিত হয়। .
উদাহরণস্বরূপ, যদি একটি নির্দিষ্ট দিনের জন্য মডেলের ভবিষ্যদ্বাণী 0.66 হয় তবে আমরা এটিকে 1 হিসাবে বিবেচনা করতে পারি। একইভাবে, যদি একটি নির্দিষ্ট দিনের জন্য মডেলের ভবিষ্যদ্বাণী 0.24 হয় তবে আমরা এটিকে 0 হিসাবে বিবেচনা করতে পারি।
আসুন ধরে নিই যে আমাদের মডেলটি আসন্ন 10 দিনের জন্য ফলাফলের ভবিষ্যদ্বাণী করেছে:
আমরা দেখতে পাচ্ছি যে যদি সম্ভাব্যতার মান 0.5 এর চেয়ে বেশি বা সমান হয় তবে পূর্বাভাসটি "বৃষ্টি"।
একইভাবে, আমরা দেখতে পাচ্ছি যে যদি সম্ভাব্যতার মান 0.5-এর কম হয় তবে ভবিষ্যদ্বাণীটি হল "বৃষ্টি নেই"।
এখন, পরিসংখ্যানগত প্রশ্ন হল-
"সম্ভাব্যতার মানগুলি কি ফলাফলের জন্য প্রকৃত সম্ভাবনার মান?"
অন্য কথায়, যদি আমার সম্ভাব্যতা মান 0.8 থাকে তাহলে এর মানে কি 80% সম্ভাবনা আছে যে দিনটি বৃষ্টি হবে?
যদি আমার সম্ভাব্যতা মান 0.2 হয় তবে এর মানে কি 20% সম্ভাবনা আছে যে দিনটি বৃষ্টি হবে?
পরিসংখ্যানগতভাবে, যদি আমি দাবি করি যে আমার মডেলটি ক্যালিব্রেট করা হয়েছে তাহলে উত্তরটি "হ্যাঁ" হওয়া উচিত।
আউটপুটের শ্রেণি নির্ধারণের জন্য সম্ভাব্যতার মানগুলি কেবলমাত্র থ্রেশহোল্ড মান হওয়া উচিত নয়। পরিবর্তে, এটি ফলাফলের প্রকৃত সম্ভাবনার প্রতিনিধিত্ব করা উচিত।
এখানে, দিন 1 এর সম্ভাব্যতা মান 0.81 আছে কিন্তু 10 দিনের সম্ভাবনার মান শুধুমাত্র 0.76। এর মানে যদিও উভয় দিনেই বৃষ্টির সম্ভাবনা রয়েছে, তবে 10 দিনের তুলনায় 5% বেশি বৃষ্টিপাতের সম্ভাবনা রয়েছে। এটি ফলাফলের সম্ভাব্য পূর্বাভাসের শক্তি দেখায়। একজন ভালো পরিসংখ্যানবিদ যদি এই ধরনের একটি মডেল পেয়ে থাকেন তাহলে তিনি এর মতো অনেক ফলাফল থেকে অনেক প্যাটার্নের অনুমান করবেন।
আসুন দেখি কিভাবে পরিসংখ্যানবিদরা মডেল ক্রমাঙ্কনকে গ্রাফিকাল উপায়ে ব্যাখ্যা করছেন।
X-অক্ষে সমানভাবে বিভক্ত 0 থেকে 1 পর্যন্ত মান সহ একটি গ্রাফ বিবেচনা করুন-
এখন, প্রতিটি বালতিতে, তাদের সম্ভাব্যতার মান অনুযায়ী ফলাফল প্লট করুন।
উদাহরণ স্বরূপ,
0.6-0.8 বালতিতে, আমাদের কাছে 4টি ডেটা পয়েন্ট রয়েছে - দিন 4, দিন 8, দিন 9 এবং দিন 10।
একইভাবে, আমরা অন্যান্য সমস্ত বালতিগুলির জন্য একই পদ্ধতি অনুসরণ করতে পারি-
এখন অবধি, আমরা শুধুমাত্র পূর্বাভাসিত মান প্লট করেছি।
যেহেতু, আমাদের ইতিবাচক শ্রেণী হল "বৃষ্টি", আসুন প্রতিটি বালতির মানগুলিকে আলাদা করি যার প্রকৃত মান হল "বৃষ্টি"।
এখন, প্রতিটি বালতিতে ধনাত্মক শ্রেণীর ভগ্নাংশ খুঁজুন:
একবার এই পর্যায়ে পৌঁছে গেলে, এই ভগ্নাংশ মানগুলিকে Y-অক্ষ বরাবর একটি রেখা হিসাবে প্লট করুন-
লাইনটি সঠিক রৈখিক কাঠামোতে নেই। এর মানে হল যে আমাদের মডেলটি ভালভাবে ক্যালিব্রেট করা হয়নি। একটি ভাল-ক্যালিব্রেটেড মডেলের চার্ট দেখতে এরকম হত-
আদর্শভাবে, একটি ভাল-ক্যালিব্রেটেড মডেল 3য় বালতিতে (0.4-0.6) প্রায় 40%-60% "বৃষ্টি" হওয়ার সম্ভাবনা আশা করে৷ যাইহোক, আমাদের মডেল "বৃষ্টি" হওয়ার ফলাফলের মাত্র 30% সম্ভাবনা দিচ্ছে। এটি একটি উল্লেখযোগ্য বিচ্যুতি। এই ধরনের বিচ্যুতি অন্যান্য বালতিতেও দেখা যায়।
কিছু পরিসংখ্যানবিদ মডেলের কর্মক্ষমতা মূল্যায়ন করার জন্য ক্রমাঙ্কিত বক্ররেখা এবং মডেলের সম্ভাব্যতা বক্ররেখার মধ্যবর্তী এলাকা ব্যবহার করেন। যখন এলাকাটি ছোট হয়ে যায়, তখন কার্যক্ষমতা আরও বেশি হবে কারণ মডেল বক্ররেখা একটি ক্রমাঙ্কিত বক্ররেখার কাছাকাছি হবে।
অনেক রিয়েল-টাইম পরিস্থিতি রয়েছে যেখানে ML অ্যাপ্লিকেশনগুলির শেষ ব্যবহারকারীরা কার্যকর এবং অন্তর্দৃষ্টিপূর্ণ সিদ্ধান্ত গ্রহণের জন্য মডেল ক্রমাঙ্কনের উপর নির্ভর করে যেমন-
আসুন বিবেচনা করি যে আমরা একটি ই-কমার্স প্ল্যাটফর্মের জন্য একটি র্যাঙ্কিং-ভিত্তিক মডেল তৈরি করছি। যদি একটি মডেল ভাল-ক্যালিব্রেট করা হয় তবে এর সম্ভাব্যতার মানগুলি সুপারিশের উদ্দেশ্যে বিশ্বাস করা যেতে পারে। উদাহরণস্বরূপ, মডেলটি বলে যে ব্যবহারকারীর পণ্য A পছন্দ করার 80% সম্ভাবনা রয়েছে এবং ব্যবহারকারীর পণ্য B পছন্দ করার 65% সম্ভাবনা রয়েছে। তাই, আমরা প্রথম পছন্দ এবং পণ্য B হিসাবে ব্যবহারকারীকে পণ্য A সুপারিশ করতে পারি দ্বিতীয় পছন্দ হিসাবে।
ক্লিনিকাল ট্রায়ালের ক্ষেত্রে, বিবেচনা করুন যে কিছু ডাক্তার ওষুধ তৈরি করছেন। যদি মডেলটি ভবিষ্যদ্বাণী করে যে 2টি ওষুধ চিকিত্সার জন্য খুব কার্যকর - ড্রাগ এ এবং ড্রাগ বি। এখন, ডাক্তারদের তালিকা থেকে সেরা উপলব্ধ বিকল্পটি বেছে নেওয়া উচিত কারণ তারা ঝুঁকি নিতে পারে না কারণ এটি একটি অত্যন্ত ঝুঁকিপূর্ণ পরীক্ষা। মানব জীবন. যদি মডেলটি ড্রাগ A এর জন্য 95% এবং ড্রাগ B এর জন্য 90% সম্ভাব্যতার মান দেয় তবে ডাক্তাররা অবশ্যই ড্রাগ A এর সাথে এগিয়ে যাবেন।
এই নিবন্ধে, আমরা মডেল ক্রমাঙ্কনের তাত্ত্বিক ভিত্তির মধ্য দিয়ে গিয়েছি এবং কিছু সাধারণ বাস্তব-জীবনের উদাহরণের মাধ্যমে একটি শ্রেণিবদ্ধকারীকে ক্রমাঙ্কিত করা হয়েছে কিনা তা বোঝার গুরুত্ব নিয়ে আলোচনা করেছি। মেশিন লার্নিং মডেলগুলির জন্য "নির্ভরযোগ্যতা" তৈরি করা প্রায়শই সার্ভারে এটি বিকাশ বা স্থাপনের চেয়ে গবেষকদের কাছে একটি বড় চ্যালেঞ্জ। মডেল ক্রমাঙ্কন এমন ক্ষেত্রে অত্যন্ত মূল্যবান যেখানে পূর্বাভাসিত সম্ভাবনা আগ্রহের বিষয়। এটি মডেলের ভবিষ্যদ্বাণীতে অনিশ্চয়তার অন্তর্দৃষ্টি বা বোঝার সুযোগ দেয় এবং ফলস্বরূপ, শেষ-ব্যবহারকারীর দ্বারা বোঝার জন্য মডেলের নির্ভরযোগ্যতা, বিশেষ করে সমালোচনামূলক অ্যাপ্লিকেশনগুলিতে।
আমি আশা করি, এই লেখাটি আপনাকে এই ধারণাটির একটি ভূমিকা পেতে এবং এর সমালোচনা বুঝতে সাহায্য করেছে। আপনি একই বিষয়ে গভীরভাবে বোঝার জন্য রেফারেন্স বিভাগে উল্লিখিত উপকরণগুলি উল্লেখ করতে পারেন।