এই সিরিজের প্রথম 3টি নিবন্ধের আশ্চর্যজনক প্রতিক্রিয়া দেখে, আমাকে একটি 4 র্থ অংশ নিয়ে আসতে হয়েছিল।
পূর্ববর্তী 3টি নিবন্ধে, আমরা AI এজেন্টদের কথোপকথনের জন্য কর্মক্ষমতা মেট্রিক সংজ্ঞা, উপকরণ এবং মাপযোগ্যতা নিয়ে আলোচনা করেছি। আপনি যদি আগের নিবন্ধগুলি পরীক্ষা না করে থাকেন তবে এখানে লিঙ্কগুলি রয়েছে:
এই প্রবন্ধে, আমরা আলোচনা করব কিভাবে এই মেট্রিকগুলিকে আরও কার্যকর করা যায় (সর্বশেষ এলএলএম অগ্রগতিগুলি ব্যবহার করে) চলমান ভিত্তিতে কর্মক্ষমতা উন্নত করার জন্য। এই ডোমেনে কর্মরত প্রত্যেকের জন্য আলোচনাকে সরলীকৃত এবং মোটামুটি উচ্চ স্তরের রাখাই হবে লক্ষ্য।
ইউজার পারসিভড মেট্রিক্স এবং ইউজার রিপোর্টেড মেট্রিক্স হল 2টি উচ্চ-স্তরের মেট্রিক্স যা আমরা আলোচনা করেছি। ঐতিহ্যগতভাবে, পূর্বেরটিকে একটি সিস্টেম-স্তরের মেট্রিক হিসাবে বিবেচনা করা হয় - এই মেট্রিকগুলি সরাসরি লগ থেকে পরিমাপ করা হয়। ফলস্বরূপ, ব্যবহারকারীর অনুভূত মেট্রিক্স প্রকৃতির দ্বারা ক্রিয়াযোগ্য এবং তাই কার্যকর।
অপারেশনাল মেট্রিক্স নিয়মিতভাবে প্রোডাকশন লগ থেকে ট্র্যাক করা হয় এবং টার্গেট সেটিং wrt টিম ওয়াইড OKR-এর জন্য ব্যবহার করা যেতে পারে।
যাইহোক, যদিও ব্যবহারকারীর অনুভূত মেট্রিকগুলি কার্যকর করা সহজ, এটি লক্ষ করা উচিত যে এগুলি "অনুভূত" এবং "প্রকৃত" ব্যবহারকারীর মেট্রিক নয়। ফলস্বরূপ, এই মেট্রিক্সে পাহাড়ে আরোহণ আপনার কথোপকথনমূলক এআই এজেন্ট সম্পর্কে ব্যবহারকারীর উপলব্ধিতে উল্লেখযোগ্য উন্নতি নাও করতে পারে। এই প্রকল্পগুলি একাধিক ত্রৈমাসিক জুড়ে বিস্তৃত হলে এটি সম্পদের অদক্ষ ব্যবস্থাপনার দিকে পরিচালিত করতে পারে।
ব্যবহারকারীর রিপোর্ট করা মেট্রিক্সে সরাসরি সমস্ত কর্মক্ষমতা উন্নতির প্রত্যাশিত প্রভাব পরিমাপ করার একটি উপায় থাকা দরকার। এটিকে "উত্তর তারকা" প্রভাব হিসাবে বিবেচনা করা উচিত। তাহলে সমস্যাটা কি?
প্রত্যক্ষ ব্যবহারকারীর প্রতিক্রিয়া অসংগঠিত হবে বলে আশা করা হচ্ছে যা কর্মযোগ্য নয় এবং কার্যকর করার জন্য ভিন্ন।
বিশদ ব্যবহারকারী-প্রতিবেদিত প্রতিক্রিয়া প্রকৃতির দ্বারা অসংগঠিত হওয়া উচিত। যদি ব্যবহারকারী-প্রতিবেদিত প্রতিক্রিয়াটি কাঠামোগতভাবে তৈরি করা হয়, তাহলে এটি অভ্যন্তরীণ দল ইতিমধ্যেই সচেতন এলাকাগুলিতে ফোকাস করতে পারে। এগুলি ছাড়াও, ব্যবহারকারীর রিপোর্ট করা মেট্রিকগুলিও ঋতু এবং কোম্পানির উপলব্ধির মতো কারণগুলির দ্বারা প্রভাবিত হয়৷
ব্যবহারকারীর অনুভূত মেট্রিক্সের উপর প্রভাব আরও সঠিকভাবে অনুমান করা যেতে পারে তবে ব্যবহারকারীর রিপোর্ট করা মেট্রিক্সে অনেকগুলি অনিয়ন্ত্রিত কারণ রয়েছে।
অসংগঠিত ব্যবহারকারীর রিপোর্ট করা প্রতিক্রিয়া একটি কাঠামোগত বিন্যাসে রূপান্তর করা উচিত যা কার্যকর করা যেতে পারে। অসংগঠিত প্রতিক্রিয়াকে বিদ্যমান সিস্টেম-স্তরের মেট্রিক্সে রূপান্তর করার উদ্দেশ্যে প্রশিক্ষিত নির্দিষ্ট এমএল মডেল থাকতে পারে।
এটি উল্লেখ করা উচিত যে এই মেট্রিক্সের অন্তর্নিহিত তির্যক থেকে রক্ষা করার জন্য "সাম্প্রতিক" ব্যবহারকারীর মেট্রিক রিগ্রেশনের জন্য ব্যবহারকারীর রিপোর্ট করা মেট্রিক্সের প্রাথমিক লক্ষ্য ব্যবহার করা আরও বেশি ব্যবহারিক হতে পারে। আরও অনুভূমিক দীর্ঘমেয়াদী প্রকল্পের জন্য, এই মেট্রিকগুলি সিস্টেম-স্তরের মেট্রিক্সের সাথে ব্যবহারকারীর উপলব্ধির উপর প্রভাব পরিমাপ করতে ব্যবহার করা উচিত।
এখন প্রশ্ন থেকে যায়, আমরা যে নির্দিষ্ট মেট্রিকগুলি খুঁজছি তার জন্য এমএল মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য কী প্রচেষ্টা প্রয়োজন? LLM-এর জনপ্রিয়তা এবং প্রাপ্যতার সাম্প্রতিক বৃদ্ধির সাথে, সিস্টেম-স্তরের মেট্রিক্সের মতো ট্র্যাক এবং পরিমাপ করা যেতে পারে এমন কিছুতে আনস্ট্রাকচার্ড ফিডব্যাককে রূপান্তর করতে অ-অফ-দ্য-বক্স API ব্যবহার করা সম্ভব হতে পারে।
এটি লক্ষ করা গুরুত্বপূর্ণ যে LLM যে টোকেনগুলি প্রক্রিয়া করতে পারে তার সংখ্যা বৃদ্ধির সাথে সাথে "প্রম্পট" এর অংশ হিসাবে প্রচুর পণ্য-নির্দিষ্ট তথ্য সরবরাহ করা যেতে পারে। ফলস্বরূপ, কিছু প্রম্পট ইঞ্জিনিয়ারিং সহ অফ-দ্য-শেল্ফ এলএলএম এপিআইগুলি কার্যযোগ্য ব্যবহারকারীর রিপোর্ট করা মেট্রিক্স প্রদান করতে পারে।
এটি ব্যবহারকারীর ধারণার উপর সিস্টেম-স্তরের মেট্রিক উন্নতি প্রকল্পগুলির প্রভাব মূল্যায়ন করার একটি সত্যিই দ্রুত উপায় প্রদান করে যা কর্মক্ষমতা উন্নতি প্রকল্পগুলিকে অগ্রাধিকার দেওয়ার ক্ষেত্রে কার্যকর হতে পারে।
এমনকি স্ট্রাকচার্ড ইউজার রিপোর্টেড মেট্রিক্সের এই পদ্ধতির সাথেও, অপ্রত্যাশিত পরিবর্তনের জন্য এখনও জায়গা রয়েছে। যাইহোক, এটি কিছু স্তরের আত্মবিশ্বাসের সাথে অনুমান করা যেতে পারে যে, যদি একটি নির্দিষ্ট প্রকল্প (একটি সিস্টেম-স্তরের মেট্রিককে উন্নত করার লক্ষ্যে) রিপোর্ট করা মেট্রিক্সকে ইতিবাচকভাবে প্রভাবিত করে, তাহলে প্রকল্পটি সম্ভবত ব্যবহারকারীর ধারণার উন্নতি করছে।
যাইহোক, এর কোন গ্যারান্টি নেই যে সমস্ত প্রকৃতপক্ষে "ভাল" পরিবর্তনগুলি সর্বদা কার্যকরভাবে ব্যবহারকারীর রিপোর্ট করা মেট্রিক্সকে উন্নত করবে। ফলস্বরূপ, কর্মক্ষমতা উন্নয়ন প্রকল্পগুলিকে অগ্রাধিকার দিতে এবং মূল্যায়ন করতে উভয়ের মিশ্রণ ব্যবহার করা গুরুত্বপূর্ণ।