इस श्रृंखला के पहले तीन लेखों को मिली अद्भुत प्रतिक्रिया को देखते हुए, मुझे चौथा भाग भी निकालना पड़ा।
पिछले 3 लेखों में, हमने बातचीत AI एजेंटों के लिए प्रदर्शन मीट्रिक परिभाषाओं, इंस्ट्रूमेंटेशन और स्केलेबिलिटी पर चर्चा की है। यदि आपने पिछले लेखों को नहीं पढ़ा है, तो यहां लिंक दिए गए हैं:
इस लेख में, हम चर्चा करेंगे कि इन मेट्रिक्स को और अधिक क्रियाशील कैसे बनाया जाए (नवीनतम एलएलएम प्रगति का उपयोग करके) ताकि निरंतर आधार पर प्रदर्शन में सुधार हो सके। इसका उद्देश्य इस डोमेन में काम करने वाले सभी लोगों के लिए चर्चा को सरल और काफी उच्च स्तर पर रखना होगा।
उपयोगकर्ता द्वारा अनुभव किए गए मीट्रिक और उपयोगकर्ता द्वारा रिपोर्ट किए गए मीट्रिक 2 उच्च-स्तरीय वर्ग हैं जिन पर हमने चर्चा की है। परंपरागत रूप से, पूर्व को सिस्टम-स्तरीय मीट्रिक के रूप में माना जाता है - इन मीट्रिक को सीधे लॉग से मापा जाता है। नतीजतन, उपयोगकर्ता द्वारा अनुभव किए गए मीट्रिक स्वभाव से कार्रवाई योग्य हैं और इसलिए परिचालन योग्य हैं।
परिचालन मेट्रिक्स को उत्पादन लॉग से नियमित आधार पर ट्रैक किया जाता है और इसका उपयोग टीम-व्यापी OKRs के संबंध में लक्ष्य निर्धारण के लिए किया जा सकता है।
हालाँकि, भले ही उपयोगकर्ता द्वारा अनुभव किए गए मेट्रिक्स को संचालित करना आसान है, लेकिन यह ध्यान दिया जाना चाहिए कि ये “अनुभूत” हैं और “वास्तविक” उपयोगकर्ता मेट्रिक्स नहीं हैं। नतीजतन, इन मेट्रिक्स पर चढ़ाई करने से आपके संवादी AI एजेंट की उपयोगकर्ता धारणा में कोई महत्वपूर्ण सुधार नहीं हो सकता है। यदि ये परियोजनाएँ कई तिमाहियों में फैली हुई हैं, तो इससे संसाधनों का अकुशल प्रबंधन हो सकता है।
सभी प्रदर्शन सुधारों के अपेक्षित प्रभाव को सीधे उपयोगकर्ता रिपोर्ट किए गए मीट्रिक के संदर्भ में मापने का एक तरीका होना चाहिए। इसे "उत्तर सितारा" प्रभाव के रूप में माना जाना चाहिए। तो, समस्या क्या है?
प्रत्यक्ष उपयोगकर्ता फीडबैक असंरचित होने की अपेक्षा की जाती है, जो कार्यान्वयन योग्य नहीं होता तथा जिसे कार्यान्वित करना कठिन होता है।
विस्तृत उपयोगकर्ता-रिपोर्ट की गई प्रतिक्रिया स्वभाव से असंरचित होनी चाहिए। यदि उपयोगकर्ता-रिपोर्ट की गई प्रतिक्रिया संरचित बनाई जाती है, तो यह उन क्षेत्रों पर ध्यान केंद्रित कर सकती है जिनके बारे में आंतरिक टीम पहले से ही जानती है। इनके अलावा, उपयोगकर्ता रिपोर्ट किए गए मीट्रिक मौसमी और कंपनी की धारणा जैसे कारकों से भी प्रभावित होते हैं।
उपयोगकर्ता द्वारा अनुभव किये गये मेट्रिक्स पर प्रभाव का अनुमान अधिक सटीक रूप से लगाया जा सकता है, लेकिन उपयोगकर्ता द्वारा रिपोर्ट किये गये मेट्रिक्स में कई अनियंत्रित कारक होते हैं।
असंरचित उपयोगकर्ता रिपोर्ट की गई प्रतिक्रिया को एक संरचित प्रारूप में परिवर्तित किया जाना चाहिए जिसे कार्रवाई योग्य बनाया जा सके। असंरचित प्रतिक्रिया को मौजूदा सिस्टम-स्तरीय मीट्रिक में परिवर्तित करने के उद्देश्य से प्रशिक्षित विशिष्ट एमएल मॉडल हो सकते हैं।
यह ध्यान दिया जाना चाहिए कि इन मीट्रिक्स में अंतर्निहित विषमता से बचाने के लिए "हाल ही में" उपयोगकर्ता मीट्रिक प्रतिगमन के लिए उपयोगकर्ता रिपोर्ट किए गए मीट्रिक्स के प्राथमिक लक्ष्य का उपयोग करना अधिक व्यावहारिक हो सकता है। अधिक क्षैतिज दीर्घकालिक परियोजनाओं के लिए, इन मीट्रिक्स का उपयोग सिस्टम-स्तरीय मीट्रिक्स के साथ उपयोगकर्ता धारणा पर प्रभाव को मापने के लिए किया जाना चाहिए।
अब सवाल यह है कि हम जिस विशिष्ट मीट्रिक की तलाश कर रहे हैं, उसके लिए एमएल मॉडल को प्रशिक्षित करने के लिए क्या प्रयास करने की आवश्यकता है? हाल ही में एलएलएम की लोकप्रियता और उपलब्धता में वृद्धि के साथ, असंरचित फीडबैक को किसी ऐसी चीज़ में बदलने के लिए आउट-ऑफ-द-बॉक्स एपीआई का उपयोग करना संभव हो सकता है जिसे सिस्टम-स्तरीय मीट्रिक के समान ट्रैक और मापा जा सकता है।
यह ध्यान रखना महत्वपूर्ण है कि LLM द्वारा संसाधित किए जा सकने वाले टोकन की संख्या में वृद्धि के साथ, उत्पाद-विशिष्ट जानकारी का एक बहुत कुछ “प्रॉम्प्ट” के भाग के रूप में प्रदान किया जा सकता है। परिणामस्वरूप, कुछ प्रॉम्प्ट इंजीनियरिंग के साथ-साथ ऑफ-द-शेल्फ LLM API कार्रवाई योग्य उपयोगकर्ता रिपोर्ट किए गए मीट्रिक प्रदान कर सकते हैं।
यह उपयोगकर्ता की धारणा पर सिस्टम-स्तरीय मीट्रिक सुधार परियोजनाओं के प्रभाव का आकलन करने का एक बहुत तेज़ तरीका प्रदान करता है जो प्रदर्शन सुधार परियोजनाओं को प्राथमिकता देने में उपयोगी हो सकता है।
संरचित उपयोगकर्ता रिपोर्ट किए गए मीट्रिक के इस दृष्टिकोण के साथ भी, अप्रत्याशित परिवर्तनों के लिए अभी भी जगह है। हालांकि, यह कुछ हद तक विश्वास के साथ माना जा सकता है कि यदि कोई विशिष्ट परियोजना (सिस्टम-स्तरीय मीट्रिक को बेहतर बनाने के उद्देश्य से) रिपोर्ट किए गए मीट्रिक को सकारात्मक रूप से प्रभावित करती है, तो परियोजना वास्तव में उपयोगकर्ता धारणा में सुधार कर रही है।
हालाँकि, इस बात की कोई गारंटी नहीं है कि सभी वास्तव में "अच्छे" परिवर्तन हमेशा उपयोगकर्ता रिपोर्ट किए गए मीट्रिक को प्रभावी ढंग से सुधारेंगे। नतीजतन, प्रदर्शन सुधार परियोजनाओं को प्राथमिकता देने और उनका मूल्यांकन करने के लिए दोनों का मिश्रण उपयोग करना महत्वपूर्ण है।