पृष्ठभूमि इस श्रृंखला के पहले तीन लेखों को मिली अद्भुत प्रतिक्रिया को देखते हुए, मुझे चौथा भाग भी निकालना पड़ा। पिछले 3 लेखों में, हमने बातचीत AI एजेंटों के लिए प्रदर्शन मीट्रिक परिभाषाओं, इंस्ट्रूमेंटेशन और स्केलेबिलिटी पर चर्चा की है। यदि आपने पिछले लेखों को नहीं पढ़ा है, तो यहां लिंक दिए गए हैं: भाग 1 - मेट्रिक्स: लाल गोली निगलें भाग 2 - मेट्रिक्स रीलोडेड: द ऑरेकल भाग 3 - मेट्रिक्स क्रांति: स्केलिंग इस लेख में, हम चर्चा करेंगे कि कैसे बनाया जाए (नवीनतम एलएलएम प्रगति का उपयोग करके) ताकि निरंतर आधार पर प्रदर्शन में सुधार हो सके। इसका उद्देश्य इस डोमेन में काम करने वाले सभी लोगों के लिए चर्चा को सरल और काफी उच्च स्तर पर रखना होगा। इन मेट्रिक्स को और अधिक क्रियाशील समस्या 2 उच्च-स्तरीय वर्ग हैं जिन पर हमने चर्चा की है। परंपरागत रूप से, पूर्व को सिस्टम-स्तरीय मीट्रिक के रूप में माना जाता है - इन मीट्रिक को सीधे लॉग से मापा जाता है। नतीजतन, स्वभाव से कार्रवाई योग्य हैं और इसलिए परिचालन योग्य हैं। उपयोगकर्ता द्वारा अनुभव किए गए मीट्रिक और उपयोगकर्ता द्वारा रिपोर्ट किए गए मीट्रिक उपयोगकर्ता द्वारा अनुभव किए गए मीट्रिक परिचालन मेट्रिक्स को उत्पादन लॉग से नियमित आधार पर ट्रैक किया जाता है और इसका उपयोग टीम-व्यापी OKRs के संबंध में लक्ष्य निर्धारण के लिए किया जा सकता है। हालाँकि, भले ही संचालित करना आसान है, लेकिन यह ध्यान दिया जाना चाहिए कि ये “अनुभूत” हैं और “वास्तविक” उपयोगकर्ता मेट्रिक्स नहीं हैं। नतीजतन, इन मेट्रिक्स पर चढ़ाई करने से आपके संवादी AI एजेंट की उपयोगकर्ता धारणा में कोई महत्वपूर्ण सुधार नहीं हो सकता है। यदि ये परियोजनाएँ कई तिमाहियों में फैली हुई हैं, तो इससे संसाधनों का अकुशल प्रबंधन हो सकता है। उपयोगकर्ता द्वारा अनुभव किए गए मेट्रिक्स को सभी प्रदर्शन सुधारों के अपेक्षित प्रभाव को सीधे इसे उपयोगकर्ता रिपोर्ट किए गए मीट्रिक के संदर्भ में मापने का एक तरीका होना चाहिए। "उत्तर सितारा" प्रभाव के रूप में माना जाना चाहिए। तो, समस्या क्या है? प्रत्यक्ष उपयोगकर्ता फीडबैक असंरचित होने की अपेक्षा की जाती है, जो कार्यान्वयन योग्य नहीं होता तथा जिसे कार्यान्वित करना कठिन होता है। विस्तृत उपयोगकर्ता-रिपोर्ट की गई प्रतिक्रिया स्वभाव से असंरचित होनी चाहिए। यदि उपयोगकर्ता-रिपोर्ट की गई प्रतिक्रिया संरचित बनाई जाती है, तो यह उन क्षेत्रों पर ध्यान केंद्रित कर सकती है जिनके बारे में आंतरिक टीम पहले से ही जानती है। इनके अलावा, मौसमी और कंपनी की धारणा जैसे कारकों से भी प्रभावित होते हैं। उपयोगकर्ता रिपोर्ट किए गए मीट्रिक पर प्रभाव का अनुमान अधिक सटीक रूप से लगाया जा सकता है, लेकिन में कई अनियंत्रित कारक होते हैं। उपयोगकर्ता द्वारा अनुभव किये गये मेट्रिक्स उपयोगकर्ता द्वारा रिपोर्ट किये गये मेट्रिक्स समाधान असंरचित एक संरचित प्रारूप में परिवर्तित किया जाना चाहिए जिसे कार्रवाई योग्य बनाया जा सके। असंरचित प्रतिक्रिया को मौजूदा सिस्टम-स्तरीय मीट्रिक में परिवर्तित करने के उद्देश्य से प्रशिक्षित विशिष्ट एमएल मॉडल हो सकते हैं। उपयोगकर्ता रिपोर्ट की गई प्रतिक्रिया को यह ध्यान दिया जाना चाहिए कि इन मीट्रिक्स में अंतर्निहित विषमता से बचाने के लिए के लिए प्राथमिक लक्ष्य का उपयोग करना अधिक व्यावहारिक हो सकता है। अधिक के लिए, इन मीट्रिक्स का उपयोग सिस्टम-स्तरीय मीट्रिक्स के साथ उपयोगकर्ता धारणा पर प्रभाव को मापने के लिए किया जाना चाहिए। "हाल ही में" उपयोगकर्ता मीट्रिक प्रतिगमन उपयोगकर्ता रिपोर्ट किए गए मीट्रिक्स के क्षैतिज दीर्घकालिक परियोजनाओं एलएलएम खेल को बदलने वाले हैं अब सवाल यह है कि हम जिस विशिष्ट मीट्रिक की तलाश कर रहे हैं, उसके लिए एमएल मॉडल को प्रशिक्षित करने के लिए क्या प्रयास करने की आवश्यकता है? हाल ही में एलएलएम की लोकप्रियता और उपलब्धता में वृद्धि के साथ, असंरचित फीडबैक को किसी ऐसी चीज़ में बदलने के लिए आउट-ऑफ-द-बॉक्स एपीआई का उपयोग करना संभव हो सकता है जिसे सिस्टम-स्तरीय मीट्रिक के समान ट्रैक और मापा जा सकता है। यह ध्यान रखना महत्वपूर्ण है कि LLM द्वारा संसाधित किए जा सकने वाले टोकन की संख्या में वृद्धि के साथ, उत्पाद-विशिष्ट जानकारी का एक बहुत कुछ “प्रॉम्प्ट” के भाग के रूप में प्रदान किया जा सकता है। परिणामस्वरूप, कुछ प्रॉम्प्ट इंजीनियरिंग के साथ-साथ ऑफ-द-शेल्फ LLM API कार्रवाई योग्य उपयोगकर्ता रिपोर्ट किए गए मीट्रिक प्रदान कर सकते हैं। यह उपयोगकर्ता की धारणा पर सिस्टम-स्तरीय मीट्रिक सुधार परियोजनाओं के प्रभाव का आकलन करने का एक बहुत तेज़ तरीका प्रदान करता है जो प्रदर्शन सुधार परियोजनाओं को प्राथमिकता देने में उपयोगी हो सकता है। संरचित अप्रत्याशित परिवर्तनों के लिए अभी भी जगह है। हालांकि, यह कुछ हद तक विश्वास के साथ माना जा सकता है कि यदि कोई विशिष्ट परियोजना (सिस्टम-स्तरीय मीट्रिक को बेहतर बनाने के उद्देश्य से) तो परियोजना वास्तव में उपयोगकर्ता धारणा में सुधार कर रही है। उपयोगकर्ता रिपोर्ट किए गए मीट्रिक के इस दृष्टिकोण के साथ भी, रिपोर्ट किए गए मीट्रिक को सकारात्मक रूप से प्रभावित करती है, हालाँकि, इस बात की कोई गारंटी नहीं है कि सभी वास्तव में "अच्छे" परिवर्तन हमेशा उपयोगकर्ता रिपोर्ट किए गए मीट्रिक को प्रभावी ढंग से सुधारेंगे। नतीजतन, प्रदर्शन सुधार परियोजनाओं को प्राथमिकता देने और उनका मूल्यांकन करने के लिए दोनों का मिश्रण उपयोग करना महत्वपूर्ण है।