आधुनिक वितरित सिस्टम ऐसे तरीकों से विफल हो सकते हैं जिन्हें कोई लैंडबुक पूरी तरह से उम्मीद नहीं कर सकता है। एक माइक्रोसेस जो 2:00 AM पर पूरी तरह से स्वस्थ था, 2:03 AM तक एक पूर्ण विघटन में कैस्केड हो सकता है, जिससे कॉल इंजीनियर डैशबोर्ड और लॉग स्ट्रीम के माध्यम से झगड़ते रहते हैं जबकि अंत उपयोगकर्ताओं को अपरिवर्तित सेवा का अनुभव होता है। प्रतिक्रियात्मक घटना प्रतिक्रिया का पुराना मॉडल, जहां लोग समस्याओं का पता लगाते हैं, निदान करते हैं, और मरम्मत करते हैं, बस आज के बुनियादी ढांचे और जटिलता के साथ अनुरूप नहीं रह सकते हैं। यही कारण है कि भविष्य की सोच रखने वाली इंजीनियरिंग टीमें आत्म-चिकित्सा बु Observability as the Foundation आधार के रूप में दृष्टिकोण आत्म-चिकित्सा गहरी निगरानी के साथ शुरू होता है। पारंपरिक निगरानी के विपरीत, जो पूर्व-निर्धारित सीमाओं और स्थैतिक डैशबोर्डों पर भरोसा करता है, सच्ची निगरानी का मतलब है कि आप अपने सिस्टम के आंतरिक राज्य के बारे में निष्पक्ष प्रश्न पूछ सकते हैं, जिसका उपयोग डेटा जारी करता है। इसमें तीन ध्रुवों की आवश्यकता होती है: मीट्रिक्स, लॉग, और वितरित ट्रैक। मीट्रिक्स आपको समय श्रृंखला संकेत प्रदान करते हैं जैसे कि CPU उपयोग, अनुरोध latency percentiles, और त्रुटि दर। लॉग इन संख्याओं के पीछे कहानी प्रदान करते हैं. ट्रैक सेवा सीमाओं के पार बिंदुओं को जोड़ते हैं, आपको दिखाते हैं कि एक एकल उपयोगकर्ता अनु व्यावहारिक कार्यान्वयन में प्रत्येक सेवा को OpenTelemetry के साथ उपकरणों का उपयोग करना शामिल है, जो विक्रेता-आधारित दूरसंचार संग्रह के लिए उभरते मानक है। जब प्रत्येक सेवा लगातार, सेमेंटिक रूप से समृद्ध सिग्नल उत्सर्जित करती है, तो आपकी अवलोकनशीलता प्लेटफॉर्म वास्तव में उत्पादन में क्या हो रहा है के बारे में सच्चाई का एकमात्र स्रोत बन जाती है। प्रॉमेथियस, ग्राफना, Jaeger, और OpenSearch जैसे उपकरण इस पाइपलाइन का कंकाल बनाते हैं, दैनिक रूप से अरबों डेटा बिंदुओं को अवशोषित करते हैं और उन्हें लगभग वास्तविक समय में पूछताछ करने में सक्षम बनाते हैं। इस नींव को सही बनाने के बिना, उच्च गुणवत्ता, कम Where AIOps Enters the Picture जहां AIOps चित्र में प्रवेश करता है AIOps प्लेटफॉर्म आपके निरीक्षण परत के शीर्ष पर बैठते हैं और मशीन सीखने को लागू करते हैं जो मनुष्य पैमाने पर नहीं कर सकते हैं: एक ही समय में हजारों संकेतों को संदर्भित करें, विफलताओं से पहले पैटर्न की पहचान करें, और सामान्य सिस्टम भिन्नता की शोर से वास्तविक असामान्यताओं को अलग करें। इस संदर्भ में अपर्याप्तता का पता लगाना केवल चेतावनी देना नहीं है जब एक मीट्रिक एक स्थैतिक सीमा पार करता है. अच्छे AIOps सिस्टम अनियंत्रित सीखने का उपयोग करते हैं ताकि आपके ट्रैफ़िक पैटर्न, मौसमीता, और तैनाती कैंडेंस के अनुरूप गतिशील आधार लाइनों का निर्माण किया जा सके. एक सोमवार को 11:55 बजे डेटाबेस पूछताछ लाइट में एक पिक आपके कार्य भार के लिए पूरी तरह से सामान्य हो सकता है, जबकि रविवार को 3:00 बजे एक ही पिक किसी को जागने लायक है. स्थैतिक सीमाएं इस अंतर को नहीं बना सकती हैं. एमएल-ड्राइव आधार लाइनों कर सकते हैं. घटना संबंधी संबंध समान रूप से महत्वपूर्ण है। एक ही बुनियादी ढांचे की घटना अक्सर विभिन्न निगरानी प्रणालियों पर एक साथ सैकड़ों चेतावनी का कारण बनती है। संबंधी संबंध के बिना, आपके कॉल इंजीनियर को तीन मिनट में 200 बार पेज किया जाता है, जिनमें से अधिकांश कारणों के बजाय लक्षण हैं। Moogsoft, BigPanda, और PagerDuty के AIOps परत जैसे AIOps प्लेटफॉर्म ग्राफ़-आधारित एल्गोरिथ्म और समय विश्लेषण का उपयोग करते हैं ताकि चेतावनी तूफानों को एक एकल कार्रवाई योग्य घटना में गिर जाए, जो उत्तरदाता के लिए संभावित मूल कारण को टैग करता है। Automated Incident Remediation in Practice अभ्यास में स्वचालित दुर्घटना मरम्मत एक समस्या को तेजी से पता लगाना मूल्यवान है. मानव हस्तक्षेप के बिना इसे ठीक करना परिवर्तनशील है. स्वचालित मरम्मत लेनबुक कार्यों की एक पुस्तकालय का निर्माण शामिल है जिसे प्रोग्रामिक रूप से शुरू किया जा सकता है जब विशिष्ट स्थितियों को पूरा किया जाता है, और यही है जहां वास्तव में वास्तुकला दिलचस्प हो जाता है। एक व्यावहारिक प्रारंभिक बिंदु पिछले छह महीनों के दौरान शीर्ष दस घटनाओं की आवृत्ति के अनुसार पहचान करना है. कई टीमों के लिए, इस सूची में स्मृति से बाहर निकलने वाले पॉड्स, डिस्क विभाजनों को भरने, धीमी उपभोक्ताओं के कारण बैकअप की रैंकिंग, या प्रमाणपत्र की समाप्ति जैसे चीजें शामिल हैं। आर्किटेक्चर लगभग इस तरह दिखता है: आपका AIOps प्लेटफ़ॉर्म एक अनियमितता का पता लगाता है और इसे एक ज्ञात विफलता पैटर्न के साथ संदर्भित करता है. फिर यह आपके ऑटोमेशन ऑर्केस्ट्रेटर के लिए एक वेबहॉक या घटना बस संदेश को सक्रिय करता है, जो आपकी इन्फ्रास्ट्रक्चर एपीआई के खिलाफ उचित रीनबुक कार्रवाई करता है. परिणाम, चाहे सफलता हो या विफलता हो, एक संरचित घटना के रूप में आपके निरीक्षण प्लेटफ़ॉर्म में वापस लिखा जाता है, जो प्रतिक्रिया लूप को बंद करता है. यदि स्वचालित कार्रवाई विफल होती है या यदि निदान में विश्वास एक परिभाषित सीमा से नीचे है, तो प्रणाली एक मानव उत्तरदाता के लिए बढ़ जाती है जिसमें सभी प्रासंगिक गार्डरेल्स यहां बहुत महत्वपूर्ण हैं। उचित सुरक्षा के बिना उत्पादन बुनियादी ढांचे पर कार्रवाई करने वाले स्वचालित सिस्टम घटनाओं को काफी बदतर बना सकते हैं। प्रत्येक स्वचालित कार्रवाई में एक परिभाषित विस्फोट रेंज, एक सूखे चलने की मोड, एक रोलबैक तंत्र, और एक सर्किट ब्रेकर होना चाहिए जो स्वचालित कार्रवाई को रोकता है यदि बहुत सारे मरम्मत एक छोटे से विंडो में शुरू किए जाते हैं। Measuring What Matters जानें क्या मायने रखता है आत्म-चिकित्सा बुनियादी ढांचे के लिए व्यावसायिक मामले को कुछ महत्वपूर्ण विश्वसनीयता मीटर के माध्यम से मापा जाता है। औसत समय का पता लगाने के लिए (एमटीटीडी) कैप्चर करता है कि अनियमितताओं की सतह कितनी तेजी से होती है। औसत समय को ठीक करने के लिए (एमटीटीआर) मापता है कि सेवा को पुनर्प्राप्त करने में कितना समय लगता है। ऑटोमेशन कवरेज, मानव हस्तक्षेप के बिना पूरी तरह से हल किए गए घटनाओं का प्रतिशत, आपको बताता है कि आपकी मरम्मत लाइब्रेरी कितनी परिपक्व है। और घटना मात्रा प्रवृत्तिएं दिखाती हैं कि क्या आपकी आत्म-चिकित्सा निवेश वास्तव में विफलता की आवृत्ति को कम कर रही हैं या बस विफलताओं को अधिक जिन संगठनों ने इस क्षेत्र में गंभीर रूप से निवेश किया है, वे आमतौर पर 50 प्रतिशत या उससे अधिक के एमटीटीडी कटौती, 40 से 70 प्रतिशत के एमटीटीआर कटौती, और 18 महीने के प्रारंभिक निवेश के भीतर ऑटोमेशन कवरेज दरों की कुल घटनाओं की मात्रा के 30 से 60 प्रतिशत की रिपोर्ट करते हैं। The Road Ahead आगे का रास्ता आत्म-चिकित्सा बुनियादी ढांचा एक ऐसा गंतव्य नहीं है जिसे आप पहुंचते हैं और फिर रुकते हैं। यह एक अभ्यास है जो आपके सिस्टम के विकास के साथ विकसित होता है और आपके विफलता मोड बदलते हैं। ऐसा करने वाले टीम अपने ऑटोमेशन एंड्रॉबिक्स को उत्पादन कोड की तरह व्यवहार करते हैं: संस्करणित, परीक्षण किया, समीक्षा किया, और वास्तविक घटना परिणामों के आधार पर लगातार परिष्कृत किया जाता है। वे अपने निरीक्षण डेटा को अपने परिवर्तन प्रबंधन सिस्टम के साथ एकीकृत करते हैं ताकि एआईओपीएस मॉडल अनियमितताओं का निदान करते समय हालिया तैनाती पर विचार कर सकें. और वे संस्कृतियां बनाते हैं जहां इंजीनियरों को ऑटोमेशन में योगदान देने के लिए पुरस्कृत किया अंतिम लक्ष्य एक बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी बुनियादी