ระบบการกระจายตัวที่ทันสมัยล้มเหลวในลักษณะที่ผู้ใช้ปลายทางไม่สามารถคาดการณ์ได้อย่างเต็มที่ บริการไมโครเซฟที่สมบูรณ์แบบที่ 2:00 AM สามารถกระโดดลงในความหยุดชะงักอย่างเต็มที่โดย 2:03 AM ทําให้วิศวกรที่เรียกร้องขัดขวางผ่านแผงควบคุมและกระแสบันทึกในขณะที่ผู้ใช้ปลายทางมีประสบการณ์การบริการที่ลดลง รุ่นเก่าของการตอบสนองต่อเหตุการณ์ที่เกิดเหตุผลแบบปฏิกิริยาซึ่งมนุษย์ตรวจจับการวินิจฉัยและแก้ไขปัญหาไม่สามารถจับคู่กับขนาดและความซับซ้อนของโครงสร้างพื้นฐานของวันนี้ นั่นคือเหตุผลที่ทีมวิศวกรที่มองไปข้างหน้าลงทุนอย่างมากในโครงสร้างพื้นฐานการรักษาตนเอง: ระบบที่ตรวจจับความผิดปกติเข้าใจสถานะของตัวเองและดําเนินการแก้ไขโดยอัตโนมัติ Observability as the Foundation การสังเกตเป็นพื้นฐาน การรักษาด้วยตนเองเริ่มต้นด้วยความสามารถในการสังเกตอย่างลึกซึ้ง ซึ่งแตกต่างจากการตรวจสอบแบบดั้งเดิมซึ่งขึ้นอยู่กับขอบเขตที่กําหนดไว้ล่วงหน้าและแผงควบคุมแบบคงที่ การสังเกตที่แท้จริงหมายความว่าคุณสามารถถามคําถามใด ๆ เกี่ยวกับสถานะภายในของระบบของคุณโดยใช้ข้อมูลที่ส่งออก สิ่งนี้ต้องใช้สามคอลัมน์ที่ทํางานร่วมกัน: เมตริก, บันทึกและติดตามที่กระจายได้ เมตริกให้สัญญาณช่วงเวลาเช่นการใช้งาน CPU, percentiles ของความล่าช้าของคําขอและอัตราความผิดพลาด บันทึกให้คําอธิบายที่อยู่เบื้องหลังตัวเลขเหล่านี้อาจเชื่อมต่อจุดข้ามขอบเขตบริการและแสดงให้เห็นว่าคําขอของผู้ใช้เดียวเดินทางผ่านหลายสิบไมโครเซิร์ฟเวอร์อย่างไร การประยุกต์ใช้ในทางปฏิบัติเกี่ยวข้องกับการใช้ OpenTelemetry เป็นมาตรฐานที่เกิดขึ้นใหม่สําหรับการเก็บรวบรวมข้อมูลระยะไกลโดยผู้ให้บริการ เมื่อแต่ละบริการส่งสัญญาณที่สอดคล้องกันและอุดมไปด้วยความหมายแพลตฟอร์มการสังเกตของคุณจะกลายเป็นแหล่งเดียวของความจริงเกี่ยวกับสิ่งที่เกิดขึ้นจริง ๆ ในระหว่างการผลิต เครื่องมือเช่น Prometheus, Grafana, Jaeger และ OpenSearch เป็นรากฐานของท่อนี้นําไปสู่การดูดซึมหลายพันล้านจุดข้อมูลทุกวันและทําให้พวกเขาสามารถค้นหาได้ในเวลาจริงใกล้เคียง การสร้างพื้นฐานนี้เป็นสิ่งที่ไม่สามารถซื้อขายได้ หากไม่มีข้อมูลการตรวจจับระยะไกลที่มีคุณภาพสูงและมีความล่าช้าต่ําชั้นปัญญาใด ๆ ที่สร้างขึ้นด้านบนจะมีผลลัพธ์ที่ไม่น่าเชื่อถือได้ Where AIOps Enters the Picture ที่ AIOps เข้าสู่ภาพ แพลตฟอร์ม AIOps ตั้งอยู่บนชั้นที่สามารถสังเกตได้ของคุณและใช้การเรียนรู้เครื่องเพื่อทําสิ่งที่มนุษย์ไม่สามารถทําได้ในระดับ: เชื่อมโยงสัญญาณหลายพันครั้งพร้อมกันระบุรูปแบบที่ก่อนการล้มเหลวและแยกแยะความผิดปกติที่แท้จริงจากเสียงของความแตกต่างของระบบปกติ คุณสมบัติหลักที่คุ้มค่าที่จะลงทุนคือการตรวจจับความผิดปกติการเชื่อมโยงเหตุการณ์และการวิเคราะห์สาเหตุราก การตรวจจับความผิดปกติในแง่นี้ไม่เพียง แต่แจ้งเตือนเมื่อวัดข้ามขอบเขตคงที่ ระบบ AIOps ที่ดีใช้การเรียนรู้ที่ไม่ได้รับการดูแลเพื่อสร้างเส้นต้นฉบับแบบไดนามิกที่ปรับให้เข้ากับรูปแบบการจราจรการตั้งฤดูกาลและอัตราการใช้งานของคุณ ความล่าช้าในการสอบถามฐานข้อมูลที่ 11:55 น. ในวันจันทร์อาจเป็นเรื่องปกติสําหรับภาระงานของคุณในขณะที่จุดสูงสุดเดียวกันที่ 3:00 น. ในวันอาทิตย์ก็คุ้มค่าที่จะตื่นเต้นใครบางคน ขอบเขตคงที่ไม่สามารถทําความแตกต่างได้ เส้นต้นฉบับที่ขับเคลื่อนด้วย ML สามารถทําได้ การสอดคล้องกับเหตุการณ์มีความสําคัญเท่าเทียมกัน เหตุการณ์ในโครงสร้างพื้นฐานเดียวมักจะทําให้เกิดการแจ้งเตือนหลายร้อยครั้งในระบบการตรวจสอบที่แตกต่างกัน โดยไม่มีการสอดคล้องวิศวกรการโทรของคุณจะได้รับหน้า 200 ครั้งภายในสามนาทีซึ่งส่วนใหญ่เป็นอาการแทนที่จะเป็นสาเหตุ แพลตฟอร์ม AIOps เช่น Moogsoft, BigPanda และชั้น AIOps ของ PagerDuty ใช้อัลกอริทึมตามกราฟและวิเคราะห์เวลาเพื่อรบกวนการแจ้งเตือนลงไปเป็นเหตุการณ์ที่สามารถดําเนินการได้เดียวเพื่อทําเครื่องหมายสาเหตุที่อาจเกิดขึ้นสําหรับผู้ตอบสนองเท่านั้น สิ่งนี้สามารถลดเวลาเฉลี่ยในการยอมรับได้จาก 60 ถึง 80% ในองค์กรที่ฉันได้เห็นการดําเนินการ Automated Incident Remediation in Practice การแก้ไขเหตุการณ์อัตโนมัติในทางปฏิบัติ การตรวจจับปัญหาได้เร็วขึ้นมีคุณค่า การแก้ไขปัญหาโดยไม่มีการแทรกแซงของมนุษย์คือการเปลี่ยนแปลง การซ่อมแซมอัตโนมัติเกี่ยวข้องกับการสร้างห้องสมุดการกระทําของ Runbook ที่สามารถเปิดใช้งานได้โดยโปรแกรมเมื่อมีเงื่อนไขเฉพาะและนี่คือสถานที่ที่สถาปัตยกรรมกลายเป็นที่น่าสนใจอย่างแท้จริง จุดเริ่มต้นทางปฏิบัติคือการระบุสิบเหตุการณ์ชั้นนําตามความถี่ในช่วงหกเดือนที่ผ่านมา สําหรับทีมงานจํานวนมากรายการนี้รวมถึงสิ่งต่าง ๆ เช่นการล้มเหลวของหน่วยความจํา, การเติมพาร์ทิชันไดรฟ์, การสํารองค้าระดับเนื่องจากผู้บริโภคช้าหรือการหมดอายุใบรับรอง นี่คือโหมดการล้มเหลวที่เข้าใจได้ดีด้วยขั้นตอนการซ่อมแซมที่ทําซ้ําได้: เริ่มต้นใหม่ pod, ทําความสะอาดบันทึกเก่า, แก้ไขกลุ่มผู้บริโภค, แปลงใบรับรอง แต่ละอย่างสามารถเข้ารหัสเป็นกระบวนการอัตโนมัติในแพลตฟอร์มเช่น Ansible, Runbook Automation หรือผู้ประกอบการ Kubernetes ที่กําหนดเอง แพลตฟอร์ม AIOps ของคุณตรวจจับความผิดปกติและเชื่อมโยงกับรูปแบบความล้มเหลวที่รู้จัก จากนั้นจะเปิดตัวข้อความเว็บช็อคหรือบัสเหตุการณ์ไปยังเครื่องมืออัตโนมัติของคุณซึ่งจะดําเนินการตามขั้นตอนที่เหมาะสมกับแอปพลิเคชันโครงสร้างพื้นฐานของคุณ ผลลัพธ์ไม่ว่าจะเป็นความสําเร็จหรือความล้มเหลวจะถูกเขียนกลับไปยังแพลตฟอร์มการสังเกตของคุณเป็นเหตุการณ์แบบโครงสร้างโดยปิดวงจรการตอบสนอง หากการกระทําอัตโนมัติล้มเหลวหรือความมั่นใจในการวินิจฉัยต่ํากว่าขอบเขตที่กําหนดระบบจะเพิ่มขึ้นไปสู่ตัวตอบสนองของมนุษย์ที่มีทุกขอบเขตที่เกี่ยวข้องที่ตั้งไว้ล่วงหน้าในตั๋วเหตุการณ์ ระบบอัตโนมัติที่ทําหน้าที่ในโครงสร้างพื้นฐานการผลิตโดยไม่มีการรักษาความปลอดภัยที่เหมาะสมสามารถทําให้เกิดเหตุการณ์แย่ลงอย่างมีนัยสําคัญ การกระทําอัตโนมัติแต่ละครั้งควรมีช่วงการระเบิดที่กําหนดโหมดการทํางานแห้งกลไกการสั่นสะเทือนและเครื่องตัดวงจรที่หยุดการกระทําอัตโนมัติหากมีการแก้ไขมากเกินไปภายในหน้าต่างสั้น ความไว้วางใจในระบบจะถูกสร้างขึ้นอย่างต่อเนื่อง: เริ่มต้นด้วยการกระทําที่มีความเสี่ยงต่ําในสภาพแวดล้อมที่ไม่ใช่การผลิตวัดผลลัพธ์อย่างเข้มงวดและขยายครอบคลุมของอัตโนมัติเมื่อความไว้วางใจเพิ่มขึ้น Measuring What Matters การวัดสิ่งที่สําคัญ กรณีธุรกิจสําหรับโครงสร้างพื้นฐานการกู้คืนตนเองจะวัดผ่านการวัดความน่าเชื่อถือที่สําคัญจํานวนไม่กี่ เวลาเฉลี่ยในการตรวจจับ (MTTD) จะบันทึกถึงความเร็วที่พื้นผิวของความผิดปกติ ระยะเวลาเฉลี่ยในการกู้คืน (MTTR) จะวัดเวลาที่จําเป็นในการกู้คืนบริการ การครอบคลุมอัตโนมัติเป็นเปอร์เซ็นต์ของเหตุการณ์ที่ได้รับการแก้ไขอย่างเต็มที่โดยไม่มีการแทรกแซงของมนุษย์จะบอกคุณว่าห้องสมุดการกู้คืนของคุณมีความทันสมัยเท่าไหร่ และแนวโน้มปริมาณเหตุการณ์แสดงให้เห็นว่าการลงทุนในการกู้คืนตนเองของคุณจะลดความถี่ความล้มเหลวหรือไม่เพียงแค่จัดการความล้มเหลวได้อย่างมีเสน่ห์มากขึ้น องค์กรที่มีการลงทุนอย่างจริงจังในพื้นที่นี้มักจะรายงานการลด MTTD ของ 50% หรือมากกว่าการลด MTTR ของ 40 ถึง 70% และอัตโนมัติอัตราการครอบคลุมของ 30 ถึง 60% ของปริมาณเหตุการณ์ทั้งหมดภายใน 18 เดือนของการลงทุนเริ่มต้น ประโยชน์ของการผสมผสานมีนัยสําคัญเช่นกัน: วิศวกรใช้เวลาน้อยลงในการทํางานซ้ําและเวลามากขึ้นในการปรับปรุงความน่าเชื่อถือที่ป้องกันไม่ให้เกิดเหตุการณ์ในสถานที่แรก The Road Ahead ถนนไปข้างหน้า โครงสร้างพื้นฐานการรักษาด้วยตนเองไม่ได้เป็นจุดหมายปลายทางที่คุณถึงแล้วหยุด มันเป็นแนวทางที่พัฒนาขึ้นตามที่ระบบของคุณเติบโตและโหมดการล้มเหลวของคุณเปลี่ยนแปลง ทีมที่ทําเช่นนี้ดีที่สุดจะปฏิบัติต่อหนังสือเล่มการทํางานอัตโนมัติของพวกเขาเช่นโค้ดการผลิต: รุ่นการทดสอบการตรวจสอบและการปรับปรุงอย่างต่อเนื่องตามผลกระทบที่เกิดขึ้นจริง พวกเขารวมข้อมูลการสังเกตของพวกเขากับระบบการจัดการการเปลี่ยนแปลงของพวกเขาเพื่อให้รุ่น AIOps สามารถคํานึงถึงการใช้งานล่าสุดเมื่อวินิจฉัยความผิดปกติ และพวกเขาสร้างวัฒนธรรมที่วิศวกรได้รับรางวัลสําหรับการให้ส่วนร่วมในการอัตโนมัติซึ่งช่วยลดแรงงานสําหรับทั้งทีม วัตถุประสงค์ขั้นสุดท้ายคือโครงสร้างพื้นฐานที่ไม่เพียง แต่สามารถสังเกตและอัตโนมัติได้ แต่ยังมีความยืดหยุ่นอย่างแท้จริง: โครงสร้างพื้นฐานที่คาดการณ์ความล้มเหลวตอบสนองอย่างชาญฉลาดและปรับปรุงทัศนคติความน่าเชื่อถือของตนเองอย่างต่อเนื่อง การเข้าถึงนั้นต้องใช้การลงทุนในเครื่องมือวัฒนธรรมและทักษะทางวิศวกรรม แต่สําหรับทีมงานที่ดําเนินงานบริการที่สําคัญในขนาดใหญ่ก็กลายเป็นข้อเสนอแนะของตารางแทนที่จะเป็นข้อได้เปรียบในการแข่งขัน