Mfumo wa kisasa wa usambazaji unashindwa kwa njia ambayo hakuna runbook inaweza kutabiri kikamilifu. Huduma ya micro ambayo ilikuwa salama kabisa saa 2:00 AM inaweza kuanguka katika upungufu kamili kwa 2:03 AM, na kuacha wahandisi wa wito kuanguka kwa njia ya dashboards na mtiririko wa kumbukumbu wakati watumiaji wa mwisho wana uzoefu wa huduma iliyosababishwa. Mfano wa zamani wa majibu ya ajali ya reactivity, ambapo binadamu wanaweza kugundua, kutambua, na kurekebisha matatizo, hauwezi tu kufuata kiwango na utata wa miundombinu ya leo. Hiyo ni kwa nini timu za uhandisi zinazoendelea zinawekeza kwa kiasi kikubwa katika miundombinu ya kutibu mwenyewe: mifumo ambayo inatambua anomali, ku Observability as the Foundation Utafiti kama msingi wa Utunzaji wa kujitegemea huanza na ufuatiliaji wa kina. Tofauti na ufuatiliaji wa jadi, ambayo inategemea mipaka iliyopangwa na dashboards za static, ufuatiliaji wa kweli unamaanisha unaweza kuuliza maswali ya kibinafsi kuhusu hali ya ndani ya mfumo wako kwa kutumia data ambayo inatoa. Hii inahitaji mitambo matatu ya kufanya kazi kwa pamoja: takwimu, logs, na njia za usambazaji. Metrics hutoa ishara za mfululizo wa wakati kama matumizi ya CPU, percentiles ya upungufu wa maombi, na viwango vya makosa. Logs hutoa hadithi nyuma ya idadi hizo. Utekelezaji wa vitendo unahusisha kuendesha huduma zote kwa kutumia OpenTelemetry, kiwango kinachojitokeza cha kukusanya telemetry ya mtengenezaji. Wakati kila huduma inatoa ishara za pamoja na utajiri wa semantic, jukwaa lako la ufuatiliaji linakuwa chanzo pekee cha ukweli kuhusu kile kinachotokea katika uzalishaji. Zana kama Prometheus, Grafana, Jaeger, na OpenSearch huunda msingi wa mstari huu wa mawasiliano, kuingiza mabilioni ya pointi za data kila siku na kuwafanya kutafuta karibu kwa muda halisi. Kupata msingi huu sahihi hauwezi kujadiliwa. Bila data ya telemetry ya ubora wa chini, kiwango chochote cha akili kilichoundwa juu yake itatoa matokeo yasiyo ya kuaminika. Where AIOps Enters the Picture Ambapo AIOps inaingia kwenye picha Mipango ya AIOps iko juu ya kiwango chako cha ufuatiliaji na inatumia ujuzi wa mashine kufanya kile ambacho binadamu hawawezi kufanya kwa kiwango: kuunganisha maelfu ya ishara kwa wakati mmoja, kutambua mifano ambayo inapita kushindwa, na kutambua anomali za kweli kutoka kwa sauti ya variance ya kawaida ya mfumo. uwezo muhimu unapaswa kuwekeza ni uchunguzi wa anomali, uhusiano wa matukio, na uchambuzi wa sababu za msingi. Anomaly kugundua katika mazingira haya si tu kuonya wakati metric inapita kiwango cha static. mifumo nzuri AIOps kutumia kujifunza usio na usimamizi wa kujenga msingi wa kimwili kwamba kukabiliana na mipangilio yako ya trafiki, msimu, na utekelezaji kiwango cha. kiwango cha juu katika data database query latency katika 11:55 AM juu ya Jumatano inaweza kuwa kawaida kabisa kwa kazi yako, wakati kiwango sawa katika 3:00 AM Jumapili ni thamani ya kujisikia mtu. kiwango cha static haiwezi kufanya tofauti hiyo. Uhusiano wa matukio ni muhimu sawa. Matatizo ya miundombinu ya moja mara nyingi huchochea mamia ya tahadhari kwa wakati mmoja katika mifumo tofauti ya ufuatiliaji. Bila uhusiano, mhandisi wako wa simu anapata ukurasa 200 mara katika dakika tatu, wengi wao ni dalili badala ya sababu. Mkakati wa AIOps kama vile Moogsoft, BigPanda, na AIOps ya PagerDuty hutumia algorithms ya msingi ya graph na uchambuzi wa wakati ili kuharibu mashambulizi ya tahadhari katika tukio moja linaloweza kutumika, kuagiza sababu ya chanzo inawezekana kwa mwombaji. Hii pekee inaweza kupunguza muda wa wastani wa kutambua kwa asilimia 60 hadi 80 katika mashirika ambayo nimeona kutekeleza. Automated Incident Remediation in Practice Matibabu ya mashambulizi ya automatiska katika vitendo Kutambua tatizo haraka ni muhimu. Kuokoa bila kuingiliwa na binadamu ni ya mabadiliko. Mageuzi ya automatiska yanahusisha kujenga maktaba ya vitendo vya runbook ambazo zinaweza kuendeshwa kwa programu wakati hali maalum zinapatikana, na hii ni mahali ambapo usanifu unapata kuvutia sana. Kazi ya mwanzo ni kutambua matukio kumi ya juu kwa mara kwa mara katika miezi sita iliyopita. Kwa timu nyingi, orodha hii inajumuisha mambo kama vile pods zilizopo nje ya kumbukumbu, vipande vya diski zinazojaza, mstari wa uhifadhi kwa sababu ya watumiaji wa polepole, au muda wa mwisho wa vyeti. Hizi ni njia za makosa zilizojulikana na hatua za kurekebisha: reboot ya pod, kusafisha kumbukumbu za zamani, kupanua kikundi cha watumiaji, kurekebisha cheti. Kila moja ya hizi inaweza kuingizwa kama hatua ya automatisering katika jukwaa kama Ansible, Runbook Automation, au operator Kubernetes ya kibinafsi. Mipango inaonekana karibu kama hii: jukwaa lako la AIOps hupata anomali na linahusiana na mfano unaojulikana wa kushindwa. Kisha huchochea ujumbe wa webhook au bus ya tukio kwa orchestrator yako ya automatisering, ambayo hufanya hatua sahihi ya runbook dhidi ya API yako ya miundombinu. Matokeo, kama mafanikio au kushindwa, huandikwa tena kwenye jukwaa lako la ufuatiliaji kama tukio linaloundwa, kuifunga mkondo wa maoni. Ikiwa hatua ya automatiska haifai au ikiwa uaminifu katika ugonjwa unao chini ya kiwango cha ufafanuzi, mfumo unaongezeka kwa msaada wa binadamu na mazingira yote yanayohusiana yaliyopangwa mapema katika tiketi ya tukio. Mfumo wa automatiska unaofanya kazi kwenye miundombinu ya uzalishaji bila ulinzi sahihi unaweza kuharibu matukio kwa kiasi kikubwa. Kila hatua ya automatiska inapaswa kuwa na mzunguko wa mlipuko ulioelezwa, hali ya kusafisha, mfumo wa rollback, na mzunguko wa kuzuia hatua za automatiska ikiwa marekebisho mengi yanatokea ndani ya dirisha fupi. Uaminifu katika mfumo unajengwa kwa hatua: kuanza na vitendo vya hatari ndogo katika mazingira yasiyo ya uzalishaji, kupima matokeo kwa makini, na kupanua kifungo cha automatiska tu kama uaminifu unavyoongezeka. Measuring What Matters Kupima kile kinachohusika Mfano wa biashara kwa miundombinu ya kutibu mwenyewe unatathminiwa kupitia idadi ya viwango vya uaminifu muhimu. Muda wa wastani wa kugundua (MTTD) unashughulikia haraka kiasi gani cha uharibifu wa uso. Muda wa wastani wa kutibu (MTTR) unathmini muda gani unachukua kurejesha huduma. Upatikanaji wa automatisering, asilimia ya matukio iliyokamilishwa kikamilifu bila kuingilia kati na binadamu, inakuambia jinsi kitabu chako cha kutibu ni kifahari. Na mwelekeo wa idadi ya matukio unaonyesha kama uwekezaji wako wa kutibu mwenyewe ni kweli kupunguza kiwango cha kushindwa au tu kukabiliana na kushindwa kwa heshima zaidi. Mashirika ambayo yamewekeza kwa kiasi kikubwa katika nafasi hii kwa kawaida husema kupunguza MTTD ya asilimia 50 au zaidi, kupunguza MTTR ya asilimia 40 hadi 70, na viwango vya ukarabati wa 30 hadi 60% ya jumla ya idadi ya ajali ndani ya miezi 18 ya uwekezaji wa awali. faida ya kuunganisha ni muhimu pia: wahandisi hutumia muda kidogo kwenye kazi ya uendeshaji wa mara kwa mara na muda zaidi juu ya kuboresha uaminifu ambao kuzuia ajali kutokea awali. The Road Ahead Njia ya mbele Miundombinu ya kujitegemea sio mahali ambapo unaweza kufikia na kisha kuacha. Ni mazoezi ambayo yanaendelea kama mifumo yako inavyoongezeka na mifumo yako ya kushindwa inabadilika. Timu zinazofanya hili zinafanya vizuri zaidi kutibu manufaa yao ya automatisering kama msimbo wa uzalishaji: iliyoandikwa, kupimwa, kutafakari, na kuimarishwa mara kwa mara kulingana na matokeo halisi ya ajali. Wameunganisha data zao za ufuatiliaji na mifumo yao ya usimamizi wa mabadiliko ili mifano ya AIOps inaweza kuzingatia utekelezaji wa hivi karibuni wakati wa kutambua anomalies. Lengo la mwisho ni miundombinu ambayo si tu inayoonekana na iliyoandaliwa, lakini yenye ujasiri wa kweli: moja ambayo inatarajia kushindwa, inashughulikia kwa busara, na kuboresha daima msimamo wake wa kuaminika. Kuja huko inahitaji uwekezaji katika vifaa, utamaduni, na uhandisi wa kiufundi. Lakini kwa timu zinazoendesha huduma muhimu kwa kiwango, ni haraka kuwa vichwa vya meza badala ya faida ya ushindani.