Sia รีไซเคิลความน่าเชื่อถือของคลาวด์ด้วยประสิทธิภาพอย่างต่อเนื่องโดยการออกแบบ

ในโลกแบบดิจิตอลครั้งแรกของวันนี้ความคาดหวังของการเข้าถึงข้อมูลอย่างต่อเนื่องไม่ได้เป็นหรูหราอีกต่อไป - มันเป็นความจําเป็น ไม่ว่าคุณจะขับเคลื่อนแอปพลิเคชันที่สําคัญให้บริการเนื้อหามัลติมีเดียให้กับผู้ชมทั่วโลกหรือเพียงแค่สํารองข้อมูลส่วนบุคคลความน่าเชื่อถือของคลาวด์ของคุณส่งผลกระทบโดยตรงทุกอย่างตั้งแต่การผลิตถึงความไว้วางใจ แต่ "เชื่อถือได้" หมายถึงอะไรจริงๆ? สําหรับผู้ให้บริการระบบคลาวด์ส่วนใหญ่ความน่าเชื่อถือจะพิจารณาในแง่ของอัตราส่วนเวลาทํางาน - 99.9%, 99.99% หรือแม้กระทั่ง อย่างไรก็ตามภายหลังข้อตกลงระดับบริการที่ถูกขัดขวางเหล่านี้ (SLAs) มีความเป็นจริงที่แข็งแกร่ง: จริง — ความสามารถในการเข้าถึงข้อมูลของคุณได้ตลอดเวลาทุกที่โดยไม่ต้องล่าช้าหรือหยุดชะงักอย่างไม่คาดคิด — ยังคงหลีกเลี่ยง แม้กระทั่งคลาวด์ที่แข็งแกร่งที่สุดก็สามารถทนต่อสิ่งที่พวกเขาพยายามบรรเทาได้: ความล้มเหลว five nines continuous performance ความน่าเชื่อถือไม่ได้เป็นสิ่งที่คุณหวัง - มันเป็นสิ่งที่คุณออกแบบเพื่อ จากการหยุดทํางานในภูมิภาคไปจนถึงเส้นทางเครือข่ายที่กําหนดเองผิดเราได้เห็นว่าโครงสร้างพื้นฐานแบบศูนย์กลางไม่ว่ามีการเสริมแรงอย่างไรก็ตามไม่สามารถหลีกเลี่ยงข้อ จํากัด ของโครงสร้างของตัวเองได้ เมื่อถนนทั้งหมดนําผ่านศูนย์ข้อมูลเพียงไม่กี่ศูนย์หนึ่งขั้นตอนล้มเหลวเดียว - ไฟปัญหาการกําหนดเส้นทางข้อผิดพลาดภายใน - อาจมีผลกระทบต่ออุตสาหกรรมทั้งหมด จากการหยุดทํางานในภูมิภาคไปจนถึงเส้นทางเครือข่ายที่กําหนดเองผิดเราได้เห็นว่าโครงสร้างพื้นฐานแบบศูนย์กลางไม่ว่ามีการเสริมแรงอย่างไรก็ตามไม่สามารถหลีกเลี่ยงข้อ จํากัด ของโครงสร้างของตัวเองได้ เมื่อถนนทั้งหมดนําผ่านศูนย์ข้อมูลเพียงไม่กี่ศูนย์หนึ่งขั้นตอนล้มเหลวเดียว - ไฟปัญหาการกําหนดเส้นทางข้อผิดพลาดภายใน - อาจมีผลกระทบต่ออุตสาหกรรมทั้งหมด บล็อกนี้สํารวจว่าทําไมสถาปัตยกรรมแบบแยกส่วนของ Sia มีตําแหน่งที่ไม่ซ้ํากันเพื่อเอาชนะข้อ จํากัด เหล่านี้ มากกว่าแพลตฟอร์มการจัดเก็บข้อมูลอื่น ๆ Sia ถูกสร้างขึ้นเพื่อให้แน่ใจว่า ในส่วนต่อไปนี้เราจะเปรียบเทียบการออกแบบนี้กับรูปแบบการจัดเก็บข้อมูลแบบดั้งเดิมทําลายสถานการณ์การล้มเหลวในโลกจริงและแสดงให้เห็นว่าการแยกส่วนไม่เพียง แต่ปลอดภัยมากขึ้น - มันเชื่อถือได้มากขึ้น ประสิทธิภาพผ่านความต้านทาน เพราะในอนาคตของคลาวด์การจัดเก็บข้อมูลความน่าเชื่อถือไม่ใช่สิ่งที่คุณหวัง - มันเป็นสิ่งที่คุณออกแบบ พื้นฐานที่อ่อนแอของคลาวด์ศูนย์กลาง สําหรับทุกสัญญาของ "ห้าสิบ" เวลาทํางานแพลตฟอร์มการจัดเก็บข้อมูลคลาวด์แบบดั้งเดิมได้พิสูจน์ว่าโครงสร้างพื้นฐานแบบศูนย์กลางสามารถอ่อนแอได้อย่างไรเมื่อเผชิญกับความขัดแย้งด้านสิ่งแวดล้อมข้อผิดพลาดของมนุษย์หรือการกําหนดค่าที่ผิดปกติภายใน แม้จะมีการยกเลิกที่เรียกว่าโดยผู้ประกอบการระดับสูงเช่น AWS, Google Cloud และ Microsoft Azure การศึกษากรณีในโลกจริงบอกเรื่องที่แตกต่างกัน - ที่ผู้ใช้หลายล้านคนสามารถสูญเสียการเข้าถึงในขณะเดียวและธุรกิจทั้งหมดถูกนําไปสู่การหยุดชะงักเนื่องจากจุดเดียวของการล้มเหลว บางทีตัวอย่างที่น่าตื่นตาตื่นตาตื่นใจที่สุดของความอ่อนแอของคลาวด์สามารถพบได้ในการเผาไหม้ของศูนย์ข้อมูล - สัญญาณที่สามารถปิดการใช้งานโซนทั้งหมดของบริการคลาวด์ได้ทันที ในเดือนสิงหาคมปี 2022 การระเบิดทางไฟฟ้าที่ศูนย์ข้อมูล Council Bluffs ของ Google ได้บาดเจ็บสามคนและขัดขวางบริการหลักเช่น Search และ Maps เหตุการณ์นี้เป็นไฟฉายที่เกิดในระหว่างการบํารุงรักษาสถานะใต้ดินเป็นคําเตือนว่าแม้แต่ผู้ใหญ่ในอุตสาหกรรมก็ไม่สามารถหลีกเลี่ยงความเสี่ยงที่เกี่ยวข้องกับโครงสร้างพื้นฐานทางกายภาพได้ ปีต่อมาในปารีสความล้มเหลวหลายกลุ่มในโซน Europe-West9-a ของ Google Cloud เริ่มต้นด้วยการแทรกซึมของน้ําซึ่งเป็นผลมาจากความล้มเหลวของระบบระบายความร้อนที่ฝนฝนห้องแบตเตอรี่และทําให้เกิดการเผาไหม้ ความล้มเหลวนี้ไม่เพียง แต่เอาออกหนึ่งในภูมิภาคคลาวด์หลักของ Google ในยุโรป แต่ยังส่งผลกระทบต่อบริการคลาวด์กว่า 90 ในระยะเวลานาน เหตุการณ์เหล่านี้ย้อนกลับไปถึงไฟ OVHcloud ที่มีชื่อเสียงในปี 2021 ในสตรัสเบิร์กซึ่งทําลายศูนย์ข้อมูล SBG2 อย่างสมบูรณ์และทําลายบางส่วนอื่น ๆ ในมหาวิทยาลัยเดียวกัน ไฟแสดงให้เห็นถึงความจริงที่ไม่สะดวกอีกอย่าง: Many customers had no disaster recovery plans in place, and entire websites were lost without backups. นอกเหนือจากการเผาไหม้คลื่นความร้อนได้พิสูจน์แล้วว่าเป็นภัยคุกคามที่ไม่คาดคิด แต่เติบโตขึ้น ในเดือนกรกฎาคมปี 2022 อุณหภูมิที่ย้อนกลับมากกว่า 40 องศาเซลเซียส (104 องศาเซลเซียส) ในลอนดอนทําให้ศูนย์ข้อมูลของ Google และ Oracle ออฟไลน์เนื่องจากความล้มเหลวของระบบระบายความร้อน Google ต้องปิดส่วนหนึ่งของคลาวด์เพื่อป้องกันความเสียหายของฮาร์ดแวร์ - การยอมรับที่น่าตื่นตาตื่นใจว่าสภาพอากาศเท่านั้นอาจส่งผลกระทบต่อความพร้อมใช้งานของบริการ อย่างไรก็ตามไม่ทั้งหมดการหยุดทํางานเกิดจากภัยคุกคามทางกายภาพบางอย่างเป็นภัยคุกคามทางดิจิตอลที่รอที่จะเกิดขึ้น ในเดือนกุมภาพันธ์ 2024 Google Cloud ได้รับการหยุดทํางานอีกครั้งเมื่อการล้มเหลวของร้านค้าเมตาเดทในภูมิภาคทําให้ภูมิภาคสหรัฐอเมริกาตะวันตก1 ออนไลน์เกือบสามชั่วโมง ในทํานองเดียวกันการอัปเดตตามปกติโดย CrowdStrike ในเดือนกรกฎาคม 2024 ได้กระตุ้นการล้มเหลวอย่างแพร่หลายของระบบ Microsoft Windows ซึ่งนําไปสู่การยกเลิกการบินหลายพันเที่ยวบินและการสูญเสียการผลิตอย่างมากทั่วอุตสาหกรรม การล้มเหลวเหล่านี้แสดงให้เห็นถึงความเสี่ยงที่รุนแรงของความเสี่ยงในการขึ้นอยู่กับบริการคลาวด์ เมื่อเครือข่ายการส่งมอบเนื้อหา (CDN) เช่น Fastly มีการกําหนดค่าผิดพลาดในปี 2021 มันก่อให้เกิดความรบกวนทั่วโลกซึ่งส่งผลต่อ Reddit, Spotify และสื่อข่าวใหญ่ภายในไม่กี่วินาที สาเหตุ? การกําหนดค่าผิดพลาดครั้งเดียวถูกกระตุ้นทั่วโลกเนื่องจากวัฒนธรรมของซัพพลายเออร์ CDN ประสิทธิภาพอย่างต่อเนื่องโดยการออกแบบ ในขณะที่ผู้ให้บริการระบบคลาวด์แบบศูนย์กลางสร้างที่แข็งแกร่งมากขึ้นเพื่อปกป้องจากความล้มเหลว Sia จะขัดขวางปัญหาโดยการปฏิเสธรูปแบบที่แข็งแกร่ง แทนที่จะวางเดิมพันทุกอย่างเกี่ยวกับความยืดหยุ่นของภูมิภาคหรือสิ่งอํานวยความสะดวกเดียว Sia จะกระจายข้อมูลของคุณทั่วโลกไปทั่วทศวรรษของ nodes ที่ดําเนินการโดยอิสระโดยใช้คณิตศาสตร์ - ไม่ใช่การตลาด - เพื่อรับประกันความน่าเชื่อถือ นี่ไม่ใช่เพียงโครงสร้างพื้นฐานที่แตกต่างกัน แต่เป็นปรัชญาที่แตกต่างกัน การยกเลิกที่ส่งมอบ การยกเลิกมักจะมองว่าเป็นมาตรการรักษาความปลอดภัย - วิธีที่จะปกป้องจากความล้มเหลว แต่ใน Sia มันมากกว่านั้น ความยกเลิกเป็นสิ่งที่ช่วยให้ประสิทธิภาพอย่างต่อเนื่อง โดยค่าเริ่มต้น Sia จะแบ่งไฟล์แต่ละไฟล์เป็น 30 ชิ้นส่วนที่เข้ารหัสโดยใช้การเข้ารหัสการลบเท่านั้น 10 ชิ้นส่วนเหล่านี้เป็นสิ่งจําเป็นในการสร้างใหม่ไฟล์อย่างสมบูรณ์ ซึ่งหมายความว่าเครือข่ายสามารถทนต่อไม่เพียง แต่การหยุดทํางาน แต่ประสิทธิภาพที่แตกต่างจากโฮสต์แต่ละโฮสต์ - ทั้งหมดในขณะที่รักษาการเข้าถึงที่ราบรื่น การยกเลิกไม่ได้เป็นความล้มเหลว - มันเป็นพื้นฐานของประสิทธิภาพอย่างต่อเนื่อง ในทางตรงกันข้ามคลาวด์แบบดั้งเดิมขึ้นอยู่กับการคัดลอกไฟล์เต็มรูปแบบในหลายภูมิภาค หากภูมิภาคหนึ่งล้มเหลวการเข้าถึงจะช้าลงหรือหยุดลงและพื้นที่เก็บข้อมูลเพิ่มเติมไม่ได้หมายความว่าความเร็วที่ดีขึ้น รูปแบบของ Sia จะปรับตัวได้ในเวลาจริง เส้นทางการกู้คืนจะเปลี่ยนแปลงแบบไดนามิกขึ้นอยู่กับความพร้อมใช้งานของโฮสต์และเงื่อนไขเครือข่าย - ไม่มีข้อบกพร่องข้อบกพร่องข้อบกพร่องข้อบกพร่องข้อบกพร่อง และในขณะที่คลาวด์แบบศูนย์กลางอาจใช้การเข้ารหัสการลบภายใน แต่โครงสร้างพื้นฐานทั้งหมดของพวกเขายังคงดําเนินการโดยผู้ให้บริการเดียว การกําหนดค่าผิดพลาดหนึ่งครั้งอาจส่งผลกระทบต่อเครือข่ายทั้งหมด ในทางตรงกันข้ามโฮสต์ของ Sia มีการดําเนินงานอย่างอิสระ - มักจะโดยบุคคลหรือธุรกิจที่แตกต่างกัน การใช้ Sia คือการแบ่งข้อมูลของคุณผ่านคลาวด์ที่แตกต่างกัน 30 ตามค่าเริ่มต้น ไม่มี บริษัท หนึ่งที่ควบคุมระบบและไม่มีจุดเดียวของการล้มเหลวสามารถนํามันลง ความต้านทานโดยไม่มีการหยุดชะงัก ในสภาพแวดล้อมคลาวด์ส่วนใหญ่เมื่อสิ่งบางอย่างทําลายประสิทธิภาพได้รับผลกระทบ แม้จะมีระบบล้มเหลวในสถานที่การทําลายมักจะนําไปสู่ความเร็วลดลงการเข้าถึงที่ขัดขวางหรือเวลาหยุดทํางานทั้งหมดในขณะที่โครงสร้างพื้นฐานไม่สามารถกู้คืนได้ อาคารของ Sia ทํางานแตกต่างกัน เมื่อโฮสต์ที่เก็บข้อมูลส่วนหนึ่งของข้อมูลของคุณออกจากระบบออฟไลน์เนื่องจากความล้มเหลวการบํารุงรักษาหรือความไม่มั่นคงไฟล์ของคุณยังคงสามารถเข้าถึงได้อย่างเต็มที่ ไม่มีหมุนการโหลดไม่มีความล่าช้าในการซิงค์ไม่มีการแจ้งเตือน เครือข่ายยังคงกู้คืนชิ้นส่วนที่จําเป็นจากโฮสต์ที่เหลือโดยเลือกตัวเลือกที่รวดเร็วที่สุด ในขณะเดียวกันในพื้นหลังซอฟต์แวร์ผู้เช่าเริ่มที่จะคืนค่าใช้จ่ายเต็มรูปแบบโดยอัปโหลดชิ้นส่วนใหม่ไปยังโฮสต์ที่มีสุขภาพดี กระบวนการการรักษาตนเองนี้ไม่เพียง แต่ปกป้องจากความล้มเหลวในอนาคตเท่านั้น แต่ยังให้แน่ใจว่าประสิทธิภาพการทํางานยังคงไม่หยุดชะงัก Sia ไม่เพียง แต่กู้คืนจากความล้มเหลว - มันทํางานผ่านมัน แทนที่จะตอบสนองต่อความล้มเหลวหลังจากที่เกิดขึ้น Sia รักษา churn เป็นพฤติกรรมที่คาดหวัง - สิ่งที่เครือข่ายถูกสร้างขึ้นเพื่อจัดการด้วยความสง่างาม เป็นรูปแบบของความยืดหยุ่นที่ไม่เพียง แต่หลีกเลี่ยงการหยุดทํางาน แต่ยังป้องกันผู้ใช้จากการสังเกตเห็น ไม่มีจุดเดียวของความล้มเหลว แพลตฟอร์มคลาวด์แบบศูนย์กลางมีความเสี่ยงต่อความล้มเหลวในแถวเนื่องจากพวกเขาพึ่งพาการควบคุมแบบศูนย์กลาง เราเตอร์ที่กําหนดค่าผิดพลาดการใช้งานซอฟต์แวร์ที่ผิดพลาดหรือปัญหาเกี่ยวกับพลังงานในโครงสร้างเดียวอาจแพร่กระจายไปหลายภูมิภาค - การลากบริการที่ล้านคนพึ่งพา สถาปัตยกรรมของ Sia ป้องกันความเสี่ยงนี้โดยการออกแบบ ไม่มีปุ่มหลัก ไม่มีภูมิภาคกลาง ไม่มีอํานาจพิเศษที่สามารถนําระบบออกจากระบบโดยไม่ได้ตั้งใจ แทนที่ข้อมูลของคุณจะกระจายไปหลายสิบโฮสต์อิสระทั่วโลก - แต่ละแห่งที่จัดเก็บเฉพาะชิ้นส่วนที่เข้ารหัส หากหนึ่งโฮสต์ล้มเหลวระบบจะยังคงทํางาน หากสิบโฮสต์ล้มเหลวก็ยังคงทํางาน ไม่จําเป็นต้อง "ล้มเหลว" เพราะไม่มีเส้นทางเดียวที่จะเริ่มต้นด้วย ไม่มีภูมิภาค ไม่มีปุ่มหลัก ไม่มี bottleneck เพียงไม่หยุดการเข้าถึง การขาดการขึ้นอยู่กลางนี้ไม่เพียง แต่ช่วยเพิ่มความอดทนต่อข้อบกพร่อง คุณไม่ได้รอพื้นที่ที่จะกลับมาออนไลน์ คุณไม่ได้ถูกขัดขวางโดยพอร์ตโหลดเกินไปหรือบริการการกู้คืนผู้ดูแลระบบมนุษย์ คุณกําลังดึงข้อมูลจากที่ใดก็ได้ที่เร็วที่สุด – อย่างต่อเนื่อง prevents performance blackouts ออกแบบเพื่อความน่าเชื่อถือไม่เพียง แต่หวังว่ามัน เมื่อเราพูดถึง“ความน่าเชื่อถือของคลาวด์” เรามักจะได้รับสัญญา – SLA ที่ได้รับการสนับสนุนโดยการลงโทษทางการเงินเปอร์เซ็นต์เวลาทํางานที่งดงามและชื่อเสียงแบรนด์ แต่ตามที่เราได้เห็นแม้แต่ผู้ให้บริการคลาวด์ที่ใหญ่ที่สุดก็ไม่สามารถหลีกเลี่ยงความอ่อนแอที่มาพร้อมกับการมุ่งเน้น ไม่ว่ามันจะเป็นการเผาไหม้คลื่นความร้อนหรือความผิดพลาดของซอฟต์แวร์รูปแบบคลาวด์แบบดั้งเดิมมักจะล้มเหลวไม่กี่ครั้งจากความผิดปกติทั่วโลก Sia ใช้วิธีการที่แตกต่างจากพื้นฐาน แทนที่จะคาดหวังว่าโครงสร้างพื้นฐานจะยึดมั่นและเตรียมความพร้อมสําหรับภัยพิบัติเมื่อมันไม่ได้, Sia จะคาดหวังว่าความล้มเหลวเป็นสิ่งที่หลีกเลี่ยงไม่ได้ - และสร้างระบบที่ยังคงทํางานอย่างไรก็ตาม นี่คือความสําคัญของ : ไม่มีเซิร์ฟเวอร์ที่กําหนดเองไม่มีความเสี่ยงในภูมิภาคไม่มีการล็อคซัพพลายเออร์ เพียงแค่การซ่อมแซมตนเองโครงสร้างพื้นฐานที่แยกส่วนช่วยให้ข้อมูลของคุณสามารถเข้าถึงได้เนื่องจากไม่มีตัวแทนเดียวที่มีอํานาจที่จะทําให้ไม่สามารถเข้าถึงได้ ประสิทธิภาพอย่างต่อเนื่อง นี่ไม่ใช่ข้อได้เปรียบทางเทคนิค มันเป็นการเปลี่ยนแปลงในวิธีที่เราคิดเกี่ยวกับความยืดหยุ่นทางดิจิตอล แทนที่จะสร้างผนังสูงขึ้นและผนังลึกกว่า Sia จะกระจายการป้องกันของตน มันกระจายความไว้วางใจ และทําเช่นนั้นก็กําหนดใหม่ว่าคลาวด์ที่เชื่อถือได้สามารถดูได้อย่างไรในโลกที่เวลาหยุดทํางานไม่สามารถยอมรับได้อีกต่อไป ในขณะที่องค์กรเผชิญกับการหยุดทํางานที่เพิ่มขึ้นค่าใช้จ่ายที่เพิ่มขึ้นและข้อกําหนดการปฏิบัติตามที่เข้มงวดขึ้นการแยกส่วนได้กลายเป็นสิ่งที่สามารถทําได้มากขึ้น - มันเป็นสิ่งที่ดีกว่า หากอนาคตของคลาวด์คือการสร้างบริการที่สามารถใช้งานได้ แม้ว่าสิ่งต่าง ๆ จะไปผิดแล้วก็ถึงเวลาที่จะหยุดการออกแบบรอบ ๆ ความไว้วางใจและเริ่มการออกแบบรอบ ๆ ความมั่นใจ เพียงทํางาน ด้วย Sia ประสิทธิภาพอย่างต่อเนื่องไม่ได้เป็นเป้าหมาย มันเป็นการรับประกัน แหล่งที่มา Data Center Knowledge. (2022, 9 สิงหาคม). ระเบิดศูนย์ข้อมูล — Google มี ‘อุบัติเหตุไฟฟ้า’, 3 คนได้รับบาดเจ็บ. Data Center Knowledge. https://www.datacenterknowledge.com/hyperscalers/data-center-fire-google-suffers-electric-incident-3-บาดเจ็บ Claburn, T. (2023, 26 เมษายน) Google Cloud ลื่นไปทั่วยุโรประหว่างการรั่วไหลของน้ํา, ไฟ. https://www.theregister.com/2023/04/26/google_cloud_outage/ Sverdlik, Y. (2021, 9 มีนาคม) ไฟได้ทําลายศูนย์ข้อมูล Strasbourg ของ OVH (SBG2) ข้อมูลศูนย์ความรู้ https://www.datacenterknowledge.com/uptime/fire-has-destroyed-ovh-s-strasbourg-datacenter-sbg2 Bloomberg ข่าว. (2022, 20 กรกฎาคม). Google, Oracle ศูนย์ข้อมูลตีออฟไลน์โดยความร้อนของลอนดอน. Data Center Knowledge. https://www.datacenterknowledge.com/cooling/google-oracle-data-centers-knocked-offline-by-london-heat Millward, W. (2024, 5 ธันวาคม). 10 การหยุดทํางานของคลาวด์ที่ใหญ่ที่สุดของ 2024. CRN. https://www.crn.com/news/cloud/2024/the-10-biggest-cloud-outages-of-2024 Barrett, B. (2021, 8 มิถุนายน). วิธีการ บริษัท ไม่ชัดเจนเอาชิ้นส่วนใหญ่ของอินเทอร์เน็ต. WIRED. https://www.wired.com/story/fastly-cdn-internet-outages-2021/