Trong thế giới kỹ thuật số đầu tiên ngày nay, mong đợi truy cập không bị gián đoạn vào dữ liệu không còn là một sự sang trọng - đó là một điều cần thiết. Cho dù bạn đang cung cấp một ứng dụng quan trọng, cung cấp nội dung đa phương tiện cho một đối tượng toàn cầu, hoặc chỉ đơn giản là sao lưu các tệp cá nhân, độ tin cậy của lưu trữ đám mây của bạn ảnh hưởng trực tiếp đến mọi thứ từ năng suất đến tin cậy. Đối với hầu hết các nhà cung cấp điện toán đám mây, độ tin cậy được định lượng theo tỷ lệ phần trăm thời gian hoạt động - 99,9%, 99,99%, hoặc thậm chí Tuy nhiên, đằng sau các thỏa thuận cấp độ dịch vụ được đánh bóng này (SLAs) là một thực tế khắc nghiệt: đúng. - khả năng truy cập dữ liệu của bạn bất cứ lúc nào, bất cứ nơi nào, mà không có sự chậm trễ hoặc gián đoạn bất ngờ - vẫn khó hiểu. ngay cả những đám mây tập trung mạnh nhất cũng dễ bị ảnh hưởng bởi chính điều mà họ đang cố gắng giảm bớt: thất bại. five nines continuous performance Độ tin cậy không phải là điều bạn hy vọng - đó là điều bạn thiết kế cho. Từ sự gián đoạn trên toàn khu vực đến các tuyến đường mạng được cấu hình sai, chúng tôi đã thấy nhiều lần rằng cơ sở hạ tầng tập trung, bất kể được củng cố như thế nào, không thể thoát khỏi những hạn chế cấu trúc của chính nó.Khi tất cả các con đường dẫn qua một số trung tâm dữ liệu, một bước sai lầm duy nhất - một vụ hỏa hoạn, một vấn đề định tuyến, một lỗi nội bộ - có thể có tác dụng lây lan trên toàn bộ các ngành công nghiệp. Từ sự gián đoạn trên toàn khu vực đến các tuyến đường mạng được cấu hình sai, chúng tôi đã thấy nhiều lần rằng cơ sở hạ tầng tập trung, bất kể được củng cố như thế nào, không thể thoát khỏi những hạn chế cấu trúc của chính nó.Khi tất cả các con đường dẫn qua một số trung tâm dữ liệu, một bước sai lầm duy nhất - một vụ hỏa hoạn, một vấn đề định tuyến, một lỗi nội bộ - có thể có tác dụng lây lan trên toàn bộ các ngành công nghiệp. Blog này khám phá lý do tại sao kiến trúc phi tập trung của Sia có vị trí độc đáo để vượt qua những hạn chế này. Trong các phần tiếp theo, chúng tôi sẽ so sánh thiết kế này với các mô hình lưu trữ truyền thống, phá vỡ các kịch bản thất bại trong thế giới thực và chứng minh làm thế nào phi tập trung không chỉ an toàn hơn - nó đáng tin cậy hơn. Hiệu suất thông qua Resilience Bởi vì trong tương lai của lưu trữ đám mây, độ tin cậy không phải là điều bạn hy vọng - đó là điều bạn thiết kế cho. Những nền tảng mỏng manh của đám mây tập trung Đối với tất cả những lời hứa của họ về thời gian hoạt động "năm chín", các nền tảng lưu trữ đám mây truyền thống đã nhiều lần chứng minh rằng cơ sở hạ tầng tập trung có thể mỏng manh như thế nào khi phải đối mặt với các vấn đề môi trường cực đoan, lỗi của con người hoặc cấu hình sai lầm nội bộ.Mặc dù việc sa thải được tuyên bố bởi các công ty quy mô cao như AWS, Google Cloud và Microsoft Azure, các nghiên cứu trường hợp thế giới thực cho biết một câu chuyện khác - một trong đó hàng triệu người dùng có thể mất quyền truy cập trong một khoảnh khắc, và toàn bộ doanh nghiệp bị tạm dừng do một điểm thất bại duy nhất. Có lẽ những ví dụ đáng chú ý nhất về sự mong manh của đám mây được tìm thấy trong các vụ hỏa hoạn trung tâm dữ liệu - các sự cố có thể vô hiệu hóa ngay lập tức toàn bộ các khu vực dịch vụ đám mây.Vào tháng 8 năm 2022, một vụ nổ điện tại trung tâm dữ liệu Council Bluffs của Google làm bị thương ba nhân viên và làm gián đoạn các dịch vụ cốt lõi như Tìm kiếm và Bản đồ. Một năm sau tại Paris, một sự cố đa cụm tại khu vực châu Âu-phía tây-a của Google Cloud bắt đầu với sự xâm nhập của nước - chính nó là kết quả của một sự cố hệ thống làm mát mà lũ lụt phòng pin và đốt cháy một đám cháy. Những sự cố này nhắc lại vụ hỏa hoạn OVHcloud nổi tiếng năm 2021 tại Strasbourg, phá hủy hoàn toàn trung tâm dữ liệu SBG2 và làm hỏng một phần các trung tâm khác trên cùng một khuôn viên. Many customers had no disaster recovery plans in place, and entire websites were lost without backups. Vào tháng 7 năm 2022, nhiệt độ kỷ lục vượt quá 40 ° C (104 ° F) ở London đã khiến cả hai trung tâm dữ liệu của Google và Oracle bị ngắt kết nối do sự cố hệ thống làm mát. Google đã phải chủ động đóng cửa một phần của đám mây của mình để ngăn chặn thiệt hại phần cứng - một sự thừa nhận đáng kinh ngạc rằng chỉ có thời tiết có thể gây nguy hiểm cho tính sẵn có của dịch vụ. Tuy nhiên, không phải tất cả các sự gián đoạn đều được sinh ra từ thảm họa vật lý - một số là thảm họa kỹ thuật số đang chờ đợi xảy ra.Vào tháng 2 năm 2024, Google Cloud đã phải chịu một sự gián đoạn khác khi một sự cố lưu trữ siêu dữ liệu khu vực khiến khu vực của nó mất gần ba giờ.Tương tự như vậy, một bản cập nhật thường xuyên của CrowdStrike vào tháng 7 năm 2024 đã kích hoạt sự gián đoạn rộng rãi của hệ thống Microsoft Windows, dẫn đến hàng ngàn chuyến bay bị hủy và mất năng suất lớn trên các ngành. Khi một mạng lưới phân phối nội dung (CDN) như Fastly bị lỗi cấu hình vào năm 2021, nó đã gây ra sự gián đoạn toàn cầu, ảnh hưởng đến Reddit, Spotify và các phương tiện truyền thông lớn trong vài giây. Hiệu suất liên tục theo thiết kế Trong khi các nhà cung cấp điện toán đám mây tập trung xây dựng các pháo đài ngày càng lớn hơn để bảo vệ chống lại sự thất bại, Sia loại bỏ hoàn toàn vấn đề bằng cách từ chối mô hình pháo đài. Thay vì đặt cược mọi thứ vào khả năng phục hồi của một khu vực hoặc cơ sở duy nhất, Sia phân phối dữ liệu của bạn trên toàn cầu, trên hàng chục nút hoạt động độc lập, sử dụng toán học - không phải tiếp thị - để đảm bảo độ tin cậy. Sự sa thải mang lại Việc sa thải thường được coi là một biện pháp an toàn – một cách để bảo vệ chống lại thất bại.Nhưng trên Sia, nó còn nhiều hơn thế. Theo mặc định, Sia chia từng tệp thành 30 phần được mã hóa bằng cách sử dụng mã hóa xóa. Chỉ cần 10 phần đó là cần thiết để xây dựng lại toàn bộ tệp. Điều này có nghĩa là mạng có thể chịu đựng không chỉ sự gián đoạn, nhưng hiệu suất thay đổi từ các máy chủ riêng lẻ - tất cả trong khi duy trì truy cập liền mạch. Việc sa thải không phải là một sự thất bại - đó là nền tảng của hiệu suất liên tục. Ngược lại, đám mây truyền thống dựa vào việc sao chép tệp đầy đủ trên một vài khu vực.Nếu một khu vực thất bại, truy cập chậm lại hoặc dừng lại - và lưu trữ bổ sung không có nghĩa là tốc độ tốt hơn. Mô hình của Sia thích ứng trong thời gian thực. con đường phục hồi thay đổi năng động dựa trên sự sẵn có của máy chủ và điều kiện mạng - không có lỗi, không có chướng ngại vật, không có cửa sổ thời gian ngừng hoạt động. Và trong khi đám mây tập trung cũng có thể sử dụng mã hóa xóa nội bộ, tất cả cơ sở hạ tầng của chúng vẫn được điều hành bởi một nhà cung cấp duy nhất. Ngược lại, các máy chủ của Sia được vận hành độc lập - thường bởi các cá nhân hoặc doanh nghiệp khác nhau. Sử dụng Sia giống như tách dữ liệu của bạn trên 30 đám mây khác nhau theo mặc định. không có công ty nào kiểm soát hệ thống, và không có điểm thất bại nào có thể làm giảm nó. Khả năng phục hồi không gián đoạn Trong hầu hết các môi trường đám mây, khi một cái gì đó bị phá vỡ, hiệu suất bị tổn thương.Thậm chí với các hệ thống thất bại, sự gián đoạn thường dẫn đến tốc độ suy giảm, truy cập bị hỏng hoặc thời gian ngừng hoạt động tổng thể trong khi cơ sở hạ tầng gặp khó khăn để phục hồi. Kiến trúc của Sia hoạt động khác nhau. Khi một máy chủ lưu trữ một phần dữ liệu của bạn đi offline - cho dù do thất bại, bảo trì, hoặc không ổn định - các tập tin của bạn vẫn có thể truy cập đầy đủ. Không có spin tải, không chậm đồng bộ, không có cảnh báo. Mạng lưới tiếp tục thu thập các phần cần thiết từ các máy chủ còn lại, năng động chọn các tùy chọn có sẵn nhanh nhất. Trong khi đó, trong nền tảng, phần mềm cho thuê bắt đầu tự động khôi phục đầy đủ sự dư thừa bằng cách tải lên các mảnh vụn mới cho các máy chủ khỏe mạnh. quy trình tự chữa bệnh này không chỉ bảo vệ chống lại sự thất bại trong tương lai - nó đảm bảo hiệu suất vẫn không bị gián đoạn. Sia không chỉ phục hồi từ thất bại - nó hoạt động thông qua nó. Thay vì phản ứng với thất bại sau khi nó xảy ra, Sia coi churn là một hành vi được mong đợi - một trong những mạng được xây dựng để xử lý một cách lịch sự. Không điểm thất bại duy nhất Các nền tảng đám mây tập trung dễ bị thất bại vì chúng dựa vào kiểm soát tập trung.Một bộ định tuyến sai cấu hình, triển khai phần mềm bị lỗi, hoặc một vấn đề điện trong một cơ sở duy nhất có thể lây lan qua các khu vực - kéo xuống các dịch vụ mà hàng triệu người dựa vào. Kiến trúc của Sia loại bỏ rủi ro này bằng thiết kế. Không có nút chính. Không có khu vực trung tâm. Không có cơ quan đặc quyền nào có thể vô tình đưa hệ thống ngoại tuyến. Thay vào đó, dữ liệu của bạn được phân phối trên hàng chục máy chủ độc lập trên toàn thế giới - mỗi máy chủ chỉ lưu trữ các mảnh được mã hóa. Nếu một máy chủ thất bại, hệ thống tiếp tục chạy.Nếu mười máy chủ thất bại, nó vẫn tiếp tục chạy.Không cần phải "thất bại" vì không có con đường duy nhất để bắt đầu. Không có khu vực. Không có master node. Không có bottleneck. Chỉ truy cập không thể ngăn chặn. Sự thiếu phụ thuộc trung tâm này không chỉ tăng cường sự khoan dung lỗi - nó Bạn không chờ đợi một khu vực quay trở lại trực tuyến.Bạn không bị chặn bởi một cổng thông tin quá tải hoặc một dịch vụ khôi phục quản trị viên con người.Bạn đang kéo dữ liệu từ bất cứ nơi nào nó nhanh nhất - liên tục. prevents performance blackouts Thiết kế cho độ tin cậy, không chỉ hy vọng cho nó Khi chúng ta nói về "độ tin cậy đám mây", chúng ta thường được bán một lời hứa - một SLA được hỗ trợ bởi các hình phạt tài chính, tỷ lệ phần trăm thời gian hoạt động rực rỡ và danh tiếng thương hiệu.Nhưng như chúng ta đã thấy, ngay cả các nhà cung cấp đám mây lớn nhất cũng không thể thoát khỏi sự mong manh đi kèm với tập trung.Dù đó là hỏa hoạn, sóng nhiệt hoặc sai lầm phần mềm, mô hình đám mây truyền thống luôn luôn là một vài thất bại hàng loạt tránh xa sự gián đoạn toàn cầu. Thay vì giả định rằng cơ sở hạ tầng sẽ giữ và chuẩn bị cho thảm họa khi nó không, Sia giả định thất bại là không thể tránh khỏi - và xây dựng một hệ thống mà vẫn tiếp tục hoạt động. : không có máy chủ đặc quyền, không phụ thuộc khu vực, không khóa nhà cung cấp. chỉ cần tự sửa chữa, cơ sở hạ tầng phi tập trung mà giữ cho dữ liệu của bạn có thể truy cập bởi vì không một bên duy nhất có quyền để làm cho nó không thể truy cập được. Performance liên tục Đây là nhiều hơn một lợi thế kỹ thuật. Đó là một sự thay đổi trong cách chúng ta nghĩ về khả năng phục hồi kỹ thuật số. Thay vì xây dựng các bức tường cao hơn và sâu hơn, Sia phân tán các biện pháp phòng thủ của mình. Nó phân phối sự tin tưởng. Và bằng cách làm như vậy, nó định nghĩa lại những gì lưu trữ đám mây đáng tin cậy có thể trông như thế nào trong một thế giới nơi thời gian ngừng hoạt động không còn chấp nhận được. Khi các tổ chức phải đối mặt với sự gián đoạn ngày càng tăng, chi phí gia tăng và yêu cầu tuân thủ chặt chẽ hơn, phi tập trung hóa đã trở nên khả thi hơn - nó vượt trội. Ngay cả khi mọi thứ đi sai, thì đã đến lúc chúng ta ngừng thiết kế xung quanh sự tin tưởng và bắt đầu thiết kế xung quanh sự chắc chắn. Chỉ làm việc Với Sia, hiệu suất liên tục không phải là một mục tiêu. Nguồn Trung tâm dữ liệu Kiến thức. (2022, 9 tháng 8). Trung tâm dữ liệu hỏa hoạn — Google bị ‘sự cố điện’, 3 bị thương. Trung tâm dữ liệu Kiến thức. https://www.datacenterknowledge.com/hyperscalers/data-center-fire-google-suffers-electric-incident-3-bị thương Claburn, T. (2023, 26 tháng 4). Google Cloud trượt qua ở châu Âu giữa rò rỉ nước, cháy. https://www.theregister.com/2023/04/26/google_cloud_outage/ Sverdlik, Y. (2021, 9 tháng 3). Cháy đã phá hủy trung tâm dữ liệu Strasbourg của OVH (SBG2). Trung tâm dữ liệu Kiến thức. https://www.datacenterknowledge.com/uptime/fire-has-destroyed-ovh-s-strasbourg-datacenter-sbg2 Bloomberg News. (2022, 20 tháng 7). Google, trung tâm dữ liệu Oracle bị tấn công ngoại tuyến bởi nhiệt London. Trung tâm dữ liệu Tri thức. https://www.datacenterknowledge.com/cooling/google-oracle-data-centers-knocked-offline-by-london-heat Millward, W. (2024, 5 tháng 12). 10 sự cố đám mây lớn nhất của 2024. CRN. https://www.crn.com/news/cloud/2024/the-10-biggest-cloud-outages-of-2024 Barrett, B. (2021, 8 tháng 6). Làm thế nào một công ty mơ hồ đã hạ xuống những mảnh lớn của internet. WIRED. https://www.wired.com/story/fastly-cdn-internet-outages-2021/