W dzisiejszym cyfrowym świecie oczekiwanie nieprzerwanego dostępu do danych nie jest już luksusem – jest koniecznością. Niezależnie od tego, czy napędzasz krytyczną aplikację, dostarczasz treści multimedialne globalnej publiczności, czy po prostu tworzysz kopie zapasowe plików osobistych, niezawodność przechowywania w chmurze bezpośrednio wpływa na wszystko, od wydajności po zaufanie. Dla większości dostawców usług w chmurze niezawodność jest mierzona pod względem odsetek czasu pracy — 99,9%, 99,99% lub nawet Jednak za tymi polerowanymi umowami na poziomie usług (SLA) kryje się ostra rzeczywistość: prawdziwe Możliwość dostępu do danych w dowolnym momencie, w dowolnym miejscu, bez nieoczekiwanych opóźnień lub przerw – pozostaje niewyobrażalna. five nines continuous performance Niezawodność nie jest czymś, czego się spodziewasz – jest czymś, do czego zaprojektujesz. Od przerw w całym regionie po błędnie skonfigurowane trasy sieciowe, wielokrotnie widzieliśmy, że scentralizowana infrastruktura, niezależnie od tego, jak wzmocniona, nie może uciec od własnych ograniczeń strukturalnych. Od przerw w całym regionie po błędnie skonfigurowane trasy sieciowe, wielokrotnie widzieliśmy, że scentralizowana infrastruktura, niezależnie od tego, jak wzmocniona, nie może uciec od własnych ograniczeń strukturalnych. Ten blog bada, dlaczego zdecentralizowana architektura Sia jest unikalnie ustawiona, aby przezwyciężyć te ograniczenia. W kolejnych sekcjach porównamy ten projekt z tradycyjnymi modelami pamięci masowej, rozbijemy rzeczywiste scenariusze awarii i pokażemy, jak decentralizacja jest nie tylko bezpieczniejsza – jest bardziej niezawodna. Wydajność poprzez odporność Ponieważ w przyszłości przechowywania w chmurze niezawodność nie jest czymś, czego można się spodziewać – jest czymś, do czego można zaprojektować. Fragilne podstawy scentralizowanych chmur Przez wszystkie swoje obietnice „pięciu dziewięciu” czasu pracy, tradycyjne platformy magazynowania w chmurze wielokrotnie udowadniały, jak krucha może być scentralizowana infrastruktura w obliczu skrajności środowiskowych, błędu ludzkiego lub wewnętrznych błędów konfiguracyjnych. Być może najbardziej dramatyczne przykłady kruchości chmury znajdują się w pożarach centrów danych – incydentach, które mogą natychmiast wyłączyć całe strefy usług w chmurze.W sierpniu 2022 r. wybuch elektryczny w centrum danych Council Bluffs firmy Google zranił trzech pracowników i zakłócił podstawowe usługi, takie jak wyszukiwanie i mapy. Rok później w Paryżu awarię wielu klastrów w strefie europejsko-zachodniej 9 Google Cloud rozpoczęła inwazja wody – sama w sobie była konsekwencją awarii systemu chłodzenia, która zalała pomieszczenie akumulatorów i zapaliła ogień. Incydenty te odzwierciedlają teraz słynny pożar 2021 OVHcloud w Strasburgu, który całkowicie zniszczył centrum danych SBG2 i częściowo uszkodził inne na tym samym kampusie. Many customers had no disaster recovery plans in place, and entire websites were lost without backups. Poza pożarami, fale ciepła okazały się nieoczekiwanym, ale rosnącym zagrożeniem.W lipcu 2022 r. rekordowe temperatury przekraczające 40°C (104°F) w Londynie spowodowały, że zarówno centrum danych Google, jak i Oracle zostały wyłączone z powodu awarii systemu chłodzenia. Jednak nie wszystkie zakłócenia wynikają z katastrofy fizycznej – niektóre z nich są katastrofami cyfrowymi, które czekają na wydarzenie.W lutym 2024 roku Google Cloud doświadczyło kolejnego zakłócenia, gdy regionalny błąd w magazynie metadanych spowodował, że region USA-Zachód1 był odłączony przez prawie trzy godziny. Gdy sieć dostarczania treści (CDN) taka jak Fastly doświadczyła błędnej konfiguracji w 2021 roku, spowodowała globalne zakłócenia, wpływając na Reddit, Spotify i główne media w ciągu kilku sekund. Ciągła wydajność poprzez design Zamiast stawiać wszystko na odporność jednego regionu lub instalacji, Sia rozprowadza dane na całym świecie, na dziesiątkach niezależnie obsługiwanych węzłów, używając matematyki – nie marketingu – aby zagwarantować niezawodność. Zwolnienie, które przynosi Zwolnienie jest często postrzegane jako środek bezpieczeństwa – sposób ochrony przed niepowodzeniem.Ale w Sia jest to o wiele więcej. Domyślnie Sia dzieli każdy plik na 30 zaszyfrowanych fragmentów za pomocą kodowania usunięcia. Tylko 10 z tych fragmentów jest potrzebnych do całkowitej rekonstrukcji pliku. Zwolnienie nie jest zwrotem – jest podstawą ciągłej wydajności. W przeciwieństwie do tego, tradycyjne chmury opierają się na pełnej replikacji plików w kilku regionach.Jeśli jeden region zawiedzie, dostęp spowalnia się lub zatrzymuje – a dodatkowe przechowywanie nie oznacza lepszej prędkości. Ścieżki odzyskiwania zmieniają się dynamicznie w zależności od dostępności hosta i warunków sieciowych – bez awarii, bez blokad, bez okien czasowych. I chociaż scentralizowane chmury mogą również używać kodowania usunięcia wewnętrznie, cała ich infrastruktura jest nadal obsługiwana przez jednego dostawcę. Hosty Sia, w przeciwieństwie do tego, są obsługiwane niezależnie – często przez różne osoby lub firmy. Używanie Sia jest jak podział danych na 30 różnych chmur domyślnie. Odporność bez przerw W większości środowisk chmurowych, gdy coś pęknie, wydajność cierpi. Nawet w przypadku systemów awarii, zakłócenia często prowadzą do pogorszenia prędkości, ograniczenia dostępu lub całkowitego zatrzymania się, podczas gdy infrastruktura ma trudności z odzyskaniem. Architektura Sia działa inaczej. Gdy host przechowuje część danych w trybie offline – z powodu awarii, konserwacji lub niestabilności – Twoje pliki pozostają w pełni dostępne. Nie ma spinnerów ładowania, nie ma opóźnień synchronizacji, nie ma ostrzeżeń. Sieć nadal pobiera niezbędne fragmenty od pozostałych hostów, dynamicznie wybierając najszybciej dostępne opcje. Tymczasem w tle oprogramowanie wynajmującego zaczyna samodzielnie przywracać pełną redundancję, przesyłając nowe fragmenty do zdrowych gospodarzy. Sia nie tylko odzywa się od porażki – działa przez nią. Zamiast reagować na porażkę po jej wystąpieniu, Sia traktuje churn jako oczekiwane zachowanie - takie, z którym sieć jest zbudowana, aby radzić sobie z grzecznością. Bez pojedynczego punktu porażki Centralizowane platformy chmurowe są podatne na awarię kaskadową, ponieważ opierają się na scentralizowanej kontroli.Nieprawidłowo skonfigurowany router, wadliwy wdrożenie oprogramowania lub problem z zasilaniem w jednym obiekcie mogą rozprzestrzeniać się w różnych regionach – wyciągając usługi, na których liczą miliony. Architektura Sia eliminuje to ryzyko przez projekt. Nie ma węzła głównego. Nie ma regionu centralnego. Nie ma uprzywilejowanej władzy, która mogłaby nieumyślnie wyłączyć system. Zamiast tego Twoje dane są rozprowadzane na dziesiątkach niezależnych hostów na całym świecie - każdy przechowuje tylko zaszyfrowane fragmenty. Jeśli jeden z hostów zawiedzie, system będzie nadal działał. Jeśli dziesięć hostów zawiedzie, nadal będzie działać. Nie ma potrzeby „przegrywania”, ponieważ nie ma pojedynczej ścieżki do rozpoczęcia. Nie ma regionu, nie ma głównego węzła, nie ma zakłóceń. Ten brak centralnej zależności nie tylko zwiększa tolerancję błędów – to Nie czekasz na powrót regionu do sieci.Nie jesteś zablokowany przez przeciążoną bramę lub usługę odzyskiwania danych przez administratora ludzkiego. prevents performance blackouts Projektowanie dla niezawodności, a nie tylko nadzieję na nią Kiedy mówimy o „zaufaniu w chmurze”, często otrzymujemy obietnicę – umowę SLA wspieraną przez kary finansowe, błyszczące odsetki czasu pracy i reputację marki.Ale jak widzieliśmy, nawet największe dostawcy chmur nie mogą uciec od kruchości, która pochodzi z centralizacji. Zamiast zakładać, że infrastruktura utrzyma się i przygotowuje się na katastrofę, gdy nie, Sia zakłada, że porażka jest nieunikniona - i buduje system, który nadal działa. Nie ma uprzywilejowanych serwerów, nie ma zależności regionalnych, nie ma zablokowania dostawców.Jedynie samoreparująca się, zdecentralizowana infrastruktura, która utrzymuje dostęp do Twoich danych, ponieważ żaden z podmiotów nie ma mocy, aby uczynić je niedostępnymi. ciągła wydajność To więcej niż zaleta techniczna. To zmiana w sposobie, w jaki myślimy o odporności cyfrowej. Zamiast budować wyższe mury i głębsze ściany, Sia rozprasza swoje obronności. Rozprowadza zaufanie. W miarę jak organizacje stają w obliczu rosnących zakłóceń, rosnących kosztów i bardziej rygorystycznych wymogów dotyczących zgodności, decentralizacja stała się bardziej niż możliwa – jest lepsza. Nawet jeśli coś pójdzie nie tak, to nadszedł czas, abyśmy przestali projektować wokół zaufania i zaczęli projektować wokół pewności. Tylko praca Z Sia ciągła wydajność nie jest celem, to gwarancja. Źródła Wiedza o centrum danych. (2022, 9 sierpnia). Pożar centrum danych — Google cierpi na „incydent elektryczny”, 3 rannych. Wiedza o centrum danych. https://www.datacenterknowledge.com/hyperscalers/data-center-fire-google-suffers-electric-incident-3-ranny Claburn, T. (2023, 26 kwietnia). Google Cloud ślizga się w Europie pośród wycieku wody, pożar. https://www.theregister.com/2023/04/26/google_cloud_outage/ Sverdlik, Y. (2021, 9 marca). Pożar zniszczył centrum danych OVH w Strasburgu (SBG2). Centrum danych Wiedza. https://www.datacenterknowledge.com/uptime/fire-has-destroyed-ovh-s-strasbourg-datacenter-sbg2 Bloomberg News. (2022, 20 lipca). Google, Oracle data centers udaremnione przez londyńskie ciepło. Data Center Knowledge. https://www.datacenterknowledge.com/cooling/google-oracle-data-centers-knocked-offline-by-london-heat Millward, W. (2024, 5 grudnia). 10 największych przerw w chmurze w 2024. CRN. https://www.crn.com/news/cloud/2024/the-10-biggest-cloud-outages-of-2024 Barrett, B. (2021, 8 czerwca). Jak niejasna firma zniszczyła duże kawałki internetu. WIRED. https://www.wired.com/story/fastly-cdn-internet-outages-2021/