Miksi 36 TB: n LTO-9-patruuna, jossa on 63 miljoonaa tiedostoa, voi olla seuraava "suuri katastrofien palautushistoria" Kun Versity-auditoinnin tulos laskeutui työpöydälleni viimeisen neljänneksen aikana, olin melkein kaatamassa kahvia. Tässä oli LTO-9-teippi, jossa oli noin 63 miljoonaa tiedostoa ja noin 36 teratavua dataa (olettaen 2:1 pakkaussuhteen), mikä edustaa lähes 15 prosenttia kuratoriokokoelmasta kyseisen ryhmän arkistotilaa varten. Toinen teippi kesti yli 40 miljoonaa tiedostoa, ja loput kokoelmasta levisi yli 20+-patruunoihin, jotka olivat noin 150 teratavua ja yli 415 miljoonaa yksittäistä objektia. Hyvä uutinen? Teipit ovat luettavissa. Huono uutinen? Nykyisessä läpäisy- ja tiedostokoko jakautumisessa kaikkien tietojen palauttaminen kestää kuukausia - yli puoli vuotta Olen elänyt kautta nauhojen sukupolvien 4 mm DAT LTO-9 ja sen jälkeen. olen arkkitehtinut kirjasto maatiloja, paimentanut muuttoliikkeitä, ristiriitainen esine laskee useimmat ihmiset Haluan nähdä.Ja olen tallenteella sanomalla tämän selkeästi: ellemme ajattele uudelleen, miten tallennamme, suojelemme ja hallitsemme suuria määriä pieniä esineitä peräkkäisillä välineillä. Ei koskaan a single, monolithic preservation object — especially tape — become a liability voi voi Tutustu miksi, ja suunnittele kurssia eteenpäin. Why This Matters Miksi sillä on väliä Magneettilevytekniikat, kuten Linear Tape-Open (LTO), ovat arkistoinnin, varmuuskopioinnin ja pitkän aikavälin säilyttämisen perusta, koska ne tarjoavat kustannustehokasta, korkean kapasiteetin tallennusta, jossa on erittäin alhainen energiankulutus ja korkea median käyttöikä. ] Ulkopuolinen LTO Mutta nämä vahvuudet peittävät heikkouden: Toisin kuin klusteroidut levyt / esinevarastot, joissa metatietojen moottorit ja hajautettu poistokoodaus ovat pöytäpisteitä, nauhaa käsitellään usein - sekä ohjelmistojen että optioiden toimesta - mustana laatikkona: kaiverretaan sisältö, unohdetaan se, toivotaan parasta. tape is sequential and singular in structure Tässä on keskeinen jännite: Kasvavat datamäärät, joissa objektien määrä on korkea, suurentavat muistutuksen ja eheyden monimutkaisuutta. Perinteisiä nauhojen suojausstrategioita ei ole koskaan suunniteltu satoja miljoonia kohteita varten yhdellä välineellä. Nykyaikaiset odotukset saatavuudesta, palautettavuudesta ja automaatiosta eivät ole yhdenmukaisia nauhojen peräkkäisen, lineaarisen luonteen kanssa. Tämä ei ole enää hypoteettinen edge case.You are running into this in production. What People Usually Miss Mitä ihmiset yleensä kaipaavat Poistetaan yleisimmät väärinkäsitykset, jotka saavat ihmiset sokeaksi: A. “Tape capacity growth means tape can store anything.” Kyllä, LTO-10 nauha moniteratavua (speced korkeampi kuin LTO-9). mutta raaka kapasiteetti ei vähentää palautettavuuden rajoituksia. Kaistan läpäisevyys ja kapasiteetin mittarit loistavat - jotka hallitsevat muistaa aikaa, kun miljardeja pieniä esineitä on mukana. Pystyy pitämään Ei seek delays, threading latencies, and multiple file overhead Se, että nauha voi fyysisesti tallentaa 100 TB: n, ei ratkaise sitä, kuinka pitkä, kallis ja hauras on lukea takaisin nämä 100 TB: n, jos et suunnitellut skaalausta tiedostotasolla / objekti tasolla. B. “Sequential media doesn’t need modern protection.” Lähes jokainen tietosuojakäsikirja nauha kiehuu alas: Kopioi nauha (luo kaksoiskappaleita) Säilytä ne erikseen Toivottavasti ei mene huonosti Ja rukoilet – ei tarkastuksia? ei ristiintarkastuksia? ei jatkuvaa suojaa? Tämä on 1990-luvun puolivälin ajattelutapa, joka ilmestyy uudelleen vuonna 2025. Samalla levyllä olevassa hajautetussa objektivarastossa poistokoodaus ja versiointi ovat vakiomuotoisia. Näiden käsitteiden soveltaminen . Vain harmittaa pintaa asteikko C. “If the tape reads today, it’ll read tomorrow.” Tiedotusvälineiden uskollisuus on korkea, mutta se ei ole LTO: lla ja muilla magneettisilla nauhoilla on erinomaiset empiiriset luotettavuusnumerot verrattuna levyyn - mutta se on mediatasolla, ei Kun pakkaat kymmeniä miljoonia pienikokoisia keskimääräisiä kohteita yhteen välineeseen, yhdistät riskin. Epävirheellinen Objektiivinen koostumus D. “Backups are backups.” Perinteinen varmuuskopiointi vs. varmuuskopiointi pilvi mytologia blinds joukkueet vaatimuksissa. Odotukset palautusajasta ja pääsymalleista ovat pohjimmiltaan erilaisia. , ja epäonnistumistapoja ei voida käsitellä kuten levysarjoja tai pilviobjektivarastoja. ei voi vaihtaa varmuuskopiointitietoja Hallitseva lukeminen The Core Risk Vector: Single Medium, Exponential Objects The Core Risk Vector: Single Medium, Exponential Objects Määritä, miksi 100 TB:n arkistosta, jossa on 400 miljoonaa objektia, tulee vastuu: Keskimääräinen hakuaika kerrotaan pienillä objekteilla - läpäisevyys usein romahtaa kymmeniä MB/s yksittäisiin numeroihin tai pahempaa, kun ohitat pienet tiedostot. Kirjastojen ja hallintajärjestelmien on vaikea pitää indeksit kymmeniä / satoja miljoonia merkintöjä. Viikkoja tai kuukausia tulosten palauttamiseen vanhentuneissa, käyttämättömissä tiedoissa – erityisesti noudattamisen tai lakisääteisten hallussapitojen osalta. Jos nauha menee huonosti, etsit kalliita oikeuslääketieteellisiä palautuksia tai jälleenrakennuksia toissijaisista kopioista. Tässä on aikaisemmin loukkaamaton "tappi-eheyden" oletus, joka epäonnistuu: mittakaavassa, . riski suurennetaan kohteen tiheydellä How Do We Build a Resilient Tape Preservation Environment? The Pro Position Miten Me Rakennamme Kestävä Tape Säilytysympäristö? Pro Position Olen yksiselitteisesti "levy säilyttäminen voi olla turvallista * jos uudelleen suunnitella" leiri. perinteinen malli nauha + kopioita on lyhytnäköinen korkean tiheyden objektien kokoelmia. Tässä on mitä kannatan: A. On-Tape Erasure Coding soveltaa Sen sijaan, että objekteja tallennettaisiin lineaarisesti yksinkertaisella virheen korjauksella, liitä Reed-Solomon-koodeja tai vastaavia poistokoodeja tietoreunoihin kasetin sisällä. erasure coding directly within the cartridge’s data organization Tämä ei ole teoreettista - magneettikenttien poistokoodausta varten on olemassa patentteja, joissa käytetään kaksinkertaisia Reed-Solomon-koodeja tehokkaan bittivirhetason vähentämiseksi ja paikallisesta tappiosta toipumisen mahdollistamiseksi. ] Patenttien Tämä muuttaa mallia "lukea koko nauha löytää virheitä" "rakentaa kadonneita raitoja koskemattomista pariteettilohkoista." B. Cross-Tape Redundant Arrays of Independent Tapes (RAIT) Redundant Array of Independent Libraries/Tapes (RAIL/RAIT) -konsepti laajentaa poistokoodausta Päällekkäisyyden sijaan käytä pariteettiä nauhojen välillä, jotta tiedot voidaan palauttaa, jos . across multiple cartridges Yksi levy epäonnistuu kokonaan ajattelutapa RAIT tarkoittaa: Jakautettu pariteetti eri nauhoilla Älykäs luettelo, joka tietää, mikä nauha pitää mitkä raidat Rekonstruointialgoritmit, jotka voivat rakentaa uudelleen lataamatta jokaista nauhaa Tämä on nykyaikainen datakeskuksen ajattelu, jota sovelletaan nauhaan. C. Holistic Tape Media Protection Yksi levypatruuna toimii a Sisäänrakennetut servo-reitit, magnetisointivirtaus ja median kuluminen ovat todellisia. tarvitsemme: Signaalilaite, jolla on äärimmäinen luotettavuus On-tape-tarkistusmäärät objektia kohden (ei vain lohkoa) Jatkuva terveyden seuranta kirjaston metatiedoista Proaktiivinen nauhojen korvaaminen käytön ja terveyden perusteella Objektivarastot, kuten Cleversafe, käyttivät tietojen hajottamisalgoritmeja viipaleiden käsittelemiseksi solmujen välillä - nauha tarvitsee samanlaista rakeisuutta. ] Lähde: Wikipedia D. Multi-Tape Object Distribution Tähän Pakkaa miljoonia pieniä esineitä yhteen laatikkoon ja jaa ne useisiin nauhoihin: Ei Kohteen koko Muista todennäköisyys Kiireellinen pääsy Riskiprofiili Tämä on samanlainen kuin leikkaaminen – mutta nauha. Tietokannan rikkominen nauhojen välille tekee yksittäisistä nauhoista epäonnistumisista vähemmän katastrofaalisia. E. Intelligent Tape Management Software Mitä useimmissa ympäristöissä puuttuu : Metatietojen älykkyys Pyydetyt objektikatalogit, jotka on irrotettu lineaarisesta nauhoitusrakenteesta Tuki erasure coding seurantaan Automaattinen lataus / purkaminen aikataulu Ennakoiva palautusoptimointi Objektin säilyttämisohjelmiston on tultava nauha-tietoiseksi, ei nauha-liittymäksi. Current Tape Market and Preservation Software Landscape Nykyinen nauha markkinat ja säilyttämisen ohjelmisto maisema A. What’s Available Today LTO Ultrium on edelleen hallitseva avoimen nauhan muoto, jolla on jatkuva sukupolven kapasiteetin kasvu ja vahva ekosysteemin tuki. [LTO: Wikipedia] Suuret nauha-kirjastojen toimittajat tarjoavat suurikapasiteettia robotteja ja asemia, joilla on vahvat median elinikäennusteet. [Fujifilm Assets] Jotkut arkkitehtuurit edistävät RAIL / pariteettia eri nauhoilla (esimerkiksi kahden ulottuvuuden poistokoodaus toteutukset markkinoidaan joissakin tuotteissa). [Quantum] Kuitenkin suurin osa , ei poista koodeja tai ristiriitaista pariteettia. teollisuuden käyttöönotto pysyy "kopioita + vaulting" tasolla B. What Needs to Change Tässä on se korkean tason insinöörit ja johtajat: lihaa B.1 Tape Protocols Must Evolve B.1 Tapettiprotokollat täytyy kehittää Tape-tiedostojärjestelmien on sisällettävä: Native delete coding tuki Jakautuneet metatiedot Parallel Access -paradigmat Ilman tätä nauha on aina silooitu, hauras väliaine. B.2 Tape Libraries Must Expose Metadata APIs B.2 Tape Libraries Must Expose Metadata APIs Libraries should: Objektitason metatietojen toimittaminen standardoitujen palvelujen avulla Mahdollistaa muistutuksen suunnittelun ja esikäsittelyn Terveyden telemetrian tarjoaminen yksinkertaisen lukemisen ja kirjoittamisen lisäksi Kunnes kirjastokehittäjät kohtelevat metatietoja ensiluokkaisina, automaatio epäonnistuu. B.3 Preservation Software Must Treat Tape Like an Object Store B.3 Säilytysohjelmiston on käsiteltävä nauhaa kuin esinevarastoa Traditional backup frameworks treat tape as a vault — not as Tämä ajattelutapa on muutettava.Nykyaikainen säilyttäminen on: Elävä varastointi Immutable Accessible jaettu Itsensä parantaminen Peliä pitää pelata kaikilla neljällä. C. What Patents and Research Indicate On olemassa : patents tailored to tape protection and cross-media erasure coding US11216196B2 kuvaa kaksinkertaisten Reed-Solomon poistokoodien soveltamista magneettilevyjen sisällä virheen korjauksen parantamiseksi. US12099754B2 (määritetty Quantumille) kattaa objektien tallentamisen ja palauttamisen usean median välityksellä, mikä viittaa monen median, mahdollisesti monitaajuisen vastustuskyvyn strategiaan. Varhainen työ (ei nauha-erityinen) osoittaa adaptiivisia poistokoodeja hajautetuille järjestelmille, jotka voisivat tiedottaa nauha-strategioista. [Earlier Patents] Yhdysvallat11216196B2 Yhdysvallat 12099754B2 Toisin sanoen: The Markkinoiden adoptio on kuitenkin hidastunut. Älyllinen perusta on olemassa Designing for Tape Failure Tolerance Levyn epäonnistumisen toleranssi Joten miten voit rakentaa nauhojen ekosysteemin, joka kestää epäonnistumisen rikkomatta säilyttämisohjelmaa? A. Tape Grouping and Parity Sets luo Raid Settings Näytä tarkat tiedot: tape groups Pariteettipöydät jokaisessa ryhmässä Tietokannat jakavat objekteja hashingin perusteella Automaattinen pariteetin uudelleenrakentaminen nauhoituksen epäonnistumisessa Tämä malli tarkoittaa, että nauhan menettäminen ei automaattisesti menetä tietoja; palautat pariteetin kautta. B. Cross-Tape Redundancy Checking Säännöllisten bit-skannausten sijaan toteuttaa - vertaa objektien viittauksia eri pariteettijoukkojen välillä ja Tämä on se, mitä vastustuskykyiset tallennusjärjestelmät tekevät levyklustereissa; nauha on lainattava ajatus. Käytettynä cartridge cross-tape consistency checks Tarkista sisällön eheys tilastollisesti C. Object Index with Parity Awareness Luettelosi on ymmärrettävä: Missä pariteetti elää Miten rakentaa uudelleen Mitkä kasetit ovat välttämättömiä vs. tarpeettomia Ilman sitä, pariteetti on vain koristelu. D. Tiered Recall Scheduling Perinnölliset työpaikat ovat ad-hoc. Nykyaikaisten järjestelmien tulisi: Pre-slot muistuttaa osia Aikataulu robotiikka toimia etusijalla Optimoi ajokäytön Tämä minimoi pään ja robottien kulumisen ja parantaa ennustettavuutta. CIO/CTO Takeaways: Risk, Cost, and Strategy CIO / CTO Takeaways: Riskit, kustannukset ja strategia A. Risk Exposure Korkean tiheyden objekti on Ilman pariteettistrategioita olet: single points of failure Monen kuukauden Windows-palautus Organisaation altistuminen vaatimustenmukaisuusrikkomuksille, jos tietoja tarvitaan aikaisemmin Korkean johdon on nähtävä nauhoitusriskit "media-elämän" mittareiden ulkopuolella. B. Cost vs. Resilience Kyllä, poista koodaus ja RAIT-strategiat kuluttavat pariteetin kapasiteetti – mutta ne vähentävät dramaattisesti uudelleenrakentamisen ja pitkien palautusaikojen operatiivista riskiä. Jotkut C. Future Roadmaps Kapasiteetti kasvaa edelleen, ellei arkkitehtuuria kehitetä , nauha tulee yhä hauras. Tarvitset: with the scale of data and object density Native Parity -tuki Native Parity -tuki Metadata APIs exposed by library vendors Säilytysohjelmisto, joka on suunniteltu hajautettuun, koodattuun tallennukseen Without this, tape is just a slower, larger silo. Conclusion: Tape Is Not the Enemy — Ignoring Scale Is Päätelmä: nauha ei ole vihollinen - mittakaavan sivuuttaminen on Minä sanon sen sujuvasti: tape will remain essential — but only if we stop treating it as a dumb sequential volume and start treating it like a distributed, protected, and codified store. A single 100 TB tape with hundreds of millions of files is not an asset — it is a että voit muistaa sen tehokkaasti ja luotettavasti tarvittaessa. Useimmissa ympäristöissä ei ole nykyaikaisia suojausstrategioita. Pöytä liian suuri Säädä mallia. Rakenna redundanssi nauhoihin. Levitä esineitä. Soveltaa pariteettia. Ja varmista, että säilyttämisekosysteemi on yhtä joustava kuin tiedot, joita yrität tallentaa. Tape as liability is not about media — it’s about architecture.