Komplexní inženýrská a operační analýza internetového archivu Úvod: Hum dějin v mlze Pokud stojíte v tichosti v lodi bývalého kostela křesťanské vědy na Funston Avenue v okrese Richmond v San Francisku, můžete slyšet zvuk dýchání internetu.Není to chaotický výkřik modemu s voláním nebo ping oznámení, ale stabilní, průmyslový hum – nízkofrekvenční trumf generovaný stovkami otáčejících se pevných disků a vysokorychlostními ventilátory, kteří je ochlazují. Zde, uprostřed přepracovaných neoklasických sloupů a dřevěných hřebenů budovy postavené k uctívání jiného druhu trvalosti, leží fyzický projev „virtuálního“ světa. Máme tendenci myslet na internet jako na éterický mrak, místo bez geografie nebo hmoty. Ale v této budově má internet váhu. Má teplo. Vyžaduje elektřinu, údržbu a neustálý boj proti druhému zákonu termodynamiky. — archivuje více než jeden bilion webových stránek.1 Obsahuje 99 petabajtů unikátních dat, což je počet, který se rozšiřuje na více než 212 petabajtů, když se počítá s zálohami a redundancí.3 Wayback stroj Wayback stroj Rozsah operace je ohromující, ale inženýrská výzva je ještě hlubší. Jak můžete postavit stroj, který může v reálném čase pohltit rozšiřující se, dynamický a stále se měnící World Wide Web? Jak můžete ukládat tato data po staletí, když průměrný pevný disk trvá jen několik let? Tato zpráva se podívá do mechaniky internetového archivu s přesností jako slzný výstřih. Zrušíme podvozek, abychom zkoumali vlastní servery PetaBox, které ohřívají budovu bez klimatizace. Sledujeme vývoj webových šroubů – od raných páskových šroubů Alexa Internetu až po sofistikované roboty založené na prohlížeči v roce 2025. Analyzujeme finanční knihovnu tohoto neziskového giganta a zkoumáme, jak přežívá na rozpočtu, který je pro sousedy ze Silicon Valley kulatou chybou. A nakonec se podíváme do budoucna, kde „Decentralizovaná síť“ (DWeb) slibuje, že fragment archivu rozdělí na milion kusů, aby se zajistilo, že nebude nikdy zni Je to příběh o 20 000 pevných discích, 45 milách kabeláže a vize, která začala v roce 1996 s jednoduchým, odvážným cílem: „Universální přístup ke všem znalostem“.7 Část I: Termodynamika paměti Architektura PetaBox: Inženýrství pro hustotu a teplo Jádrem Internetového archivu je PetaBox, úložiště navržené personálem archivu pro řešení konkrétního problému: ukládání obrovského množství dat s minimální spotřebou energie a vytvářením tepla.Na počátku dvacátých let byly řešení pro podnikové úložiště od gigantů, jako jsou EMC nebo NetApp, prohibitivně drahé a hladové po energii. Byly navrženy pro vysokorychlostní transakční data – jako jsou bankovní systémy nebo burzy – kde milisekundy latence záleží. , zakladatel Archive a počítačový inženýr, který předtím založil superpočítačovou společnost Thinking Machines, se k problému přiblížil s jinou filozofií. Namísto vysoce výkonných RAID řad, Archive postavil PetaBox pomocí spotřebitelských dílů. Designová filozofie byla pro svou dobu radikální: používat "Just a Bunch of Disks" (JBOD) namísto drahých RAID ovladačů a vypořádat se s redundancí dat prostřednictvím softwaru namísto hardwaru.4 Brewster Kahle Brewster Kahle Evoluce hustoty: od terabytů k petabytům Trajektorie PetaBox je případová studie v Mooreově zákoně aplikované na magnetické úložiště. První PetaBox rack, který byl v provozu v červnu 2004, byl zjevením v hustotě úložiště. Měl 100 terabytů (TB) dat – obrovská částka v té době – a spotřeboval pouze asi 6 kilowattů energie.1 Abychom to uvedli do perspektivy, v roce 2003 celý Wayback Machine rostl rychlostí pouhých 12 terabytů za měsíc. Inženýrské specifikace PetaBox odhalují neúnavné hledání hustoty: Specification Generation 1 (2004) Generation 4 (2010) Current Generation (2024-2025) Capacity per Rack 100 TB 480 TB ~1.4 PB (1,400 TB) Drive Count ~40-80 drives 240 drives (2TB each) ~360+ drives (8TB+ each) Power per Rack 6 kW ~6-8 kW ~6-8 kW Heat Dissipation Utilized for building heat Utilized for building heat Utilized for building heat Processor Arch Low-voltage VIA C3 Intel Xeon E7-8870 (10-core) Modern High-Efficiency x86 Cooling Passive / Fan-assisted Passive / Fan-assisted Passive / Fan-assisted Kapacita pro Rack 100 TB 480 tb ~ 1,4 PB (1 400 TB) Řidič hraběte 40 až 80 jezdců 240 disků (2TB každý) ~360+ disků (8TB+ každý) Napájení pro Rack 6 kW 6 až 8 kW 6 až 8 kW Tepelné rozptýlení Používá se k vytápění budov Používá se k vytápění budov Používá se k vytápění budov Procesor Arch Nízké napětí VIA C3 Intel Xeon E7-8870 (10 jádrový) Vysoká účinnost x86 Chlazení Pasivní / Fan-assisted Pasivní / Fan-assisted Pasivní / Fan-assisted 1 Čtvrtá generace PetaBox, která byla představena kolem roku 2010, byla příkladem této hustoty. Každý regál obsahoval 240 disků o objemu 2 terabytů, které byly organizovány do 4U vysokých regálových montážních jednotek. Tyto jednotky byly poháněny procesory Intel Xeon (zejména řady E7-8870 v pozdějších upgradech) s 12 gigabyty paměti RAM. Architektura se spoléhala na spojovací pár 1-gigabitových rozhraní, aby vytvořila 2-gigabitovou trubku, která se napájila do přepínače regálu s 10-gigabitovým uplinkem.10 Do roku 2025 se úložiště opět změnilo. Současné regály PetaBox poskytují 1,4 petabajtu úložiště na regál. Tento skok není dosažen přidáním více slotů, ale využitím výrazně větších disků – 8TB, 16TB a dokonce i 22TB disky jsou nyní standardem. V roce 2016 archiv spravoval přibližně 20 000 jednotlivých disků. Experiment „černé skříňky“ Ve svém hledání efektivního ukládání archiv také experimentoval s modulárními datovými centry.V roce 2007 se archiv stal raným přijatím Sun Microsystems "Blackbox" (později Sun Modular Datacenter).Toto byl přepravní kontejner zabalený s Sun Fire X4500 "Thumper" úložiště servery, schopné uchovávat obrovské množství dat v přenosné, samoobsažené jednotce. Tento experiment validoval koncept kontejnerizovaných datových center - model později přijatý společnostmi Microsoft a Google - ale Archive se nakonec vrátil ke svým vlastním designům PetaBox pro svou primární interní infrastrukturu, což upřednostňovalo flexibilitu a nižší náklady vlastních designů hardwaru s otevřeným zdrojovým kódem oproti vlastním komerčním řešením. Chlazení bez klimatizace: Funston Loop Jedním z nejdůležitějších prvků infrastruktury archivu je jeho systém řízení tepla. Datová centra jsou notoricky energeticky náročná, často utrácejí tolik elektřiny na chlazení (HVAC) jako na výpočetní techniku. Řešením byla geografie a fyzika. Primární datové centrum archivu se nachází v okrese Richmond v San Franciscu, čtvrti známé svou trvalou mlhou a chladným mořským podnebím. Budova využívá tohoto okolního vzduchu k chlazení. V strojních místnostech PetaBox neexistuje žádná tradiční klimatizace. Místo toho jsou servery navrženy tak, aby fungovaly při mírně vyšších provozních teplotách a přebytečné teplo generované otočnými disky je zachyceno a recirkulováno k vytápění budovy během hustých zim v San Franciscu.9 Tento systém „odpadního tepla“ je uzavřeným kruhem účinnosti. 60+ kilowattů tepelné energie produkované skladovacím klastrem není vedlejším produktem, který je třeba odstranit, ale zdrojem, který je třeba sklízet. Tato volba designu dramaticky snižuje poměr účinnosti využití energie (PUE) zařízení, což umožňuje archivu utrácet své omezené prostředky na pevné disky spíše než na účty za elektřinu. Je to doslovná aplikace mantry „snížit, znovu použít, recyklovat“ na termodynamiku ukládání dat.3 Spolehlivost a údržba: Model „Vyměnit, když je mrtvý“ S více než 28 000 otáčejícími se disky v provozu je selhání jednotky statistickou jistotou.3 V tradičním firemním datovém centru vyvolává selhání jednotky okamžitý, frnický protokol náhrady, který udržuje „pět devíti“ (99,999 %) spolehlivosti. Data jsou zrcadlována na více počítačích, často na různých fyzických místech (včetně datových center v Redwood City a Richmond, Kalifornie, a kopií v Evropě a Kanadě).12 Vzhledem k tomu, že data nejsou „kritická pro misi“ ve smyslu živé bankovní transakce, může archiv tolerovat určitý počet mrtvých disků v uzlu předtím, než je vyžadována fyzická údržba. Tento design s nízkou údržbou umožňuje velmi malému týmu – historicky pouze jednomu systémovému administrátorovi na petabyte dat – spravovat úložiště, které konkuruje těm velkých technologických korporací. Systém využívá monitorovací nástroj Nagios k sledování zdraví více než 16 000 různých kontrolních bodů v celém klastru a varuje malé zaměstnance pouze tehdy, když je dosaženo kritického prahu selhání.8 Část druhá: The Crawler's Dilemma Zachycení pohybujícího se cíle Archivování webu není pasivní proces; vyžaduje aktivní, agresivní software, který neúnavně prochází odkazy na World Wide Web, kopírování všeho, co najde. Tento proces, známý jako procházení, se vyvinul z jednoduchého skriptového vyhledávání na komplexní automatizaci prohlížeče. Dědictví Heritrix Během velké části své historie se archiv spoléhal na crawler s názvem Společně vyvinutý v roce 2003 internetovým archivem a severskými národními knihovnami (Norsko a Island), Heritrix je Java-based, open-source crawler navržený speciálně pro archivní věrnost. Heritrix Heritrixová Na rozdíl od vyhledávače crawler (jako Googlebot), který se stará především o extrahování textu pro vyhledávání relevance, Heritrix se stará o Snaží se zachytit přesný stav webové stránky, včetně jejích obrázků, stylových listů a vložených objektů.Pakuje tato aktiva do standardizovaného kontejnerového formátu známého jako WARC (Web ARChive).18 Artifakty Soubor WARC je atomovou jednotkou Internetového archivu. Zachovává nejen obsah stránky, ale i „HTTP hlavičky“ – digitální rukojeť mezi serverem a prohlížečem, ke které došlo v okamžiku zachycení. Stránka byla zachycena, server ji dodal, a Smlouva byla uzavřena.19 kdy Co Jak Heritrix pracuje pomocí „Frontier“ – sofistikovaného systému pro správu frontů, který rozhoduje, které adresy URL navštívit dále. Dodržuje přísné zásady „spravedlnosti“, respektuje protokoly pro vyloučení robots.txt a omezuje frekvenci žádostí, aby se zabránilo havárii cílových serverů.16 Krize dynamického webu Nicméně, Heritrix byl postaven pro jednodušší web – web statických HTML souborů a hypertextových odkazů.Když se web vyvinul do platformy dynamických aplikací (Web 2.0), sociálních médií a rozhraní těžkých na JavaScript, Heritrix začal narazit. Heritrix zachycuje počáteční HTML doručený serverem. Ale na moderní stránce jako Twitter (nyní X) nebo Facebook, že počáteční HTML je často jen prázdný stolek. Skutečný obsah je dynamicky načtený kódem JavaScript běžící v prohlížeči uživatele Heritrix, který byl hloupým stahovatelem, nemohl tento kód spustit. Výsledkem byl často zlomený, prázdný plášť stránky – digitální město duchů.17 Po Vzestup Brozzlera a Umby Pro boj proti „dynamické síti“ musel archiv vyvinout své nástroje. a Umbra, nástroje, které rozmazávají čáru mezi crawlerem a webovým prohlížečem. Brozlerová Brozlerová Brozzler (portmanteau z "browser" a "crawler") používá "bezhlavou" verzi prohlížeče Google Chrome zobrazit stránky přesně tak, jak je uživatel vidí. To umožňuje archivu zachovat složité stránky, jako je Instagram a interaktivní zpravodajské články, které by byly neviditelné pro tradiční vyhledávače.17 Předtím Umbra působí jako pomocný nástroj, který používá automatizaci prohlížeče k napodobování lidského chování. „Přepíná“ stránku, aby spustila nekonečné zdroje načítání, přepíná se přes dropdownové nabídky, aby odhalila skryté odkazy, a kliká na tlačítka. Tento posun vyžaduje výrazně více výpočetní síly.Rendování stránky v Chrome vyžaduje příkazy o velikosti více procesorových cyklů než jen stahování textového souboru.To nutí archiv být selektivnější a cílenější ve svých high-fidelity crawlů, vyhradit zdroj-intenzivní prohlížeč crawl pro vysoce hodnotné dynamické stránky při použití lehčích nástrojů pro statické weby.17 Revoluce „Save Page Now“ Možná nejvýznamnějším technologickým posunem v posledních letech byla demokratizace prohledávání. funkce Save Page Now umožňuje každému uživateli okamžitě spustit prohledávání konkrétní URL adresy. Napájená těmito technologiemi založenými na prohlížeči se služba Save Page Now stala kritickým nástrojem pro novináře, výzkumníky a kontrolory skutečností.V roce 2025 je často první linií obrany proti poškození odkazů, což umožňuje uživatelům vytvářet neměnný záznam tweetu nebo zpravodajského článku vteřiny předtím, než je odstraněn nebo změněn.1 Alexa připojení k internetu Je nemožné diskutovat o historii procházení archivu, aniž bychom zmínili Alexa Internet.Založena Brewsterem Kahle v roce 1996 vedle Archivu, Alexa byla nezisková společnost, která procházela po webu, aby poskytla analýzu provozu (slavný "Alexa Rank"). Po téměř dvě desetiletí byl Alexa primárním zdrojem archivních dat. Alexa by prohledávala web pro své vlastní komerční účely a poté darovala data prohledávání do Internetového archivu po období embarga. Tento symbiotický vztah poskytl archivu masivní, nepřetržitý tok dat bez nutnosti provozovat svou vlastní masivní infrastrukturu prohledávání. Avšak s Amazonem (který koupil Alexa v roce 1999) ukončením služby Alexa v květnu 2022, se archiv musel více spoléhat na svou vlastní infrastrukturu prohledávání a partnery, jako je Common Crawl.7 Část třetí: Ekonomika přežití Financování neziskového Spuštění globální webové stránky nejvyšší úrovně obvykle vyžaduje rozpočet Googlu nebo Meta. Internet Archive dokáže fungovat jako jedna z nejnavštěvovanějších webových stránek na světě s rozpočtem, který je šokující skromný. Finanční ledger Podle finančních podkladů (formulář 990) a ročních zpráv se roční příjmy Internetového archivu pohybují mezi 25 a 30 miliony dolarů.7 Například v roce 2024 zveřejnila organizace přibližně 26,8 milionu dolarů v příjmech oproti 23,5 milionu dolarů v nákladech.25 Hlavním zdrojem příjmů jsou příspěvky a granty, které obvykle představují 60-70% z celkového příjmu. Mikro-darování: „Wikipedia model“ požádat uživatele o 5 nebo 10 dolarů. Hlavní granty: Financování z filantropických organizací, jako je nadace Mellon, nadace Kahle/Austin a nadace Filecoin.25 Druhým hlavním zdrojem příjmů jsou Program Services, konkrétně digitalizace a archivační služby.Archiv není jen knihovna, je to poskytovatel služeb. Archiv-It: Tato předplatná služba umožňuje institucím (knihovnám, univerzitám, vládám) vytvářet své vlastní kurované webové archivy. Předplatné začíná kolem 2400 USD/rok za 100 GB úložiště a rozšiřuje se až na 12 000 USD/rok za terabyte. Digitalizace Služby: Archiv provozuje digitalizace centra, kde skenuje knihy a další média pro partnery. „Scribe“ knižní skenery – vlastní stroje s V-tvarovanými kolébkami a fotopedály ovládanými kamerami – umožňují nedestruktivní skenování knih. Partneři platí za stránku (např. 0,15 USD za stránku pro svázané knihy), aby jejich sbírky byly digitalizovány. Vault Services: Novější nabídka, Vault poskytuje digitální úložné úložiště za jednorázový poplatek (např. 1 000 dolarů za terabajt).Tento „model dotace“ umožňuje institucím platit jednou za trvalé úložiště, sázka na to, že náklady na úložiště klesnou rychleji než úroky z dotace.30 Cena jednoho petabajtu Na výdajové straně knihovny dominují platy a mzdy (přibližně polovina rozpočtu) a IT infrastruktura. „PetaBox ekonomika“ archivu však umožňuje ukládat data za zlomek nákladů komerčních poskytovatelů cloudových služeb. Zvažte náklady na ukládání 100 petabytů na Amazon S3. za standardní sazby (~ 0,021 USD za GB za měsíc), samotné ukládání by stálo více než 2,1 milionu USD za měsíc. provozní rozpočet – pro zaměstnance, budovy, právní obranu a hardware – je nižší, než by to stálo ukládání jejich dat na AWS po dobu jednoho roku. ročník Tím, že vlastní svůj hardware, používá architekturu PetaBox s vysokou hustotou, vyhýbá se nákladům na klimatizaci a používá software s otevřeným zdrojovým kódem, Archive dosahuje úspory nákladů na ukládání, které jsou mnohem lepší než komerční cloudové sazby. Část IV: Právní bitevní pole Když ochrana splňuje autorské právo Tato mise je morálně přesvědčivá, ale právně nebezpečná.Když se archiv rozšířil nad rámec jednoduchých webových stránek do knih, hudby a softwaru, přestěhoval se z relativně bezpečného přístavu „implicitní licence“ webu do silně opevněného území autorského práva. Národní pohotovostní knihovna a Hachette v. internetový archiv Hachette v. internetový archiv Napětí explodovalo v roce 2020 během pandemie COVID-19.S uzavřením fyzických knihoven archiv spustil „Národní nouzovou knihovnu“, čímž odstranil čekací listy ze své digitalizované sbírky knih.Tento krok vedl k tomu, že čtyři hlavní vydavatelé – Hachette, HarperCollins, Wiley a Penguin Random House – podali žalobu a obvinili z masivního porušení autorských práv.31 Právní jádro knižního programu archivu bylo řízené digitální půjčování (CDL).Teorie tvrdila, že pokud knihovna vlastní fyzickou knihu, měla by být povolena skenovat tuto knihu a půjčit digitální kopii jedné osobě najednou, za předpokladu, že fyzická kniha je vyjmuta z oběhu, zatímco digitální kniha je na půjčce. V březnu 2023 však federální soudce tuto obhajobu odmítl a rozhodl, že skenování a půjčování archivu nebylo „spravedlivým použitím“. Soud zjistil, že digitální kopie soutěží s vlastními komerčními trhy s elektronickými knihami vydavatelů. Argument archivu, že jeho použití je „transformativní“ (způsobuje efektivnější půjčování), byl zamítnut. Uspořádání v Archiv byl nucen odstranit přibližně 500 000 knih ze svého půjčovního programu – zejména těch, pro které existuje komerční verze e-knih. „Tento vyjednáván rozsudek“ zásadně změnil knižní strategii archivu, což ho donutilo vrátit se k starším, netisknutým a veřejnoprávním dílům, kde jsou obchodní konflikty méně pravděpodobné.31 Hachetová Velký projekt 78 a uspořádání Sony Zatímco knižní bitva zuřila, na zvukové straně se otevřela druhá fronta. Projekt Great 78 měl za cíl digitalizovat záznamy 78 rpm z počátku 20. století. Tyto šelakové disky jsou křehké, zastaralé a často se zhoršují. Hlavní nahrávací značky, včetně Sony Music a Universal Music Group, nesouhlasily. žalovali v roce 2023 a tvrdili, že projekt fungoval jako „nelegální nahrávací skladba“, která porušila autorská práva na tisíce písní umělců, jako je Frank Sinatra a Billie Holiday. V září 2025 dosáhla tato žaloba také vyrovnání. Zatímco podmínky zůstávají důvěrné, usnesení umožnilo archivu vyhnout se potenciálně bankrotovému procesu. Nicméně bezprostřední následky vedly k odstranění přístupu k mnoha autorsky chráněným zvukovým nahrávkám, což je omezilo na výzkumné pracovníky spíše než na širokou veřejnost. Tento vzorec – usazení následované omezením – označuje novou realitu pro Internetový archiv v roce 2025: ústup z přístupu „rychleji se hýbej a rozbíjej věci“ k opatrnějšímu, právně omezenému modelu zachování.39 Federální depozitářský štít V důležitém strategickém vítězství uprostřed těchto ztrát byl internetový archiv jmenován Federální depozitní knihovnou (FDL) americkým senátem v červenci 2025.7 Tento status je více než jen název; právně umožňuje archivu shromažďovat, uchovávat a poskytovat přístup k vládním publikacím USA. Toto označení poskytuje klíčovou vrstvu právní ochrany pro alespoň část sbírky archivu.Zatímco neochrání hudbu nebo komerční romány chráněné autorskými právy, upevňuje úlohu archivu jako základní součásti informační infrastruktury národa, což z politického i právního hlediska ztěžuje jeho úplné uzavření.7 Část V: Budoucnost-proofing minulost Decentralizace a „konec termínu“ Právní hrozby v letech 2020-2025 odhalily kritickou zranitelnost: centralizace.Pokud by soudní příkaz nebo katastrofální požár zasáhl ústředí Funston Avenue, primární kopie historie webu by mohla být ztracena. Decentralizovaná webová stránka (DWeb) Archiv je primárním motorem hnutí DWeb, které se snaží vybudovat web, který je distribuován spíše než centralizovaný.Cílem je ukládat data archivu v celosvětové síti vrstevníků, což znemožňuje, aby ji žádná jediná entita – ať už je to vláda, korporace nebo přírodní katastrofa – vzala offline.5 Technologicky to zahrnuje integraci s protokoly, jako je IPFS (Interplanetary File System) a Filecoin. IPFS: Umožňuje, aby obsah byl adresován jeho kryptografickým hashem (co je) spíše než jeho umístěním (kde je).Pokud je server archivu zablokován, může uživatel získat stejný soubor WARC z jakéhokoli jiného uzlu v síti, který drží kopii.5 Filecoin: Poskytuje stimulační vrstvu pro ukládání.V roce 2025 začal archiv nahrávat kritické sbírky, jako jsou vládní webové archivy „End of Term“, do sítě Filecoin pro chladné ukládání.To funguje jako decentralizovaná, neměnná záloha, která existuje mimo přímou fyzickou kontrolu archivu.45 2025 „Konec termínu“ Každé čtyři roky archiv vede masivní úsilí o prohledávání (dot)gov a (dot)mil webových stránek před prezidentským přechodem. 2024/2025 byl největší v historii, zachytil více než 500 terabajtů vládních dat.45 Tento projekt zdůrazňuje úlohu archivu jako pozorovatele historie, zajišťující, že klimatická data, zprávy o sčítání lidu a dokumenty politiky nezmizí, když nová administrativa přijme úřad. Generativní AI a spravedlivé použití Poslal jsem e-mailem Brewser Kahle ohledně 2025 a generativní AI a zde je jeho citát: „Generativní AI způsobila, že některé webové stránky pronásledovaly dolarové signály tím, že blokovaly jejich stránky nebo zahájily soudní řízení.To nepomáhá institucím kulturního dědictví, jako je Internet Archive a často ubližuje uživatelům obecně. Internetový archiv zůstane volný a otevřený, aby pomohl lidem získat přehled o našem měnícím se světě. Archiv nabízí otevřené datové sady pro výzkumné pracovníky v oblasti umělé inteligence a společnosti, aby využili své služby. „Generativní AI způsobila, že některé webové stránky pronásledovaly dolarové signály tím, že blokovaly jejich stránky nebo zahájily soudní řízení.To nepomáhá institucím kulturního dědictví, jako je Internet Archive a často ubližuje uživatelům obecně. Internetový archiv zůstane volný a otevřený, aby pomohl lidem získat přehled o našem měnícím se světě. Archiv nabízí otevřené datové sady pro výzkumné pracovníky v oblasti umělé inteligence a společnosti, aby využili své služby. Název: The Long Now Jak se dostáváme hlouběji do 21. století, Internetový archiv je paradoxní.Jedná se o technologický mrakodrap, který působí v měřítku, který konkuruje Silicon Valley gigantům, ale je umístěn v kostele a řízen knihovnami.Je to křehká instituce, zasáhlá žalobami a rozpočtovými omezeními, ale je to také nejsilnější paměťová banka, kterou lidstvo kdy vybudovalo. Události roku 2025 – milník „triliónové stránky“, bolestivé právní uspořádání a obrat směrem k decentralizovanému úložišti – označují zralost organizace. Již není „divokým západem“ raného webu. Je to porušená, ale odolná instituce, která přizpůsobuje své stroje a své poslání k přežití ve světě, který je stále nepřátelštější vůči konceptu volného, univerzálního přístupu. Teplo, které vytvářejí, ohřívá budovu a udržuje mlhu v Richmondském okrese.A někde na těch talířích, uprostřed bilionů nul a těch, leží jediný důkaz, že digitální svět včerejška vůbec existoval. Reference Wayback Machine - Wikipedie, přístupná 8. ledna 2026, https://en.wikipedia.org/wiki/Wayback_Machine Pohled zpět na „Zachování internetu“ z roku 1996 na Blogy Internetového archivu, přístupné 8. ledna 2026, https://blog.archive.org/2025/09/02/looking-back-on-preserving-the-internet-from-1996/ Petabox - Internetový archiv, přístupný 8. ledna 2026, https://archive.org/web/petabox.php PetaBox - Wikipedie, přístupná 8. ledna 2026, https://en.wikipedia.org/wiki/PetaBox IPFS: Budování bloků pro lepší web IPFS, přístupné 8. ledna 2026, https://ipfs.tech/ internetarchive/dweb-archive - GitHub, přístupný 8. ledna 2026, https://github.com/internetarchive/dweb-archive Internetový archiv - Wikipedie, přístupné dne 8. ledna 2026, https://en.wikipedia.org/wiki/Internet_Archive Vytváření webových pamětí s PetaBoxem - eWeek, přístupné 8. ledna 2026, https://www.eweek.com/storage/making-web-memories-with-the-petabox/ PetaBox - Internet Archive Neoficiální wiki, přístupné 8. ledna 2026, https://internetarchive.archiveteam.org/index.php/PetaBox The Fourth Generation Petabox Ebay Internet Archive Blogy, přístupné 8. ledna 2026, https://blog.archive.org/2010/07/27/the-fourth-generation-petabox/ Internet Archive Hits One Trillion Web Pages - Hackaday, přístupný 8. ledna 2026, https://hackaday.com/2025/11/18/internet-archive-hits-one-trillion-web-pages/ Internet Archive Wayback Machine dostane nové datové centrum - Computerworld, přístupné 8. ledna 2026, https://www.computerworld.com/article/1562759/the-internet-archive-s-wayback-machine-gets-a-new-data-center.html Internet Archive to Live in Sun Blackbox - Data Center Knowledge, přístupné dne 8. ledna 2026, https://www.datacenterknowledge.com/business/internet-archive-to-live-in-sun-blackbox Inside the Internet Archive: A Meat World Tour, Root Simple, přístupné dne 8. ledna 2026, https://www.rootsimple.com/2023/08/inside-the-internet-archive-a-meat-world-tour/ Internet Archive uchovává data z World Wide Web - Richmond Review/Sunset Beacon, přístupný 8. ledna 2026, https://richmondsunsetnews.com/2017/03/11/internet-archive-preserves-data-from-world-wide-web/ Heritrix - Wikipedie, přístupná 8. ledna 2026, https://en.wikipedia.org/wiki/Heritrix Archive-It Crawling Technology, přístupné dne 8. ledna 2026, https://support.archive-it.org/hc/en-us/articles/115001081186-Archive-It-Crawling-Technology WARCreate: Create Wayback-Consumable WARC Files From Any Webpage - ODU Digital Commons, accessed January 8, 2026, https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1154&context=computerscience_fac_pubs Formát WARC - IIPC komunitní zdroje, přístupný 8. ledna 2026, https://iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1/ Co je heritrix? - Hall: AI, přístup k 8. ledna 2026, https://usehall.com/agents/heritrix-bot Archivace webových stránek obsahujících streamovací média, přístupné 8. ledna 2026, https://library.imaging.org/admin/apis/public/api/ist/website/downloadArticle/archiving/14/1/art00004 Květen 2019 Květen 2019 Internet Archive Blogy, přístupné 8. ledna 2026, https://blog.archive.org/2025/03/ Alexa Crawls - Internetový archiv, přístupný 8. ledna 2026, https://archive.org/details/alexacrawls Alexa Internet - Wikipedie, přístupná 8. ledna 2026, https://en.wikipedia.org/wiki/Alexa_Internet Internet Archive - Nonprofit Explorer - ProPublica, přístupné dne 8. ledna 2026, https://projects.propublica.org/nonprofits/organizations/943242767 Aktualizace na 2024/2025 End of Term Web Archive - Ben Werdmuller, přístupný 8. ledna 2026, https://werd.io/update-on-the-20242025-end-of-term-web-archive/ Archiv: Historie jako kód, přístupné dne 8. ledna 2026, https://www.historyascode.com/tools-data/archive-it/ Ceník - Služby digitalizace internetového archivu, přístupné dne 8. ledna 2026, https://digitization.archive.org/pricing/ Náhodný Bay Area sklad, který je domovem jednoho z největších archivů lidstva - SFGATE, přístupný 8. ledna 2026, https://www.sfgate.com/tech/article/bay-area-warehouse-internet-archive-19858332.php Model cen Vault - Podpora Vault, přístupná 8. ledna 2026, https://vault-webservices.zendesk.com/hc/en-us/articles/22896482572180-Vault-Pricing-Model Hachette v. Internet Archive - Wikipedie, přístupná 8. ledna 2026, https://en.wikipedia.org/wiki/Hachette_v._Internet_Archive Hachette Book Group, Inc. proti Internetovému archivu Hachette Copyright Cases, přístupné dne 8. ledna 2026, https://copyrightalliance.org/copyright-cases/hachette-book-group-internet-archive/ Hachette Book Group, Inc. v. Internet Archive, č. 23-1260 (2d Cir. 2024) - Justia Law, přístupný dne 8. ledna 2026, https://law.justia.com/cases/federal/appellate-courts/ca2/23-1260/23-1260-2024-09-04.html Hachette Book Group v. Internet Archive and the Future of Controlled Digital Lending, přístupné dne 8. ledna 2026, https://www.library.upenn.edu/news/hachette-v-internet-archive Otevřená knihovna a autorské právo Internetového archivu: Závěrečná kapitola, přístupná 8. ledna 2026, https://www.lutzker.com/ip_bit_pieces/internet-archives-open-library-and-copyright-law-the-final-chapter/ Co rozhodnutí o internetovém archivu znamená pro naši knihovnu, přístupné 8. ledna 2026, https://blog.archive.org/2023/08/17/what-the-hachette-v-internet-archive-decision-means-for-our-library/ Labels settle copyright lawsuit against Internet Archive over streaming of vintage vinyl records - Music Business Worldwide, accessed January 8, 2026, https://www.musicbusinessworldwide.com/labels-settle-copyright-lawsuit-against-internet-archive-over-streaming-of-vintage-vinyl-records/ Internet Archive vyřeší žalobu ve výši 621 milionů dolarů s hlavními štítky na Vinyl Preservation Project - Consequence.net, přístupné dne 8. ledna 2026, https://consequence.net/2025/09/internet-archive-labels-settle-copyright-lawsuit/ Aktualizace o Velké 78s Lawsuit Bharat Internet Archive Blogy, přístupné 8. ledna 2026, https://blog.archive.org/2025/09/15/an-update-on-the-great-78s-lawsuit/ Music Publishers, Internet Archive Settle Lawsuit Over Old Recordings - GigaLaw, přístupný 8. ledna 2026, https://giga.law/daily-news/2025/9/15/music-publishers-internet-archive-settle-lawsuit-over-old-recordings Internet Archive Settles Copyright Suit with Sony, Universal Over Vintage Records, přístupné dne 8. ledna 2026, https://www.webpronews.com/internet-archive-settles-copyright-suit-with-sony-universal-over-vintage-records/ Květen 2019 - Internet Archive Blogy, přístupné 8. ledna 2026, https://blog.archive.org/2025/07/ Decentralizované webové FAQ - Internetové archivní blogy, přístupné 8. ledna 2026, https://blog.archive.org/2018/07/21/decentralized-web-faq/ Decentralizovaný webový server: Možný přístup s odhady nákladů a výkonu, přístup k 8. lednu 2026, https://blog.archive.org/2016/06/23/decentalized-web-server-possible-approach-with-cost-and-performance-estimates/ Aktualizace na 2024/2025 Konec termínu Web Archive Internet ..., přístupné 8. ledna 2026, https://blog.archive.org/2025/02/06/update-on-the-2024-2025-end-of-term-web-archive/ Aktualizace pokroku z The End of Term Web Archive: 100 milionů shromážděných webových stránek, více než 500 TB dat : r/DataHoarder - Reddit, přístup k 8. lednu 2026, https://www.reddit.com/r/DataHoarder/comments/1ijkdjl/progress_update_from_the_end_of_term_web_archive/ https://en.wikipedia.org/wiki/Wayback_Machine https://blog.archive.org/2025/09/02/looking-back-on-preserving-the-internet-from-1996/ https://archive.org/web/petabox.php https://en.wikipedia.org/wiki/PetaBox https://ipfs.tech/ https://github.com/internetarchive/dweb-archive https://en.wikipedia.org/wiki/Internet_Archive https://www.eweek.com/storage/making-web-memories-with-the-petabox/ https://internetarchive.archiveteam.org/index.php/PetaBox https://blog.archive.org/2010/07/27/the-fourth-generation-petabox/ https://hackaday.com/2025/11/18/internet-archive-hits-one-trillion-web-pages/ https://www.computerworld.com/article/1562759/the-internet-archive-s-wayback-machine-gets-a-new-data-center.html https://www.datacenterknowledge.com/business/internet-archive-to-live-in-sun-blackbox https://www.rootsimple.com/2023/08/inside-the-internet-archive-a-meat-world-tour/ https://richmondsunsetnews.com/2017/03/11/internet-archive-preserves-data-from-world-wide-web/ https://en.wikipedia.org/wiki/Heritrix https://support.archive-it.org/hc/en-us/articles/115001081186-Archive-It-Crawling-Technology https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1154&context=computerscience_fac_pubs https://iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1/ https://usehall.com/agents/heritrix-bot https://library.imaging.org/admin/apis/public/api/ist/website/downloadArticle/archiving/14/1/art00004 https://blog.archive.org/2025/03/ https://archive.org/details/alexacrawls https://en.wikipedia.org/wiki/Alexa_Internet https://projects.propublica.org/nonprofits/organizations/943242767 https://werd.io/update-on-the-20242025-end-of-term-web-archive/ https://www.historyascode.com/tools-data/archive-it/ https://digitization.archive.org/pricing/ https://www.sfgate.com/tech/article/bay-area-warehouse-internet-archive-19858332.php https://vault-webservices.zendesk.com/hc/en-us/articles/22896482572180-Vault-Pricing-Model https://en.wikipedia.org/wiki/Hachette_v._Internet_Archive https://copyrightalliance.org/copyright-cases/hachette-book-group-internet-archive/ https://law.justia.com/cases/federal/appellate-courts/ca2/23-1260/23-1260-2024-09-04.html https://www.library.upenn.edu/news/hachette-v-internet-archive https://www.lutzker.com/ip_bit_pieces/internet-archives-open-library-and-copyright-law-the-final-chapter/ https://blog.archive.org/2023/08/17/what-the-hachette-v-internet-archive-decision-means-for-our-library/ https://www.musicbusinessworldwide.com/labels-settle-copyright-lawsuit-against-internet-archive-over-streaming-of-vintage-vinyl-records/ https://consequence.net/2025/09/internet-archive-labels-settle-copyright-lawsuit/ https://blog.archive.org/2025/09/15/an-update-on-the-great-78s-lawsuit/ https://giga.law/daily-news/2025/9/15/music-publishers-internet-archive-settle-lawsuit-over-old-recordings https://www.webpronews.com/internet-archive-settles-copyright-suit-with-sony-universal-over-vintage-records/ https://blog.archive.org/2025/07/ https://blog.archive.org/2018/07/21/decentralized-web-faq/ https://blog.archive.org/2016/06/23/decentalized-web-server-possible-approach-with-cost-and-performance-estimates/ https://blog.archive.org/2025/02/06/update-on-the-2024-2025-end-of-term-web-archive/ https://www.reddit.com/r/DataHoarder/comments/1ijkdjl/progress_update_from_the_end_of_term_web_archive/