Visaptveroša interneta arhīva inženiertehniskā un operatīvā analīze Nosaukums oriģinālvalodā: The Hum of History in the Fog Ja tu klusi stāvi bijušās kristiešu zinātnes baznīcas kuģī Funston Avenue Sanfrancisko Richmond rajonā, tu varēsi dzirdēt interneta elpošanas skaņu.Tas nav izsaukuma modema haotiskais skrējiens vai paziņojuma ping, bet vienmērīgs, rūpnieciskais trums - zemas frekvences trums, ko rada simtiem griežas cieto disku un augstas ātruma ventili, kas tos atdzesē.Tas ir interneta arhīva galvenā mītne, bezpeļņas bibliotēka, kas ir uzņēmies Sīsifa uzdevumu ierakstīt visu cilvēces civilizācijas digitālo vēsturi. Šeit, starp pārveidotajiem neoklasicisma kolonnām un koka pīlāriem ēkā, kas būvēta, lai pielūgtu cita veida pastāvību, atrodas "virtuālās" pasaules fiziskā izpausme. Mēs mēdzam domāt par internetu kā ēterisko mākoņu, vietu bez ģeogrāfijas vai masas. Bet šajā ēkā internetam ir svars. Tam ir siltums. Tam nepieciešama elektrība, apkope un pastāvīga cīņa pret otro termodinamikas likumu. No 2025. gada beigām šī mašīna – kopīgi pazīstama kā Tas satur 99 petabytes unikālu datu, skaitlis, kas paplašinās līdz vairāk nekā 212 petabytes, kad rēķina par dublējumiem un atlaidēm.3 Wayback mašīna Wayback mašīna Darbības apjoms ir satriecošs, bet inženiertehniskais izaicinājums ir vēl dziļāks.Kā jūs izveidojat mašīnu, kas var reāllaikā uzņemt izplatīto, dinamisko un pastāvīgi mainīgo World Wide Web?Kā jūs glabājat šos datus gadsimtiem ilgi, kad vidējais cietā diska ilgums ir tikai daži gadi?Un, iespējams, vissvarīgākais, kā jūs maksājat par elektroenerģiju, joslas platumu un tiesiskās aizsardzības līdzekļiem, kas nepieciešami, lai saglabātu gaismu laikmetā, kad autortiesību likumi un digitālā saglabāšana ir bloķēti augstas likmes sadursmē? Šis ziņojums padziļina interneta arhīva mehānismu ar asaru precizitāti. Mēs atgriezīsimies pie šasijas, lai pārbaudītu pielāgotus PetaBox serverus, kas sildīs ēku bez gaisa kondicionēšanas. Mēs izsekosim tīmekļa skrāpētāju evolūciju — no agrīnām Alexa interneta kasetnēm līdz 2025. gada izsmalcinātiem pārlūkprogrammu robotiem. Mēs analizēsim šī bezpeļņas giganta finanšu grāmatiņu, izpētot, kā tas izdzīvo budžetā, kas ir apļveida kļūda Silīcijas ielejas kaimiņiem. Un visbeidzot, mēs skatīsimies uz nākotni, kur "Decentralizētais tīkls" (DWeb) sola izjaukt arhīvu miljonos gabalu, lai nodrošinātu, ka Tas ir stāsts par 20 000 cietajiem diskiem, 45 jūdzēm kabeļu un vīziju, kas sākās 1996. gadā ar vienkāršu, drosmīgu mērķi: "Vispārēja piekļuve visām zināšanām".7 I daļa: Atmiņas termodinamika PetaBox arhitektūra: blīvuma un siltuma inženierija Interneta arhīva sirds ir PetaBox, uzglabāšanas serveris, ko arhīva darbinieki ir izstrādājuši, lai atrisinātu konkrētu problēmu: uzglabātu milzīgus datu apjomus ar minimālu enerģijas patēriņu un siltuma ražošanu. 2000. gadu sākumā uzņēmumu uzglabāšanas risinājumi no tādiem milžiem kā EMC vai NetApp bija pārāk dārgi un enerģijas izsalkuši. Tie tika izstrādāti ātrgaitas darījumu datiem, piemēram, banku sistēmām vai biržām, kur ir milisekundes aizkavēšanās. , Archive dibinātājs un datoru inženieris, kurš iepriekš bija dibinājis superkomputeru kompāniju Thinking Machines, pievērsās problēmai ar citu filozofiju. Tā vietā, lai izmantotu augstas veiktspējas RAID diapazonus, Archive uzcēla PetaBox, izmantojot patērētāju klases detaļas. Dizaina filozofija bija radikāla savam laikam: izmantojiet "Just a Bunch of Disks" (JBOD) nevis dārgus RAID kontrolierus, un risiniet datu pārpalikumu, izmantojot programmatūru, nevis aparatūru.4 Brewster kaļķakmens Brewster kaļķakmens Densitātes evolūcija: no terabaitiem līdz petabaitiem PetaBox trajektorija ir Moora likuma gadījumu pētījums, kas piemērots magnētiskajai uzglabāšanai. Pirmais PetaBox plaukts, kas darbojās 2004. gada jūnijā, bija atklāsme par uzglabāšanas blīvumu. PetaBox inženiertehniskās specifikācijas atklāj nemitīgu blīvuma meklēšanu: Specification Generation 1 (2004) Generation 4 (2010) Current Generation (2024-2025) Capacity per Rack 100 TB 480 TB ~1.4 PB (1,400 TB) Drive Count ~40-80 drives 240 drives (2TB each) ~360+ drives (8TB+ each) Power per Rack 6 kW ~6-8 kW ~6-8 kW Heat Dissipation Utilized for building heat Utilized for building heat Utilized for building heat Processor Arch Low-voltage VIA C3 Intel Xeon E7-8870 (10-core) Modern High-Efficiency x86 Cooling Passive / Fan-assisted Passive / Fan-assisted Passive / Fan-assisted Kapacitāte uz raķeti 100 TB 480 TB ~ 1,4 PB (1 400 TB) Automašīnas kontā 40 – 80 braucieni 240 diski (2TB katrs) ~360+ diski (8TB+ katrs) Jauda uz raķešu 6 kW 6 līdz 8 kW 6 līdz 8 kW Siltuma izkliedēšana Izmanto būvniecības siltumam Izmanto būvniecības siltumam Izmanto būvniecības siltumam Procesors ARCH Zema sprieguma VIA C3 Intel Xeon E7-8870 (10 kodolu) Augstas efektivitātes x86 Atdzesē Pasīvā / Fan-Assisted Pasīvā / Fan-Assisted Pasīvā / Fan-Assisted 1 Ceturtās paaudzes PetaBox, kas tika ieviests ap 2010. gadu, ilustrēja šo blīvumu. Katrā plauktā bija 240 diski ar 2 terabaitiem katrā, kas organizēti 4U augstas plaukta montāžās. Šīs vienības darbināja Intel Xeon procesori (īpaši E7-8870 sērija turpmākajos atjauninājumos) ar 12 gigabaitiem RAM. Arhitektūra paļāvās uz 1 gigabaita saskarņu pāris, lai izveidotu 2 gigabaitu cauruļvadu, kas darbojas uz plaukta pārslēdzēja ar 10 gigabaitu uplink.10 Līdz 2025. gadam uzglabāšanas telpa atkal ir mainījusies.Pašreizējie PetaBox plaukti nodrošina 1,4 petabīdus uzglabāšanas vietas uz vienu plauktu. Šis solis nav sasniegts, pievienojot vairāk slots, bet izmantojot ievērojami lielākus diskus – 8TB, 16TB un pat 22TB diski tagad ir standarta. 2016. gadā Archive pārvaldīja aptuveni 20 000 atsevišķu disku disku. Eksperiments ar “melno kasti” 2007. gadā Archive kļuva par agrīnu Sun Microsystems "Blackbox" (vēlāk Sun Modular Datacenter) adoptētāju. tas bija kuģniecības konteineris, kas iepakots ar Sun Fire X4500 "Thumper" uzglabāšanas serveriem, kas spēj glabāt milzīgus datu apjomus pārnēsājamā, pašpietiekamā vienībā. Arhīva melnā kaste bija piepildīta ar astoņiem serveru plauktiem, kuros darbojās Solaris 10 operētājsistēma un ZFS failu sistēma.Šis eksperiments apstiprināja konteinerializēto datu centru koncepciju - modeli, ko vēlāk pieņēma Microsoft un Google -, bet Archive galu galā atgriezās pie savas pielāgotās PetaBox konstrukcijas to primārajai iekšējai infrastruktūrai, dodot priekšroku to pašu atvērtā koda aparatūras dizainu elastībai un zemākām izmaksām salīdzinājumā ar privātiem komerciāliem risinājumiem.12 Dzesēšana bez gaisa kondicionēšanas: Funston Loop Viena no izcilākajām arhīva infrastruktūras iezīmēm ir tā termisko pārvaldības sistēma.Datu centri ir pazīstami energointensīvi, bieži vien patērē tikpat daudz elektroenerģijas dzesēšanai (HVAC), cik to dara datoriem. Risinājums bija ģeogrāfija un fizika. Arhīva galvenais datu centrs atrodas Sanfrancisko Ričmunda rajona rajonā, kas ir pazīstams ar savu mūžīgo miglu un vēsu jūras klimatu. Ēka izmanto šo apkārtējo gaisu dzesēšanai. PetaBox mašīnu telpās nav tradicionālas gaisa kondicionēšanas. Tā vietā serveri ir izstrādāti, lai darbotos nedaudz augstākā darba temperatūrā, un pārpalikuma siltums, ko rada griešanas diski, tiek uztverts un atkārtoti cirkulēts, lai apsildītu ēku Sanfrancisko siltuma ziemas laikā.9 Šī "atkritumu siltuma" sistēma ir slēgta efektivitātes sloksne. Vairāk nekā 60 kilovatus siltuma enerģijas, ko ražo uzglabāšanas klasteris, nav blakusprodukts, kas jāiznīcina, bet resurss, kas jāražo. Šī dizaina izvēle dramatiski samazina iekārtas jaudas izmantošanas efektivitātes (PUE) attiecību, ļaujot arhīvam iztērēt ierobežotos līdzekļus cietajiem diskiem, nevis elektrības rēķiniem. Uzticamība un tehniskā apkope: “Aizstāt, kad mirst” modelis Ar vairāk nekā 28 000 rotējošo disku darbību diska neveiksme ir statistiska noteiktība.3 Tradicionālajā korporatīvajā datu centrā diska neveiksme izraisa tūlītēju, satraucošu aizstāšanas protokolu, lai saglabātu "pieci deviņi" (99.999%) uzticamību. Dati tiek atspoguļoti vairākās mašīnās, bieži vien dažādās fiziskajās vietās (ieskaitot datu centrus Redwood City un Richmond, Kalifornijā, un kopijas Eiropā un Kanādā).12 Tā kā dati nav "misijas kritiski" dzīvas banku darījuma nozīmē, arhīvs var izturēt noteiktu skaitu mirušo disku mezglā, pirms ir nepieciešama fiziska apkope. Šis "mazas uzturēšanas" dizains ļauj ļoti mazai komandai - vēsturiski tikai vienam sistēmas administratoram uz petabaitu datu - pārvaldīt uzglabāšanas impēriju, kas konkurē ar lielāko tehnoloģiju korporāciju. Otrā daļa: The Crawler's Dilemma Pārvietojamā mērķa uztveršana Ja PetaBox ir arhīva smadzenes, tīmekļa skrāpētāji ir tās acis. tīmekļa arhivēšana nav pasīvs process; tam ir nepieciešama aktīva, agresīva programmatūra, kas nemitīgi šķērso World Wide Web saites, kopējot visu, ko atrod. Šis process, kas pazīstams kā skrāpēšana, ir attīstījies no vienkāršas skriptā balstītas meklēšanas līdz sarežģītai pārlūka automatizācijai. Heritrix mantojums Lielāko daļu savas vēstures, arhīvs paļāvās uz crawler sauc Heritrix, ko 2003. gadā kopīgi izstrādāja Internet Archive un Ziemeļvalstu nacionālās bibliotēkas (Norvēģija un Islande), ir Java balstīta atvērtā koda skrāpis, kas īpaši izstrādāts arhīvu uzticamībai. Hermētisks Hermētisks Atšķirībā no meklētājprogrammas crawler (piemēram, Googlebot), kas galvenokārt rūpējas par teksta iegūšanu meklēšanas relevanci, Heritrix rūpējas par Tas mēģina uztvert tīmekļa lapas precīzu stāvokli, tostarp tās attēlus, stila lapas un iebūvētos objektus.Tas iepako šos aktīvus standartizētā konteineru formātā, kas pazīstams kā WARC (Web ARChive).18 Artifakts WARC fails ir interneta arhīva atomu vienība. tas saglabā ne tikai lapas saturu, bet arī "HTTP virsrakstus" - digitālo roku triecienu starp serveri un pārlūkprogrammu, kas notika uztveršanas brīdī. Tika noņemta viena lapa, serveris to piegādā, un Tika apspriesti jautājumi.19 Kad Ko Kā Heritrix darbojas, izmantojot "Frontier" - sarežģītu rindas pārvaldības sistēmu, kas izlemj, kuru URL apmeklēt nākamajā. tā ievēro stingras "pieklājības" politikas, ievēro robots.txt izslēgšanas protokolus un ierobežo pieprasījumu biežumu, lai izvairītos no mērķa serveru sabrukuma.16 Dinamiskā tīmekļa krīze Tomēr Heritrix tika izveidots vienkāršākam tīklam — tīklam, kas sastāv no statiskiem HTML failiem un hipersaitēm.Kad tīkls attīstījās par dinamisku lietojumprogrammu (Web 2.0), sociālo mediju plūsmu un JavaScript smago saskarņu platformu, Heritrix sāka trāpīt. Heritrix uztver sākotnējo HTML, ko piegādā serveris.Bet mūsdienu vietnē, piemēram, Twitter (tagad X) vai Facebook, šis sākotnējais HTML bieži vien ir tikai tukšs. Heritrix, kas ir muļķīgs lejupielādētājs, nevarēja izpildīt šo kodu. Rezultāts bieži vien bija lapas bojāts, tukšs apvalks - digitālā spoku pilsēta.17 Pēc Brozzlera un Umbas pieaugums Lai apkarotu "dinamisko tīklu", arhīvam bija jāattīsta tā rīki. un Umbra, rīki, kas izjauc līniju starp skrāpētāju un tīmekļa pārlūkprogrammu. brošūra brošūra Brozzler (portmanteau no " pārlūkprogrammu" un "crawler") izmanto "galvas" versiju Google Chrome pārlūkprogrammu, lai rādītu lapas tieši tā, kā lietotājs redz tos. Tas ļauj arhīvam saglabāt sarežģītas vietnes, piemēram, Instagram un interaktīvus ziņu rakstus, kas būtu neredzami tradicionālajam skrāpējam.17 Pirms Umbra darbojas kā palīglīdzeklis, izmantojot pārlūkprogrammas automatizāciju, lai imitētu cilvēka uzvedību.Tas "skrūvē" leņķī, lai izraisītu bezgalīgu ielādes plūsmu, pārvietojas pa lejupielādes izvēlnēm, lai atklātu slēptās saites, un noklikšķina uz pogām.Šīs darbības atklāj jaunus URL, kas pēc tam tiek ievadīti atpakaļ skrūvēšanai.17 Šī maiņa prasa ievērojami lielāku aprēķinu jaudu. lapas rādīšana Chrome prasa vairāk CPU ciklu, nekā vienkārši lejupielādēt teksta failu.Tas ir piespieduši arhīvu būt selektīvākam un mērķtiecīgākam savā augstas ticamības skrāpējumā, rezervējot resursu intensīvo pārlūkprogrammas skrāpēšanu augstas vērtības dinamiskām vietnēm, vienlaikus izmantojot vieglākus rīkus statiskajam tīklam.17 “Save Page Now” revolūcija Iespējams, visnozīmīgākā tehnoloģiskā pārmaiņa pēdējos gados ir bijusi skrāpēšanas demokratizācija.Funkcija Save Page Now ļauj jebkuram lietotājam nekavējoties izraisīt konkrēta URL skrāpēšanu. Izmantojot šīs pārlūkprogrammu balstītās tehnoloģijas, Save Page Now ir kļuvis par kritisku rīku žurnālistiem, pētniekiem un faktu pārbaudītājiem. 2025. gadā tas bieži vien ir pirmā aizsardzības līnija pret saites sabojāšanu, ļaujot lietotājiem izveidot nemainīgu ierakstu par tweet vai ziņu rakstu sekundes, pirms tas tiek dzēsts vai mainīts.1 Alexa interneta pieslēgums Ir neiespējami apspriest arhīva skrāpēšanas vēsturi, nepieminot Alexa Internetu.Alexa, kuru 1996. gadā dibināja Brewster Kahle kopā ar Archive, bija peļņas gūšanas uzņēmums, kas skrāpēja tīmekli, lai sniegtu satiksmes analīzi (pazīstamais "Alexa Rank"). Gandrīz divus gadu desmitus Alexa bija galvenais arhīva datu avots.Alexa savā komerciālajā nolūkā skrāpēja tīmekli un pēc tam pēc embargo perioda ziedoja skrāpēšanas datus interneta arhīvam.Šīs simbiozes attiecības nodrošināja arhīvu ar masveida, nepārtrauktu datu plūsmu bez nepieciešamības darboties ar savu masveida skrāpēšanas infrastruktūru.Tomēr, kad Amazon (kas iegādājās Alexa 1999) pārtrauca Alexa pakalpojumu 2022. gada maijā, arhīvam bija jāpaļaujas vairāk uz savu skrāpēšanas infrastruktūru un partneriem, piemēram, Common Crawl.7 Trešā daļa: Izdzīvošanas ekonomika Ieguldīt nelabvēlīgo Lai izveidotu augstas klases globālu tīmekļa vietni, parasti ir vajadzīgs Google vai Meta budžets. Internet Archive spēj darboties kā viena no visvairāk apmeklētajām tīmekļa vietnēm pasaulē ar budžetu, kas ir šokējoši pieticīgs. Finanšu ledžeris Saskaņā ar finanšu iesniegumiem (Form 990) un gada pārskatiem interneta arhīva gada ieņēmumi svārstās no 25 miljoniem līdz 30 miljoniem ASV dolāru.7 Piemēram, 2024. gadā organizācija ziņoja par aptuveni 26,8 miljoniem ASV dolāru ieņēmumu pret 23,5 miljoniem ASV dolāru izdevumu.25 Galvenais ieņēmumu dzinējs ir iemaksas un dotācijas, kas parasti veido 60-70% no kopējiem ienākumiem. Mikrodonācijas: “Wikipedia modelis”, kurā lietotāji tiek lūgti par 5 vai 10 dolāriem. Galvenie dotācijas: finansējums no labdarības organizācijām, piemēram, Mellon fonds, Kahle / Austin fonds un Filecoin fonds.25 Otrā lielākā ieņēmumu plūsma ir Program Services, konkrēti digitalizācijas un arhivēšanas pakalpojumi.Arhīvs nav tikai bibliotēka, tas ir pakalpojumu sniedzējs. Arhīvs-tas: Šis abonēšanas pakalpojums ļauj iestādēm (bibliotēkām, universitātēm, valdībām) izveidot savus tīmekļa arhīvus. Abonēšanas sākums ir aptuveni 2400 ASV dolāri gadā par 100 GB uzglabāšanas vietu un mērogs līdz 12 000 ASV dolāriem gadā par terabaitu. Šis pakalpojums rada miljonus ieņēmumu, efektīvi dotējot bezmaksas Wayback Machine.27 Digitalizācijas pakalpojumi: Arhīvs darbojas digitalizācijas centros, kur tas skenē grāmatas un citus plašsaziņas līdzekļus partneriem. „Scribe” grāmatu skeneri – pielāgotas mašīnas ar V-veida lāpstiņām un kāju pedāliem – ļauj nesatricinoši skenēt grāmatas. partneri maksā par lapu (piemēram, $ 0,15 par lapu saistītām grāmatām), lai viņu kolekcijas būtu digitalizētas.28 Vault pakalpojumi: Jaunāks piedāvājums, Vault nodrošina digitālo uzglabāšanas uzglabāšanu par vienreizēju maksu (piemēram, $1,000 par terabaitu). Šis "nodokļu modelis" ļauj iestādēm maksāt vienu reizi par mūžīgo uzglabāšanu, likmējot, ka uzglabāšanas izmaksas samazināsies ātrāk nekā procentu likmes par dotāciju.30 Viena petabaita izmaksas Grāmatvedības izdevumu pusē dominē algas un algas (aptuveni puse no budžeta) un IT infrastruktūra.Tomēr arhīva "PetaBox ekonomika" ļauj saglabāt datus par daļu no komerciālo mākoņu pakalpojumu sniedzēju izmaksām. Apsveriet izmaksas, kas saistītas ar 100 petabaitu uzglabāšanu Amazon S3. Pie standarta likmēm (~ 0,021 ASV dolāri par GB mēnesī), tikai uzglabāšana izmaksātu vairāk nekā 2,1 miljonus ASV dolāru mēnesī. Darbības budžets — darbiniekiem, ēkām, tiesību aizsardzībai un aparatūrai — ir mazāks par to, ko izmaksātu datu glabāšana AWS vienam gadam. Ikgadējā Īpašojot savu aparatūru, izmantojot PetaBox augstas blīvuma arhitektūru, izvairoties no gaisa kondicionēšanas izmaksām un izmantojot atvērtā koda programmatūru, Archive sasniedz uzglabāšanas izmaksu efektivitāti, kas ir lielāka par komerciālajiem mākoņu tarifiem.25 IV daļa: Juridiskais kaujas lauks Kad glabāšana atbilst autortiesībām Šī misija ir morāli pārliecinoša, bet juridiski bīstama.Kad arhīvs paplašinājās ārpus vienkāršām tīmekļa lapām uz grāmatām, mūziku un programmatūru, tas pārcēlās no tīmekļa "implicētās licences" salīdzinoši drošās ostas uz autortiesību stipri nostiprināto teritoriju. Valsts neatliekamās medicīniskās palīdzības dienests un Hachette v. Interneta arhīvs Hachette v. Interneta arhīvs Ar fizisko bibliotēku slēgšanu, arhīvs uzsāka "National Emergency Library", noņemot gaidīšanas sarakstus no tās digitalizētās grāmatu kolekcijas. Arhīva grāmatu programmas juridiskais pamats bija kontrolēta digitālā aizdošana (CDL). Teorija apgalvoja, ka, ja bibliotēkai pieder fiziska grāmata, tai vajadzētu būt atļautam skenēt šo grāmatu un aizdot digitālo eksemplāru vienai personai vienlaicīgi, ar nosacījumu, ka fiziskā grāmata tiek izņemta no aprites, bet digitālā ir aizņemta. Tomēr 2023. gada martā federālais tiesnesis noraidīja šo aizstāvību, nolemjot, ka Arhīva skenēšana un aizdošana nebija “taisnīga izmantošana”.Tiesa konstatēja, ka digitālās kopijas konkurēja ar izdevēju pašu komerciālajiem e-grāmatu tirgiem.Arhīva arguments par to, ka tā izmantošana bija “pārveidojoša” (padara aizdošanu efektīvāku) tika noraidīts.2024. gada septembrī Apelāciju otrā apgabala tiesa atbalstīja šo lēmumu, un līdz 2024. gada beigām Arhīvs paziņoja, ka tas neiesaistīsies Augstākajā tiesā.31 Apvienošanās ar Arhīvs bija spiests noņemt aptuveni 500 000 grāmatu no savas aizdevuma programmas, jo īpaši no tām, kurām ir komerciāla e-grāmatu versija.Šis "nolīgtais spriedums" fundamentāli mainīja Arhīva grāmatu stratēģiju, liekot tai atgriezties pie vecākiem, neizdrukātajiem un publiskā domēna darbiem, kur komerciālie konflikti ir mazāk iespējami.31 Hacheta Lielais 78 projekts un Sony izlīgums Kamēr grāmatu cīņa satricināja, otrajā frontē atvērās audio puse. Lielais 78 projekts bija paredzēts, lai digitalizētu 78rpm ierakstus no 20. gadsimta sākuma.Šie shellac diski ir trausli, novecojuši un bieži vien pasliktinās.Arhīvs apgalvoja, ka to digitalizācija bija saglabāšanas imperatīvs.37 Viņi prasīja 2023. gadā, apgalvojot, ka projekts darbojās kā "nelegāls ierakstu veikals", kas pārkāpa tādu mākslinieku kā Frank Sinatra un Billie Holiday autortiesības uz tūkstošiem dziesmu. 2025. gada septembrī šī prasība arī nonāca pie izlīguma. Kaut arī nosacījumi palika konfidenciāli, rezolūcija ļāva arhīvam izvairīties no potenciāli bankrotējoša tiesas procesa. Tomēr tūlītējais sekas bija daudzu autortiesību aizsargātu audio ierakstu piekļuves noņemšana, ierobežojot tos pētniekiem, nevis plašai sabiedrībai. Šis modelis — izlīgums, kam seko ierobežojumi — apzīmē jaunu realitāti interneta arhīvam 2025. gadā: atkāpšanās no "pārvietoties ātri un izjaukt lietas" pieeja uz piesardzīgāku, juridiski ierobežotu saglabāšanas modeli.39 Federālais depozitārijas vairogs Lielā stratēģiskajā uzvarā starp šiem zaudējumiem ASV Senāts 2025. gada jūlijā iecēla interneta arhīvu par Federālo depozitārijas bibliotēku (FDL).7 Šis statuss ir vairāk nekā tikai nosaukums; tas juridiski ļauj arhīvam vākt, saglabāt un nodrošināt piekļuvi ASV valdības publikācijām. Lai gan tas neaizsargā autortiesību aizsargātu mūziku vai komerciālus romānus, tas nostiprina arhīva lomu kā būtisku valsts informācijas infrastruktūras sastāvdaļu, padarot to politiski un juridiski grūtāk pilnībā slēgt.7 5. daļa: Nākotnes pierādīšana pagātnē Decentralizācija un “termiņa beigas” Ja tiesas rīkojums vai katastrofāls ugunsgrēks skartos Funston Avenue galvenajai mītnei, var tikt zaudēta tīmekļa vēstures primārā kopija. Decentralizētā tīmekļa vietne (DWeb) Arhīvs ir galvenais DWeb kustības virzītājspēks, kas cenšas izveidot tīmekli, kas ir sadalīts, nevis centralizēts.Mērķis ir glabāt Arhīva datus visā globālajā līdzstrādnieku tīklā, padarot neiespējamu nevienai vienai vienībai - vai tā ir valdība, korporācija vai dabas katastrofa - to veikt bezsaistē.5 Tehnoloģiski tas ietver integrāciju ar tādiem protokoliem kā IPFS (Interplanetary File System) un Filecoin. IPFS: Ļauj saturam tikt adresētam pēc tā kriptogrāfiskā hash (kas tas ir), nevis pēc tā atrašanās vietas (kur tas ir).Ja arhīva serveris ir bloķēts, lietotājs var iegūt to pašu WARC failu no jebkura cita tīkla mezgla, kurā atrodas kopija.5 Filecoin: nodrošina stimulu slāni uzglabāšanai. 2025. gadā arhīvs sāka augšupielādēt kritiskas kolekcijas, piemēram, "End of Term" valdības tīmekļa arhīvus, uz Filecoin tīklu aukstai uzglabāšanai. 2025. gada "termiņa beigas" crawls Arhīvs ik pēc četriem gadiem veic milzīgu pūliņu, lai pārmeklētu (dot)gov un (dot)mil tīmekļa vietnes pirms prezidenta pārejas. 2024/2025 pārmeklēšana bija lielākā vēsturē, iegūstot vairāk nekā 500 terabaitus valdības datu.45 Šis projekts uzsver Arhīva lomu kā vēstures uzraugi, nodrošinot, ka klimata dati, censu ziņojumi un politikas dokumenti neizzūd, kad jaunā administrācija ieņem amatu. Generatīvais AI un taisnīga izmantošana Es nosūtīju e-pastu Brewser Kahle par 2025. gadu un ģeneratīvo AI, un šeit ir viņa citāts: "Generatīvais AI ir izraisījis dažas tīmekļa vietnes, lai meklētu dolāru zīmes, bloķējot savas vietnes vai uzsākot tiesvedību. tas nepalīdz kultūras mantojuma iestādēm, piemēram, Internet Archive un bieži vien kaitē lietotājiem kopumā. Interneta arhīvs paliks brīvs un atvērts, lai mēģinātu palīdzēt cilvēkiem pārvaldīt mūsu mainīgo pasauli.Arhīvs piedāvā atvērtus datu kopumus AI pētniekiem un uzņēmumiem, lai izmantotu savus pakalpojumus. "Generatīvais AI ir izraisījis dažas tīmekļa vietnes, lai meklētu dolāru zīmes, bloķējot savas vietnes vai uzsākot tiesvedību. tas nepalīdz kultūras mantojuma iestādēm, piemēram, Internet Archive un bieži vien kaitē lietotājiem kopumā. Interneta arhīvs paliks brīvs un atvērts, lai mēģinātu palīdzēt cilvēkiem pārvaldīt mūsu mainīgo pasauli.Arhīvs piedāvā atvērtus datu kopumus AI pētniekiem un uzņēmumiem, lai izmantotu savus pakalpojumus. Nosaukums oriģinālvalodā: The Long Now Tā kā mēs virzāmies dziļāk uz 21. gadsimtu, interneta arhīvs stāv kā paradokss. tas ir tehnoloģisks bezdibenis, kas darbojas mērogā, kas konkurē ar Silikona ielejas milžiem, tomēr tas atrodas baznīcā un to vada bibliotēku darbinieki. 2025. gada notikumi – “triljona lappuses” posms, sāpīgi juridiskie izlīgumi un pāreja uz decentralizētu uzglabāšanu – norāda uz organizācijas nogatavināšanu. tā vairs nav agrīnā tīmekļa “dzīvais rietums”. tā ir sabojāta, bet noturīga institūcija, kas pielāgo savu mehānismu un misiju, lai izdzīvotu pasaulē, kas arvien vairāk ir naidīga pret brīvas, universālas piekļuves koncepciju. Siltums, ko tie rada, sasilda ēku, saglabājot Ričmunda rajona miglu.Un kaut kur uz šīm plāksnēm, starp triljoniem nulles un tiem, atrodas vienīgais pierādījums, ka vakardienas digitālā pasaule vispār pastāvēja.Mašīna atceras, tāpēc mums nav jāatceras. References Wayback Machine - Vikipēdija, pieejama 2026. gada 8. janvārī https://en.wikipedia.org/wiki/Wayback_Machine Skatoties atpakaļ uz “Izglītības un zinātnes ministrija” no 1996. gada, Internet Archive Blogs, apskatīts 2026. gada 8. janvārī, https://blog.archive.org/2025/09/02/looking-back-on-preserving-the-internet-from-1996/ Petabox - Interneta arhīvs, pieejams 2026. gada 8. janvārī, https://archive.org/web/petabox.php PetaBox - Vikipēdija, pieejama 2026. gada 8. janvārī https://en.wikipedia.org/wiki/PetaBox IPFS: Būvniecības bloki labākam tīklam IPFS, pieejams 2026. gada 8. janvārī https://ipfs.tech/ internetarchive/dweb-archive - GitHub, piekļuves datums 2026. gada 8. janvāris, https://github.com/internetarchive/dweb-archive Interneta arhīvs - Vikipēdija, pieejams 2026. gada 8. janvārī https://en.wikipedia.org/wiki/Internet_Archive Veidojot tīmekļa atmiņas ar PetaBox - eWeek, pieejams 2026. gada 8. janvārī, https://www.eweek.com/storage/making-web-memories-with-the-petabox/ PetaBox - Internet Archive Neoficiālā Vikipēdija, pieejama 2026. gada 8. janvārī https://internetarchive.archiveteam.org/index.php/PetaBox Ceturtās paaudzes Petabox eBay Internet Archive Blogs, pieejams 2026. gada 8. janvārī, https://blog.archive.org/2010/07/27/the-fourth-generation-petabox/ Internet Archive Hits One Trillion Web Pages - Hackaday, piekļuves datums 2026. gada 8. janvāris, https://hackaday.com/2025/11/18/internet-archive-hits-one-trillion-web-pages/ Interneta arhīva Wayback Machine iegūst jaunu datu centru - Computerworld, kas pieejams 2026. gada 8. janvārī https://www.computerworld.com/article/1562759/the-internet-archive-s-wayback-machine-gets-a-new-data-center.html Internet Archive to Live in Sun Blackbox - Data Center Knowledge, pieejams 2026. gada 8. janvārī, https://www.datacenterknowledge.com/business/internet-archive-to-live-in-sun-blackbox Interneta arhīva iekšpusē: A Meat World Tour, Root Simple, pieejams 2026. gada 8. janvārī https://www.rootsimple.com/2023/08/inside-the-internet-archive-a-meat-world-tour/ Internet Archive saglabā datus no World Wide Web - Richmond Review/Sunset Beacon, pieejams 2026. gada 8. janvārī, https://richmondsunsetnews.com/2017/03/11/internet-archive-preserves-data-from-world-wide-web/ Heritrix - Vikipēdija, pieejama 2026. gada 8. janvārī https://en.wikipedia.org/wiki/Heritrix Archive-It Crawling Technology, pieejams 2026. gada 8. janvārī https://support.archive-it.org/hc/en-us/articles/115001081186-Archive-It-Crawling-Technology WARCreate: Create Wayback-Consumable WARC Files From Any Webpage - ODU Digital Commons, accessed January 8, 2026, https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1154&context=computerscience_fac_pubs The WARC Format - IIPC Kopienas resursi, pieejams 2026. gada 8. janvārī https://iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1/ Kas ir heritrix? - Hall: AI, pieejams 2026. gada 8. janvārī, https://usehall.com/agents/heritrix-bot Arhivēšanas tīmekļa vietnes, kas satur straumēšanas plašsaziņas līdzekļus, piekļuves datums ir 2026. gada 8. janvāris https://library.imaging.org/admin/apis/public/api/ist/website/downloadArticle/archiving/14/1/art00004 Maršruts 2025. gads Internet Archive Blogs, pieejams 2026. gada 8. janvārī, https://blog.archive.org/2025/03/ Alexa Crawls - Interneta arhīvs, pieejams 2026. gada 8. janvārī, https://archive.org/details/alexacrawls Alexa Internet - Vikipēdija, pieejama 2026. gada 8. janvārī https://en.wikipedia.org/wiki/Alexa_Internet Internet Archive - Nonprofit Explorer - ProPublica, pieejams 2026. gada 8. janvārī https://projects.propublica.org/nonprofits/organizations/943242767 2024/2025 termiņa beigām tīmekļa arhīvs - Ben Werdmuller, pieejams 2026. gada 8. janvārī, https://werd.io/update-on-the-20242025-end-of-term-web-archive/ Vēsture kā kods, pieejams 2026. gada 8. janvārī https://www.historyascode.com/tools-data/archive-it/ Cenu noteikšana - Interneta arhīvu digitalizācijas pakalpojumi, pieejams 2026. gada 8. janvārī https://digitization.archive.org/pricing/ Random Bay Area noliktava, kurā atrodas viens no cilvēces lielākajiem arhīviem - SFGATE, piekļuves datums ir 2026. gada 8. janvāris, https://www.sfgate.com/tech/article/bay-area-warehouse-internet-archive-19858332.php Vault cenu modelis - Vault atbalsts, pieejams 2026. gada 8. janvārī https://vault-webservices.zendesk.com/hc/en-us/articles/22896482572180-Vault-Pricing-Model Hachette v. Internet Archive - Vikipēdija, piekļuves datums 2026. gada 8. janvāris https://en.wikipedia.org/wiki/Hachette_v._Internet_Archive Hachette Book Group, Inc. pret Internet Archive, Copyright Cases, pieejams 2026. gada 8. janvārī https://copyrightalliance.org/copyright-cases/hachette-book-group-internet-archive/ Hachette Book Group, Inc. pret Interneta arhīvu, Nr. 23-1260 (2d Cir. 2024) - Tieslietu likums, pieejams 2026. gada 8. janvārī, https://law.justia.com/cases/federal/appellate-courts/ca2/23-1260/23-1260-2024-09-04.html Hachette Book Group v. Internet Archive and the Future of Controlled Digital Lending, pieejams 2026. gada 8. janvārī https://www.library.upenn.edu/news/hachette-v-internet-archive Interneta arhīva Atvērto bibliotēku un autortiesību likums: Pēdējā nodaļa, pieejama 2026. gada 8. janvārī https://www.lutzker.com/ip_bit_pieces/internet-archives-open-library-and-copyright-law-the-final-chapter/ Ko Hachette v. Internet Archive lēmums nozīmē mūsu bibliotēkai, pieejams 2026. gada 8. janvārī https://blog.archive.org/2023/08/17/what-the-hachette-v-internet-archive-decision-means-for-our-library/ Labels settle copyright lawsuit against Internet Archive over streaming of vintage vinyl records - Music Business Worldwide, accessed January 8, 2026, https://www.musicbusinessworldwide.com/labels-settle-copyright-lawsuit-against-internet-archive-over-streaming-of-vintage-vinyl-records/ Interneta arhīvs atrisina 621 miljonu dolāru sūdzību ar galvenajiem etiķetēm par vinila saglabāšanas projektu - Consequence.net, piekļuves datums 2026. gada 8. janvāris, https://consequence.net/2025/09/internet-archive-labels-settle-copyright-lawsuit/ Atjauninājums par Lielo 78 gadu tiesas spriedumu Internet Archive Blogs, pieejams 2026. gada 8. janvārī https://blog.archive.org/2025/09/15/an-update-on-the-great-78s-lawsuit/ Mūzikas izdevēji, Internet Archive Settle Lawsuit Over Old Recordings - GigaLaw, accessed January 8, 2026, https://giga.law/daily-news/2025/9/15/music-publishers-internet-archive-settle-lawsuit-over-old-recordings Internet Archive Settles Copyright Suit with Sony, Universal Over Vintage Records, pieejams 2026. gada 8. janvārī, https://www.webpronews.com/internet-archive-settles-copyright-suit-with-sony-universal-over-vintage-records/ Aprīlis 2019 - Internet Archive Blogs, piekļuves datums 2026. gada 8. janvāris, https://blog.archive.org/2025/07/ Decentralizēta tīmekļa FAQ - Internet Archive Blogs, piekļuves datums 2026. gada 8. janvāris https://blog.archive.org/2018/07/21/decentralized-web-faq/ Decentralizēts tīmekļa serveris: iespējamā pieeja ar izmaksu un veiktspējas aplēsēm, pieejama 2026. gada 8. janvārī https://blog.archive.org/2016/06/23/decentalized-web-server-possible-approach-with-cost-and-performance-estimates/ Atjauninājums par 2024/2025 termiņa beigām Tīmekļa arhīvs Tīmekļa arhīvs ..., pieejams 2026. gada 8. janvārī, https://blog.archive.org/2025/02/06/update-on-the-2024-2025-end-of-term-web-archive/ Progresa atjauninājums no The End of Term Web Archive: apkopoti 100 miljoni tīmekļa lapu, vairāk nekā 500 TB datu : r/DataHoarder - Reddit, piekļūts 2026. gada 8. janvārī, https://www.reddit.com/r/DataHoarder/comments/1ijkdjl/progress_update_from_the_end_of_term_web_archive/ https://en.wikipedia.org/wiki/Wayback_Machine https://blog.archive.org/2025/09/02/looking-back-on-preserving-the-internet-from-1996/ https://archive.org/web/petabox.php https://en.wikipedia.org/wiki/PetaBox https://ipfs.tech/ https://github.com/internetarchive/dweb-archive https://en.wikipedia.org/wiki/Internet_Archive https://www.eweek.com/storage/making-web-memories-with-the-petabox/ https://internetarchive.archiveteam.org/index.php/PetaBox https://blog.archive.org/2010/07/27/the-fourth-generation-petabox/ https://hackaday.com/2025/11/18/internet-archive-hits-one-trillion-web-pages/ https://www.computerworld.com/article/1562759/the-internet-archive-s-wayback-machine-gets-a-new-data-center.html https://www.datacenterknowledge.com/business/internet-archive-to-live-in-sun-blackbox https://www.rootsimple.com/2023/08/inside-the-internet-archive-a-meat-world-tour/ https://richmondsunsetnews.com/2017/03/11/internet-archive-preserves-data-from-world-wide-web/ https://en.wikipedia.org/wiki/Heritrix https://support.archive-it.org/hc/en-us/articles/115001081186-Archive-It-Crawling-Technology https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1154&context=computerscience_fac_pubs https://iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1/ https://usehall.com/agents/heritrix-bot https://library.imaging.org/admin/apis/public/api/ist/website/downloadArticle/archiving/14/1/art00004 https://blog.archive.org/2025/03/ https://archive.org/details/alexacrawls https://en.wikipedia.org/wiki/Alexa_Internet https://projects.propublica.org/nonprofits/organizations/943242767 https://werd.io/update-on-the-20242025-end-of-term-web-archive/ https://www.historyascode.com/tools-data/archive-it/ https://digitization.archive.org/pricing/ https://www.sfgate.com/tech/article/bay-area-warehouse-internet-archive-19858332.php https://vault-webservices.zendesk.com/hc/en-us/articles/22896482572180-Vault-Pricing-Model https://en.wikipedia.org/wiki/Hachette_v._Internet_Archive https://copyrightalliance.org/copyright-cases/hachette-book-group-internet-archive/ https://law.justia.com/cases/federal/appellate-courts/ca2/23-1260/23-1260-2024-09-04.html https://www.library.upenn.edu/news/hachette-v-internet-archive https://www.lutzker.com/ip_bit_pieces/internet-archives-open-library-and-copyright-law-the-final-chapter/ https://blog.archive.org/2023/08/17/what-the-hachette-v-internet-archive-decision-means-for-our-library/ https://www.musicbusinessworldwide.com/labels-settle-copyright-lawsuit-against-internet-archive-over-streaming-of-vintage-vinyl-records/ https://consequence.net/2025/09/internet-archive-labels-settle-copyright-lawsuit/ https://blog.archive.org/2025/09/15/an-update-on-the-great-78s-lawsuit/ https://giga.law/daily-news/2025/9/15/music-publishers-internet-archive-settle-lawsuit-over-old-recordings https://www.webpronews.com/internet-archive-settles-copyright-suit-with-sony-universal-over-vintage-records/ https://blog.archive.org/2025/07/ https://blog.archive.org/2018/07/21/decentralized-web-faq/ https://blog.archive.org/2016/06/23/decentalized-web-server-possible-approach-with-cost-and-performance-estimates/ https://blog.archive.org/2025/02/06/update-on-the-2024-2025-end-of-term-web-archive/ https://www.reddit.com/r/DataHoarder/comments/1ijkdjl/progress_update_from_the_end_of_term_web_archive/