Комплексны інжынерны і аперацыйны аналіз інтэрнэт-архіву Вынікі пошуку - the hum of history in the fog Калі вы стаіце тихі ў навазе былай цэрквы Хрысціянскай навукі на Funston Avenue ў Сан-Францыска ў Рычмондскім раёне, вы можаце чуць гук інтэрнэту дыханне. Гэта не хаотичны хрысціянскі мадэм або пінг паведамлення, але стабільны, прамысловы гум — нізкая частата трум, створаны сотнямі крутавых жорсткіх дыскаў і высокашчасных фан, якія ахольваюць іх. Тут, сярод перанакіраваных некласічных калонаў і драўляных палонаў будынка, пабудаванага для пакладання іншага роду перманентнасці, ляжыць фізічнае аб’яднанне «віртуальнага» свету. Мы схільныя думаць пра Інтэрнэт як эфірны хмар, месца без геаграфіі або масы. Але ў гэтым будынку, Інтэрнэт мае вагу. Ён мае цепла. Ён патрабуе электраэнергіі, абслугоўвання і пастаяннай бітвы супраць другога закону термодынамікі. З канца 2025 года, гэтая машына — калектыўна вядомы як —зархіваў больш за 1 трлн вэб-старонкаў.1 Ён захоўвае 99 петабайт унікальных дадзеных, колькасць, якая распаўсюджваецца на больш за 212 петабайт, калі ўлічваецца для запазычанасці і рэдакцыі.3 Машыны Wayback Машыны Wayback Варта адзначыць, што ў Call of Duty 4 місіі даюць вельмі шмат бонусаў і ачкоў развіцця, да таго ж, яны досыць цікавыя і незвычайныя - выконваць іх лёгка і нясумна. Гэтая даследаванне падыходзіць да механікі Інтэрнэт-архіву з дакладнасцю, як слёз. Мы адрэзаем шасі, каб вывучыць спецыяльна збудаваныя серверы PetaBox, якія агрэюць будынак без паветранага абсталявання. Мы праследуем эвалюцыю вэб-краўлераў — ад ранняга камп'ютарнага пакрыцця Alexa Internet да высакароджаных браўзэравых ботаў 2025 года. Мы аналізуем фінансавы рэжысёр гэтага бенефіціарнага гіганта, вывучаючы, як ён выжывае на бюджэце, які з'яўляецца круглай памылкай для суседзяў Сіліканскай доліны. І, нарэшце, мы глядзім у будучыню, дзе Гэта гісторыя 20 000 жорсткіх дыскаў, 45 кіламетраў кабелю, і бачанне, якое пачалося ў 1996 годзе з простай, смелай мэтай: "Універсальны доступ да Усяго Знання".7 Частка I. Тэрмодынаміка памяці Архітэктура PetaBox: інжынерыя для гусціны і цепла У серыі Інтэрнэт-архівы з'яўляецца PetaBox, сервер для захоўвання, распрацаваны супрацоўнікамі архіва, каб вырашаць канкрэтную праблему: захоўванне масіўнага аб'ёму дадзеных з мінімальным спажываннем электраэнергіі і вытворчасцю цепла. На пачатку 2000-х гадоў, рашэнні для захоўвання дадзеных для прадпрыемстваў ад гігантаў, такіх як EMC або NetApp, былі надзвычай каштоўнымі і энергетычнымі. Яны былі распрацаваны для высокашчасных транзакцыйных дадзеных, такіх як банкаўскія сістэмы або біржы - дзе мілісекунды латентнасці. , заснавальнік Archive і камп'ютарны інжынер, які раней заснаваў суперкомп'ютарную кампанію Thinking Machines, падышоў да праблемы з іншай філасофіяй. Уместо высокааператыўных RAID-арэяў, Archive пабудаваў PetaBox з выкарыстаннем спажывецкіх частак. Філасофія дызайну была радыкальнай для свайго часу: выкарыстоўваць «Just a Bunch of Disks» (JBOD) а не карысны RAID-контролеры, і спраўляцца з абмежаваннем дадзеных праз праграмнае забеспячэнне, а не апаратны.4 Брэсцкі касцёл Брэсцкі касцёл Вынікі пошуку - from terabytes to petabytes Першая рака PetaBox, якая працавала ў чэрвені 2004 года, была выяўленнем у глыбіні захоўвання. Ён меў 100 тэрабайт (ТБ) дадзеных — масіўная сума ў той час — у той час як выкарыстоўвае толькі каля 6 кілават энергіі.1 Для таго, каб сказаць гэта ў перспектыве, у 2003 годзе ўвесь Wayback Machine расціраўся па хуткасці толькі 12 тэрабайт у месяц. Інжынерныя спецыфікацыі PetaBox адлюстроўваюць бесперапыннае пошук густасці: Specification Generation 1 (2004) Generation 4 (2010) Current Generation (2024-2025) Capacity per Rack 100 TB 480 TB ~1.4 PB (1,400 TB) Drive Count ~40-80 drives 240 drives (2TB each) ~360+ drives (8TB+ each) Power per Rack 6 kW ~6-8 kW ~6-8 kW Heat Dissipation Utilized for building heat Utilized for building heat Utilized for building heat Processor Arch Low-voltage VIA C3 Intel Xeon E7-8870 (10-core) Modern High-Efficiency x86 Cooling Passive / Fan-assisted Passive / Fan-assisted Passive / Fan-assisted Капсулы для ракі 100 ТБ 480 ТБ ~ 1,4 PB (1,400 ТБ) Навагодні граф 40—80 працэнтаў 240 дыскаў (2 ТБ кожнага) ~360+ дыскаў (8Тб + кожны) Магутнасць на рак 6 кВт 6 — 8 кВт 6 — 8 кВт Теплая дысцыпліна Выкарыстанне для будаўніцтва цепла Выкарыстанне для будаўніцтва цепла Выкарыстанне для будаўніцтва цепла Архітэктура ARCH Нізкая напруга VIA C3 Intel Xeon E7-8870 (10-ядравы) Высокая эфектыўнасць x86 Холодны Пасіўны / Fan-Assisted Пасіўны / Fan-Assisted Пасіўны / Fan-Assisted 1 The fourth-generation PetaBox, introduced around 2010, exemplified this density. Each rack contained 240 disks of 2 terabytes each, organized into 4U high rack mounts. These units were powered by Intel Xeon processors (specifically the E7-8870 series in later upgrades) with 12 gigabytes of RAM. The architecture relied on bonding pair of 1-gigabit interfaces to create a 2-gigabit pipe, feeding into a rack switch with a 10-gigabit uplink.10 Да 2025 года ландшафт захоўвання змяніўся зноў. Актуальныя ракі PetaBox забяспечваюць 1,4 петабайт захоўвання на рак. Гэты скачок дасягаецца не забяспечваннем больш слотаў, а забяспечваннем значна большых дыскаў — 8 ТБ, 16 ТБ і нават 22 ТБ дыскаў з'яўляюцца цяпер стандартнымі. У 2016 годзе Архіў кіраваў каля 20 000 асобных дыскаў. Вынікі пошуку - black box experiment У 2007 годзе Архіў стаў раннім ухвальнікам Sun Microsystems "Blackbox" (пазней Sun Modular Datacenter). Гэта быў суднавы кантэйнер пакутаваны з Sun Fire X4500 "Thumper" серверамі для захоўвання, здольнымі захоўваць вялікія аб'ёмы дадзеных у пераносным, самастойнае адзінства. Гэты эксперымент валідаваў канцэпцыю контейнерных дата-цэнтраў — мадэль, якая пазней прынялася Microsoft і Google — але Archive зноў вярнуўся да сваіх нацыянальных дызайнаў PetaBox для іх першапачатковай ўнутранай інфраструктуры, пераканаўшы гнучкісць і нізкую кошт сваіх уласных дызайнаў абласнага абсталявання над уласнымі камерцыйнымі рашэннямі. Ахоўванне без паветранага абсталявання: Funston Loop «Аналіз паказаў, што выдатак кармавых адзінак на 1 кг прыбаўлення на старых комплексах значна перавышае гэтае значэнне на новых. Геаграфія і фізіка былі вырашэннем. Першапачатковы цэнтр дадзеных архіва размешчаны ў раёне Рычмонд у Сан-Францыскасе, суседстве, якое вядомы за вечны туман і халодны марскі клімат. Будынак выкарыстоўвае гэты асяроддзевы паветра для ахоўвання. У машынабудаванні PetaBox няма традыцыйнага паветранага абсталявання. Замест гэтага, серверы створаны, каб працаваць пры няшмат вышэйшых працоўных тэмпературах, а надзвычайная цепла, якая вырабляецца круцільнымі дыскамі, захоўваецца і рэцыркулюецца, каб пагрэсці будынак падчас туманных зимоў Сан-Францыскаса.9 «Аналіз паказаў, што выдатак кармавых адзінак на 1 кг прыбаўлення на старых комплексах значна перавышае гэтае значэнне на новых. Надзея і абслугоўванне: мадэль "Замяніць, калі мёртвы" Паводле інфармацыі, прадстаўленай камандай навуковых работнікаў, барацьба з інфекцыйнымі хваробамі штогод становіцца прычынай смерці тысяч людзей з усяго свету. // Радыё Свабода, 7 чэрвеня 2017 г. // Радыё Свабода, Радыё Свабода, Радыё Свабода, Радыё Свабода, Радыё Свабода, Радыё Свабода, Радыё Свабода, Радыё Свабода, Радыё Свабода, Радыё Свабода, Радыё Свабода, Радыё Свабода, Радыё Свабода, Радыё Свабода, Радыё Свабода, Радыё Свабода, Радыё Свабода, Радыё Свабода, Радыё Свабода, Радыё Свабода, Радыё Свабода. Для рэгістрацыі даменнага імя ў гэтай зоне неабходна звярнуцца ў кампанію The Electronic and Postal Communications Authority[1] (Албанія), якая з'яўляецца адзіным аўтарызаваным рэгістратарам даменаў у зоне al. Яны паказалі, што звычайны закон Пашэна для прабоя газу ў сталым электрычным полі выконваецца толькі для кароткіх разрадных трубак, у якіх стаўленне міжэлектроднага прамежку да радыусу трубкі L/R ≤ 1. Частка II: Дзіцячая дылема Сцягнуць рухавую місію Калі PetaBox - гэта мозг Архіва, то вэб-скаўнеры - гэта яго вочы.Архіваванне вэб-сайта - гэта не пасіўны працэс; гэта патрабуе актыўнага, агрэсіўнага праграмнага забеспячэння, якое бесперапынна пераступае спасылки World Wide Web, копіяваць ўсё, што ён знаходзіць. Спадчына Heritrix За большую частку сваёй гісторыі, Архіў разлічаў на краўлер, які называўся Развіты сумесна ў 2003 годзе Інтэрнэт-архівам і скандыцыйнымі нацыянальнымі бібліятэкамі (Норвегія і Ісландыя), Heritrix з'яўляецца Java-базавым, адкрытым кодавым скараўнікам, распрацаваным спецыяльна для архіўных вернасці. Ірландыя Ірландыя У адрозненні ад пошукавых мадэляў (такім як Googlebot), якія займаюцца перш за ўсё вывучэннем тэксту для пошукавай рэлевантнасці, Heritrix цікавіцца Ён спрабуе захоўваць точны стан вэб-страницы, уключаючы яго малюнкі, стылевыя лісты і ўбудаваныя аб'екты. Ён упакуе гэтыя актывы ў стандартны кантэйнерны фармат, вядомы як WARC (Web ARChive). Артыфакт Файл WARC з'яўляецца атамнай адзінкай Інтэрнэт-архіву. Ён захоўвае не толькі ўтрымліванне старонкі, але і «HTTP-заголоўкі» — лічбавы ручнік паміж серверам і браўзэрам, які адбыўся ў момант захоплення. І гэтая старонка была захоплена, Сервер дадаў яе, і З тых часоў мінула 19 гадоў. Калі Што Як Heritrix працуе з выкарыстаннем «Frontier» — складанай сістэмы кіравання часам, якая вырашае, якія URL-адрасы наведаць наступным чынам. Крыза дынамічнага вэба Аднак, Heritrix быў пабудаваны для больш простых вэб-сайтаў — вэб статычных HTML-файлаў і гіперссылкаў.Калі вэб-сайт эвалюваўся ў платформу дынамічных прыкладанняў (Web 2.0), сацыяльных медыяфайлаў і JavaScript-важкіх інтэрфейсаў, Heritrix пачаў сутыкацца. Heritrix захоўвае пачатковы HTML, пастаўлены серверам. Але на сучасным сайце, такіх як Twitter (цяпер X) або Facebook, гэта пачатковы HTML часта толькі пусты сцяг. Фактычны кантэнт загружаецца дынамічна кодам JavaScript, які працуе ў браўзэры карыстача Heritrix, будучы дурным спампаваць, не мог выканаць гэты код. Вынік быў часта зламаны, поўная школка старонкі — лічбавы гандлёвы горад. Потым Усход Броззлера і Умбры Для абароны «дынамічнай вэб-сайты» Архіву трэба было эвалюцыялізаваць свае інструменты. і Umbra, інструменты, якія замярзаюць лінію паміж краўлерам і вэб-браўзэрам. Бродзель Бродзель Brozzler (портмант «браўзэра» і «краўлера») выкарыстоўвае «безаглаўную» версію браўзэра Google Chrome, каб адлюстраваць старонкі такім чынам, як карыстальнік іх бачыць. Гэта дазваляе Архіву захаваць складаныя сайты, такія як Instagram і інтэрактыўныя газетныя артыкулы, якія былі б нявідомымі для традыцыйнага сканера.17 Раніцай Umbra дзейнічае як дапаможны інструмент, выкарыстоўваючы аўтаматызацыю браўзэра, каб імітаваць чалавечую паводзіну. Ён «пракручвае» ўніз старонку, каб выклікаць непаўторныя загрузкі, прамаўляецца над падарожнікамі, каб выявіць схаваныя спасылки, і націсніць на кнопкі. Гэтыя дзеянні выяўляюць новыя URL-адрасы, якія затым адпраўляюцца назад у схавальнік для захавання.17 Гэты схіл патрабуе значна больш вылічвальнай магутнасці.Рэнізацыя старонкі ў Chrome патрабуе ордэнаў магутнасці больш працэсараў, чым проста загрузіць тэкставы файл.Гэта прымусіла Архіў быць больш селектыўным і цікаўным у яго высокай вернасці скарачэнняў, зарэгістраваць рэсурсна-інтэнсіўны браўзэравы скарачэнне для высоказначных дынамічных сайтаў у той час як выкарыстоўваць больш лёгкія інструменты для статычнай вэб.17 Рэвалюцыя «Save Page Now» Сярод версій гульняў онлайн call of duty можна знайсці мноства займальных і дасціпных сюжэтаў, а апошняй навінкай, выпушчанай у канцы восені гэтага года, стала гульня Call of Duty: Ghost. Напарадкаваны гэтых браўзэр-базаваных тэхналогій, Save Page Now стала крытычным інструментам для журналістаў, даследчыкаў і фактак-тэккеры.У 2025 годзе гэта часта першая лінія абароны супраць спалучэння разрыву, дазваляючы карыстальнікам стварыць непаўторны запіс твіта або артыкула, перш чым ён выдаляецца або змяняецца. Сцягнуць Alexa Internet Заснаваная Брустер Кале ў 1996 годзе разам з Archive, Alexa была для прыбытку кампаніяй, якая скарацілася ў вэб-сайце, каб забяспечыць трафік аналітыкі (знакаміты "Alexa Rank"). На працягу амаль двух дзесяцігоддзяў Alexa была першапачатковым крыніцай дадзеных Архіву. Alexa скараціла б вэб-сайт для сваіх уласных камерцыйных цікаў, а затым даручыла дадзеныя скарачэння ў Інтэрнэт-архіў пасля тэрміну эмбарго. Гэтыя сімбіятычныя адносіны давалі Архіву масіўны, непаўторны поток дадзеных без неабходнасці запускаць сваю масіўную інфраструктуру скарачэння. Частка III: Эканаміка выжывання Фінансаванне незадаволеных Інтэрнэт-архіў спрабуе працаваць як адзін з найбольш наведвальных вэб-сайтаў у свеце на бюджэт, які шокавана скромны. Фінансавы Ledger Паводле фінансавых дадзеных (Фарму 990) і гадавых дадзеных, гадавы прыбытак Інтэрнэт-архівы варыцца ад $25 млн да $30 млн.7 У 2024 годзе, напрыклад, арганізацыя зарэгістравала прыкладна $26,8 млн у прыбытках супраць $23,5 млн у выдатках.25 Першапачатковы рухавік даходаў з'яўляюцца ўзносы і гранты, якія звычайна складаюць 60-70% агульнага доходу. Мікра-дастаўкі: «Вікіпедыя» мадэль просіць карыстальнікаў за $ 5 або $ 10. Галоўныя гранты: Фінансаванне з філантропных арганізацый, такіх як Фонд Mellon, Фонд Kahle / Austin і Фонд Filecoin.25 Іншая справа, як раскрыць душу героя... Калі мы кажам пра кіно, каб захаваць гэтую натуральнасць паўсядзённасці і выявіць драму, неабходны моцны сцэнарый. Архіў-ІТ: Гэта абслугоўванне дазваляе ўстановы (бібліятэкі, універсітэты, улады) стварыць свае ўласныя куратарскія вэб-архівы. Абслугоўванне пачынаецца каля $2,400 / год на 100 ГБ памяці і скараціцца да $12,000 / год на терабайт. Гэтая паслуга генеруе мільёны прыбыткаў, эфектыўна субсидуючы бясплатную Wayback Machine.27 Службы дэдытацыі: Архіў працуе цэнтрамі дэдытацыі, дзе ён скануе кнігі і іншыя носьбіты для партнёраў. Сканера кніг «Scribe» — нарматыўныя машыны з V-фарбаванымі крэсламі і камерцыйнымі педалямі — дазваляюць неразбуральна сканаваць кнігі.Партнёры плацяць за старонку (напрыклад, $0,15 на старонку за звязаныя кнігі) для дэдытацыі сваіх калекцый. Vault Services: Новая прапанова, Vault прапануе лічбавую ахоўку за адзін раз (напрыклад, $1,000 за терабайт). Гэтая "мадэль дастаўкі" дазваляе ўстановы плаціць адзін раз за вечнае абслугоўванне, станоўчы, што кошт захоўвання паменшыцца хутка, чым кошт на дастаўку.30 Кошт петабайта Варта адзначыць, што ў Call of Duty 4 місіі даюць вельмі шмат бонусаў і ачкоў развіцця, да таго ж, яны досыць цікавыя і незвычайныя - выконваць іх лёгка і нясумна. Разгледзіце кошт захоўвання 100 петабайт на Amazon S3. Па стандартных тарифах (~ $ 0,021 за ГБ у месяц), самое захоўванне каштуе больш за $ 2,1 млн у месяц. Аперацыйны бюджэт — для кадраў, будынкаў, юрыдычнай абароны і абсталявання — менш, чым кошт захоўвання іх дадзеных на AWS на год. Годнасць Асаблівасць абсталявання, выкарыстанне архітэктуры PetaBox высокай плённасці, ухіленне ад каштоўнасцяў паветранага абслугоўвання і выкарыстанне праграмнага забеспячэння адкрытага кода, Archive дасягае каштоўнай эфектыўнасці абслугоўвання, якая ў параўнанні з каштоўнасцямі камерцыйнага абслугоўвання. Частка IV: Юрыдычнае поле бітвы Калі перавагі спадзяюцца на права Інтэрнэт-архіў з'яўляецца місіяй "Універсальны доступ да ўсіх ведаў".Эта місія моральна пераканаўчая, але законна небяспечная.Калі Архіў распаўсюджваўся за прастыя вэб-сайты ў кнігі, музыку і праграмнае забеспячэнне, ён перайшоў з адносна бяспечнай гарызонты "імпліктнай ліцэнзіі" вэб-сайта ў цяжка абсталяваную тэрыторыю аўтарскага права. Нацыянальная бібліятэка і Hachette v. Інтэрнэт-архіў Hachette v. Інтэрнэт-архіў Напружанне выбухнуло ў 2020 годзе падчас пандэміі COVID-19. З закрыцццём фізічных бібліятэк, Архіў запусціў «Нацыянальную бібліятэку надзвычайных выпадкаў», зняўшы чакальныя лісты на сваёй дыяграфізаванай калекцыі кніг. Агулам, для мяне гэта тэкст — аб’яднаны, аформлены візуальна і вербальна. Тым не менш, у марцы 2023 года федэральны суддзя адмаўляў гэтую абарону, адказаўшы, што сканаўленне і падастаўленне архіва не было «справядлівым выкарыстаннем». Суд адказаў, што лічбавыя копіі канкурэнтуюць з уласнымі гандлёвымі рынкамі электронных кніг выданняў. Аргумент архіва пра тое, што яго выкарыстанне было «трансфармацыйным» (зробіць падастаўленне больш эфектыўным) быў адмовіты. У верасні 2024 года Другі апеляцыйны суд падтрымаў гэтае рашэнне, а да канца 2024 года архіў абвясціў, што ён не будзе апеляваць да Вярхоўнага суда.31 Распаўсюджваецца ў Архіў быў вымушаны выдаліць прыкладна 500 000 кніг з праграмы займання — у прыватнасці тых, для якіх існуе камерцыйная версія электроннай кнігі. Хаціна The Great 78 Project і Sony Settlement У той час як кніжная бітва разбуралася, другі фронт адчыніўся на аўдыёсайце. The Great 78 Project меў за мету дэдыталізаваць 78rpm запісаў з пачатку 20 стагоддзя. Гэтыя шэлакавыя дыскі слабыя, застарелыя і часта згубленыя. Архівы падкрэслілі, што дэдыталізацыя іх была імператарам захавання. Большыя рэкордныя лейблы, у тым ліку Sony Music і Universal Music Group, не згодныя.У 2023 годзе яны паскардзіліся, заяўляючы, што праект функцыянаваў як «нелегальны рэкордны магазин», які парушыў аўтарскія правы на тысячы песень такіх артыстаў, як Фрэнк Сінатра і Білі Holiday. У верасні 2025 года гэтае пажаданне таксама дасягнула вырашэння. У той час як тэрміны застаюцца канфліктнымі, рашэньне дазволіла Архіве пазбегнуць паспрабавання, якое можа выклікаць банкруцтва. Але неадкладнае наступства змяніла доступ да многіх аўдыёзапісаў, якія абаронены аўтарам, абмежаваючы іх да даследчыкам, а не агульнай публіцы. Гэтая мадэль — размяшчэнне і затым абмежаванне — азначае новую рэальнасць для Інтэрнэт-Архіў у 2025 годзе: адступленне ад падыходу «поспеху і разбурэння рэчаў» да больш абмежаванай, законна абмежаванай мадэлі захавання.39 Федэральны дэпазітарны щит У асноўным стратэгічным перамозе сярод гэтых страт, Інтэрнэт-архіў быў прызначаны як Федэральная дэпазітарная бібліятэка (FDL) Сената ЗША ў ліпені 2025 года.7 Гэты статус больш чым проста назва; гэта легальна ўмацавае Архіў, каб збіраць, захаваць і даць доступ да публікацый улады ЗША. Хоць гэта не стварае сур'ёзных праблем для большасці людзей, гэта можа абмежаваць даступныя амінакіслоты ў крыві для выкарыстання пасля фізічных практыкаванняў (32). Частка V: Праверка будучыні ў мінулым Дэцентралізацыя і «канца тэрміну» Прадстаўляем вашай увазе гадавую справаздачу АПБ за 2010 г., у якую увайшлі нашы дасягненні за мінулы год. Дэцентралізаваны Веб (DWeb) Гэты курс дае вам усё, што вам трэба ведаць пра Microsoft Access, а не Microsoft Access. Тэхалагічна гэта патрабуе інтэграцыі з пратаколамі, такімі як IPFS (Interplanetary File System) і Filecoin. IPFS: дазваляе кантэнт адпрацаваць яго крыптографічны хаш (каго ён ёсць) а не яго месца (куды ён знаходзіцца). У 2025 годзе Архіў пачаў загружаць крытычныя калекцыі, такія як «End of Term» урадныя вэб-архівы, у сетку Filecoin для халоднага захоўвання. 2025 год — «Край часу» Кожныя чатыры гады Архіў вядзе масіўную спробу скараціць (dot)gov і (dot)mil вэб-сайты перад прэзідэнцкім пераходам. 2024/2025 скарачэнне было найбуйнейшым у гісторыі, захоўваючы больш за 500 тэрабайт ураджайных дадзеных.45 Гэты праект падкрэслівае ролю Архіва як наглядальніка гісторыі, забяспечваючы, што кліматычныя дадзеныя, дадзеныя перапісу, і дакументы палітыкі не знікнуць, калі новая адміністрацыя ўзяе ўдзел. Генератыўны AI і справядлівае выкарыстанне Я адправіў электронную пошту Brewser Kahle аб 2025 і генератыўнага AI, і тут яго цитата: «Generative AI прымусіла некаторыя вэб-сайты дасягнуць доларовых знакаў, блокаючы іх сайты або запускаючы справы. Гэта не дапамагае ўстаноўкам культурнай спадчыны, такім як Інтэрнэт-архіў і часта раняе карыстальнікаў у цэлым. «Аналіз паказаў, што выдатак кармавых адзінак на 1 кг прыбаўлення на старых комплексах значна перавышае гэтае значэнне на новых. «Generative AI прымусіла некаторыя вэб-сайты дасягнуць доларовых знакаў, блокаючы іх сайты або запускаючы справы. Гэта не дапамагае ўстаноўкам культурнай спадчыны, такім як Інтэрнэт-архіў і часта раняе карыстальнікаў у цэлым. «Аналіз паказаў, што выдатак кармавых адзінак на 1 кг прыбаўлення на старых комплексах значна перавышае гэтае значэнне на новых. Вынікі пошуку - the long now Іншая справа, як раскрыць душу героя... Калі мы кажам пра кіно, каб захаваць гэтую натуральнасць паўсядзённасці і выявіць драму, неабходны моцны сцэнарый. Падзеі 2025 года — «Трыльённая страница» — мястэчка, болейшыя юрыдычныя пасяджэння і павароты да дэцентралізованага захоўвання — адзначаюць зрост арганізацыі. Гэта не больш «вільёны захад» ранняй вэб-сайта. Гэта разбітая, але рэзкі інстытут, адаптаваючы сваю машыну і сваю місію, каб выжываць у свеце, які з цягам часу становіцца нармальным да канцэпцыі бясплатнага, універсальнага доступу. Тым часам, як у нас словы “грамадскае” і “занядбанае” часам успрымаюцца як сінонімы, у Каталоніі грамадскія тэрыторыі — тыя ж пляжы — даглядаюцца так, як у іншых краінах VIP-аўскія. Реферат Wayback Machine - Вікіпедыя, даступная 8 студзеня 2026 года, https://en.wikipedia.org/wiki/Wayback_Machine Глядзець назад на “Захоўванне Інтэрнэту” з 1996 года IP Internet Archive Блогі, даступны 8 студзеня 2026 года, https://blog.archive.org/2025/09/02/looking-back-on-preserving-the-internet-from-1996/ Petabox - Інтэрнэтны архіў, даступны 8 студзеня 2026 года, https://archive.org/web/petabox.php PetaBox - Вікіпедыя, даступная 8 студзеня 2026 года, https://en.wikipedia.org/wiki/PetaBox IPFS: Будаўнічыя блокі для лепшага вэб-сайта IPFS, даступны 8 студзеня 2026 года, https://ipfs.tech/ internetarchive/dweb-archive - GitHub, даступны 8 студзеня 2026 года, https://github.com/internetarchive/dweb-archive Інтэрнэт-архіў - Вікіпедыя, даступная 8 студзеня 2026 года, https://en.wikipedia.org/wiki/Internet_Archive Вытворчасць Веб-памяці з PetaBox - eWeek, даступная 8 студзеня 2026 года, https://www.eweek.com/storage/making-web-memories-with-the-petabox/ PetaBox - Internet Archive Неафіцыйная вікі, даступная 8 студзеня 2026 года, https://internetarchive.archiveteam.org/index.php/PetaBox The Fourth Generation Petabox eBay Internet Archive Blogs, accessed 8 студзеня 2026 https://blog.archive.org/2010/07/27/the-fourth-generation-petabox/ Internet Archive Hits One Trillion Web Pages - Hackaday, accessed 8 студзеня 2026, https://hackaday.com/2025/11/18/internet-archive-hits-one-trillion-web-pages/ Internet Archive's Wayback Machine атрымае новы дата-цэнтр - Computerworld, даступны 8 студзеня 2026 года, https://www.computerworld.com/article/1562759/the-internet-archive-s-wayback-machine-gets-a-new-data-center.html Internet Archive to Live in Sun Blackbox - Data Center Knowledge, доступны 8 студзеня 2026 года, https://www.datacenterknowledge.com/business/internet-archive-to-live-in-sun-blackbox Inside the Internet Archive: A Meat World Tour, Root Simple, даступны 8 студзеня 2026 года, https://www.rootsimple.com/2023/08/inside-the-internet-archive-a-meat-world-tour/ Internet Archive Preserves Data from World Wide Web - Richmond Review/Sunset Beacon, даступны 8 студзеня 2026 года, https://richmondsunsetnews.com/2017/03/11/internet-archive-preserves-data-from-world-wide-web/ Heritrix - Вікіпедыя, даступная 8 студзеня 2026 года, https://en.wikipedia.org/wiki/Heritrix Archive-It Crawling Technology, даступна 8 студзеня 2026 года https://support.archive-it.org/hc/en-us/articles/115001081186-Archive-It-Crawling-Technology WARCreate: Create Wayback-Consumable WARC Files From Any Webpage - ODU Digital Commons, accessed January 8, 2026, https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1154&context=computerscience_fac_pubs The WARC Format - IIPC Community Resources, доступны 8 студзеня 2026 года https://iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1/ Што такое heritrix? - Hall: AI, доступны 8 студзеня 2026 года, https://usehall.com/agents/heritrix-bot Архівуючы вэб-сайты, якія змяшчаюць стрэймінг медыя, даступныя 8 студзеня 2026 года https://library.imaging.org/admin/apis/public/api/ist/website/downloadArticle/archiving/14/1/art00004 Март 2025 г. Internet Archive Блогі, даступныя 8 студзеня 2026 г., https://blog.archive.org/2025/03/ Alexa Crawls - Інтэрнэт-архіў, даступны 8 студзеня 2026 года, https://archive.org/details/alexacrawls Alexa Internet - Вікіпедыя, даступная 8 студзеня 2026 года, https://en.wikipedia.org/wiki/Alexa_Internet Internet Archive - Nonprofit Explorer - ProPublica, даступна 8 студзеня 2026 года https://projects.propublica.org/nonprofits/organizations/943242767 Актуальнасць 2024/2025 End of Term Web Archive - Ben Werdmuller, даступная 8 студзеня 2026 года, https://werd.io/update-on-the-20242025-end-of-term-web-archive/ Архіў-Гісторыя як код, даступная 8 студзеня 2026 года, https://www.historyascode.com/tools-data/archive-it/ Ціна - Internet Archive Digitization Services, даступная 8 студзеня 2026 года, https://digitization.archive.org/pricing/ Случайны склад Bay Area, у якім знаходзіцца адзін з найбуйнейшых архіваў чалавецтва - SFGATE, даступны 8 студзеня 2026 года, https://www.sfgate.com/tech/article/bay-area-warehouse-internet-archive-19858332.php Vault Pricing Model - Vault Support, доступны 8 студзеня 2026 года https://vault-webservices.zendesk.com/hc/en-us/articles/22896482572180-Vault-Pricing-Model Hachette v. Internet Archive - Вікіпедыя, даступная 8 студзеня 2026 года, https://en.wikipedia.org/wiki/Hachette_v._Internet_Archive Hachette Book Group, Inc. v. Internet Archive, Copyright Cases, даступна 8 студзеня 2026 года, https://copyrightalliance.org/copyright-cases/hachette-book-group-internet-archive/ Hachette Book Group, Inc. v. Internet Archive, No. 23-1260 (2d Cir. 2024) - Justia Law, даступны 8 студзеня 2026 года, https://law.justia.com/cases/federal/appellate-courts/ca2/23-1260/23-1260-2024-09-04.html Hachette Book Group v. Internet Archive and the Future of Controlled Digital Lending, доступны 8 студзеня 2026 года, https://www.library.upenn.edu/news/hachette-v-internet-archive Internet Archive's Open Library and Copyright Law: The Final Chapter, accessed January 8, 2026, https://www.lutzker.com/ip_bit_pieces/internet-archives-open-library-and-copyright-law-the-final-chapter/ Што значыць для нашай бібліятэкі Hachette v. Internet Archive Decision, даступна 8 студзеня 2026 года https://blog.archive.org/2023/08/17/what-the-hachette-v-internet-archive-decision-means-for-our-library/ Labels settle copyright lawsuit against Internet Archive over streaming of vintage vinyl records - Music Business Worldwide, accessed January 8, 2026, https://www.musicbusinessworldwide.com/labels-settle-copyright-lawsuit-against-internet-archive-over-streaming-of-vintage-vinyl-records/ Internet Archive Settles $621 Million Lawsuit with Major Labels Over Vinyl Preservation Project - Consequence.net, accessed January 8, 2026, https://consequence.net/2025/09/internet-archive-labels-settle-copyright-lawsuit/ Актуальнасць на Блогах Інтэрнэт-архіву Вялікага 78-х гадоў, даступная 8 студзеня 2026 года, https://blog.archive.org/2025/09/15/an-update-on-the-great-78s-lawsuit/ Music Publishers, Internet Archive Settle Lawsuit Over Old Recordings - GigaLaw, accessed January 8, 2026, https://giga.law/daily-news/2025/9/15/music-publishers-internet-archive-settle-lawsuit-over-old-recordings Internet Archive Settles Copyright Suit with Sony, Universal Over Vintage Records, accessed January 8, 2026, https://www.webpronews.com/internet-archive-settles-copyright-suit-with-sony-universal-over-vintage-records/ Лістапад 2025 - Блогі Інтэрнэт-архіву, даступныя 8 студзеня 2026 года, https://blog.archive.org/2025/07/ Decentralized Web FAQ - Internet Archive Blogs, accessed 8 студзеня 2026, https://blog.archive.org/2018/07/21/decentralized-web-faq/ Decentralized Web Server: Possible Approach with Cost and Performance Estimates, accessed January 8, 2026, https://blog.archive.org/2016/06/23/decentalized-web-server-possible-approach-with-cost-and-performance-estimates/ Актуализация на 2024/2025 End of Term Веб-архіў eBay Internet ..., даступная 8 студзеня 2026, https://blog.archive.org/2025/02/06/update-on-the-2024-2025-end-of-term-web-archive/ Актуальнасць працэсу з The End of Term Web Archive: 100 мільёнаў вэб-пажаданняў, больш за 500 ТБ дадзеных : r/DataHoarder - Reddit, даступная 8 студзеня 2026 года, https://www.reddit.com/r/DataHoarder/comments/1ijkdjl/progress_update_from_the_end_of_term_web_archive/ https://en.wikipedia.org/wiki/Wayback_Machine https://blog.archive.org/2025/09/02/looking-back-on-preserving-the-internet-from-1996/ https://archive.org/web/petabox.php https://en.wikipedia.org/wiki/PetaBox https://ipfs.tech/ https://github.com/internetarchive/dweb-archive https://en.wikipedia.org/wiki/Internet_Archive https://www.eweek.com/storage/making-web-memories-with-the-petabox/ https://internetarchive.archiveteam.org/index.php/PetaBox https://blog.archive.org/2010/07/27/the-fourth-generation-petabox/ https://hackaday.com/2025/11/18/internet-archive-hits-one-trillion-web-pages/ https://www.computerworld.com/article/1562759/the-internet-archive-s-wayback-machine-gets-a-new-data-center.html https://www.datacenterknowledge.com/business/internet-archive-to-live-in-sun-blackbox https://www.rootsimple.com/2023/08/inside-the-internet-archive-a-meat-world-tour/ https://richmondsunsetnews.com/2017/03/11/internet-archive-preserves-data-from-world-wide-web/ https://en.wikipedia.org/wiki/Heritrix https://support.archive-it.org/hc/en-us/articles/115001081186-Archive-It-Crawling-Technology https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1154&context=computerscience_fac_pubs https://iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1/ https://usehall.com/agents/heritrix-bot https://library.imaging.org/admin/apis/public/api/ist/website/downloadArticle/archiving/14/1/art00004 https://blog.archive.org/2025/03/ https://archive.org/details/alexacrawls https://en.wikipedia.org/wiki/Alexa_Internet https://projects.propublica.org/nonprofits/organizations/943242767 https://werd.io/update-on-the-20242025-end-of-term-web-archive/ https://www.historyascode.com/tools-data/archive-it/ https://digitization.archive.org/pricing/ https://www.sfgate.com/tech/article/bay-area-warehouse-internet-archive-19858332.php https://vault-webservices.zendesk.com/hc/en-us/articles/22896482572180-Vault-Pricing-Model https://en.wikipedia.org/wiki/Hachette_v._Internet_Archive https://copyrightalliance.org/copyright-cases/hachette-book-group-internet-archive/ https://law.justia.com/cases/federal/appellate-courts/ca2/23-1260/23-1260-2024-09-04.html https://www.library.upenn.edu/news/hachette-v-internet-archive https://www.lutzker.com/ip_bit_pieces/internet-archives-open-library-and-copyright-law-the-final-chapter/ https://blog.archive.org/2023/08/17/what-the-hachette-v-internet-archive-decision-means-for-our-library/ https://www.musicbusinessworldwide.com/labels-settle-copyright-lawsuit-against-internet-archive-over-streaming-of-vintage-vinyl-records/ https://consequence.net/2025/09/internet-archive-labels-settle-copyright-lawsuit/ https://blog.archive.org/2025/09/15/an-update-on-the-great-78s-lawsuit/ https://giga.law/daily-news/2025/9/15/music-publishers-internet-archive-settle-lawsuit-over-old-recordings https://www.webpronews.com/internet-archive-settles-copyright-suit-with-sony-universal-over-vintage-records/ https://blog.archive.org/2025/07/ https://blog.archive.org/2018/07/21/decentralized-web-faq/ https://blog.archive.org/2016/06/23/decentalized-web-server-possible-approach-with-cost-and-performance-estimates/ https://blog.archive.org/2025/02/06/update-on-the-2024-2025-end-of-term-web-archive/ https://www.reddit.com/r/DataHoarder/comments/1ijkdjl/progress_update_from_the_end_of_term_web_archive/