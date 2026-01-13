Комплексен инженерно-оперативен анализ на интернет архива Оригинално име: The Hum of History in the Fog Ако стоите тихо в кораба на бившата църква на християнската наука на Фунстън авеню в Сан Франциско Ричмънд, можете да чуете звука на дишането на интернет. Това не е хаотичният вик на модем за повикване или пинг на известие, а стабилен, индустриален шум – нискочестотен тром, генериран от стотици въртящи се твърди дискове и високоскоростните фенове, които ги охлаждат. Тук, сред преработените неокласически колони и дървени пръчки на сграда, построена, за да почита различен вид постоянство, се крие физическата проява на "виртуалния" свят. Ние сме склонни да мислим за интернет като етеричен облак, място без география или маса. Но в тази сграда, интернет има тегло. Той има топлина. Той изисква електричество, поддръжка и постоянна битка срещу втория закон на термодинамиката. Той съдържа 99 петабайта уникални данни, число, което се разширява до над 212 петабайта, когато се отчитат резервните копия и изчерпването.3 Wayback машина Wayback машина Мащабът на операцията е зашеметяващ, но инженерното предизвикателство е още по-дълбоко.Как изграждате машина, която може да поглъща разпространената, динамична и постоянно променяща се World Wide Web в реално време?Как съхранявате тези данни в продължение на векове, когато средният твърд диск трае само няколко години?И може би най-критично, как плащате за електричеството, честотната лента и средствата за правна защита, необходими за запазване на светлините в епоха, в която авторското право и цифровото опазване са заключени в сблъсък с високи залози? Този доклад проследява механиката на интернет архива с прецизността на сълзотворяване. Ще премахнем шасито, за да разгледаме персонализираните PetaBox сървъри, които отопляват сградата без климатик. Ще проследим еволюцията на уеб сканиращите устройства – от ранните лентови отпадъци на Alexa Internet до сложните ботове, базирани на браузър през 2025 г. Ще анализираме финансовия регистър на този нестопански гигант, като изследваме как той оцелява на бюджет, който е закръгляваща грешка за съседите си в Силициевата долина. И накрая, ще погледнем към бъдещето, където „Децентрализираната мрежа“ (DWeb) обещава да раздели архива на един милион пар Това е история за 20 000 твърди диска, 45 мили кабелиране и визия, която започва през 1996 г. с проста, смела цел: "Универсален достъп до всички знания".7 Част I: Термодинамиката на паметта Архитектурата на PetaBox: Инженеринг за плътност и топлина В сърцето на интернет архива е PetaBox, сървър за съхранение, проектиран по поръчка от персонала на Archive за решаване на конкретен проблем: съхранение на огромни количества данни с минимално потребление на енергия и генериране на топлина. В началото на 2000-те години, решенията за корпоративно съхранение от гиганти като EMC или NetApp бяха изключително скъпи и гладни за енергия. Те бяха предназначени за високоскоростни транзакционни данни – като банкови системи или фондови борси – където милисекунди закъснение са от значение. , основателят на Archive и компютърен инженер, който по-рано е основал суперкомпютърната компания Thinking Machines, подхожда към проблема с различна философия.Вместо високопроизводителни RAID масиви, Archive е построил PetaBox, използвайки потребителски части.Философията на дизайна е радикална за своето време: използвайте "Just a Bunch of Disks" (JBOD) вместо скъпи RAID контролери и се справяте с излишъка от данни чрез софтуер, а не хардуер.4 Brewster Kahle Брюксел Кале Еволюцията на плътността: от терабайти до петабайти Траекторията на PetaBox е случайно проучване в Закона на Мур, приложено към магнитното съхранение. Първият рафт PetaBox, работещ през юни 2004 г., беше откровение по отношение на плътността на съхранението. Той държеше 100 терабайта (TB) данни – огромна сума по онова време – докато консумираше само около 6 киловата мощност.1 За да се каже това в перспектива, през 2003 г. цялата Wayback Machine се разрастваше със скорост от само 12 терабайта на месец. Инженерните спецификации на PetaBox разкриват неумолимо преследване на плътността: \n \n \n \n \n \n \n \n \n \n \n \n \n \n Specification \n Generation 1 (2004) \n Generation 4 (2010) \n Current Generation (2024-2025) \n \n \n \n \n \n Capacity per Rack \n 100 TB \n 480 TB \n ~1.4 PB (1,400 TB) \n \n \n \n \n \n Drive Count \n ~40-80 drives \n 240 drives (2TB each) \n ~360+ drives (8TB+ each) \n \n \n \n \n \n Power per Rack \n 6 kW \n ~6-8 kW \n ~6-8 kW \n \n \n \n \n \n Heat Dissipation \n Utilized for building heat \n Utilized for building heat \n Utilized for building heat \n \n \n \n \n \n Processor Arch \n Low-voltage VIA C3 \n Intel Xeon E7-8870 (10-core) \n Modern High-Efficiency x86 \n \n \n \n \n \n Cooling \n Passive / Fan-assisted \n Passive / Fan-assisted \n Passive / Fan-assisted Капацитет на ракетата 100 тб 480 тб ~ 1,4 PB (1 400 TB) Шофиране Граф 40 – 80 шофьори 240 дискове (2TB всеки) ~360+ дискове (8TB+ всеки) Сила на ракетата 6 кВт от 6 до 8 kW от 6 до 8 kW Топлоразпръскване Използва се за отопление на сгради Използва се за отопление на сгради Използва се за отопление на сгради Процесор Arch Ниско напрежение Via C3 Intel Xeon E7-8870 (10 ядра) Съвременни високоефективни x86 охлаждане Пасивно / Fan-Assisted Пасивно / Fan-Assisted Пасивно / Fan-Assisted 1 Четвъртото поколение PetaBox, въведено около 2010 г., е пример за тази плътност. Всеки рафт съдържа 240 диска с 2 терабайта всеки, организирани в 4U високи рафтове. Тези единици са задвижвани от процесори Intel Xeon (по-специално серията E7-8870 в по-късните надстройки) с 12 гигабайта RAM. Архитектурата разчита на свързване на двойка 1-гигабитни интерфейси, за да създаде 2-гигабитна тръба, захранваща се в рафтов превключвател с 10-гигабитна uplink.10 Към 2025 г. ландшафтът на съхранението отново се е променил. Настоящите рафтове на PetaBox осигуряват 1,4 петабайта място за съхранение на рафт. Този скок се постига не чрез добавяне на повече слотове, а чрез използване на значително по-големи дискове – 8 ТБ, 16 ТБ и дори 22 ТБ дискове са вече стандартни. През 2016 г. Archive управлява около 20 000 отделни дискове. Експериментът „Черната кутия“ В търсене на ефективно съхранение, Архивът също така експериментира с модулни центрове за данни. През 2007 г. Архивът се превърна в ранно приемане на Sun Microsystems "Blackbox" (по-късно Sun Modular Datacenter). Това беше контейнер за доставка, пълен с Sun Fire X4500 "Thumper" сървъри за съхранение, способни да държат огромни количества данни в преносим, самостоятелно съдържащ се блок. Този експеримент валидира концепцията за контейнеризирани центрове за данни - модел, приет по-късно от Microsoft и Google - но Archive в крайна сметка се върна към своите персонализирани PetaBox дизайни за тяхната основна вътрешна инфраструктура, благоприятствайки гъвкавостта и по-ниските разходи на собствените си дизайни за хардуер с отворен код над собствените търговски решения. Охлаждане без климатик: Funston Loop Една от най-изобретателните характеристики на инфраструктурата на Архива е неговата система за топлинно управление.Центровете за данни са известни с енергийна интензивност, често харчат толкова електроенергия за охлаждане (HVAC), колкото и за изчисления. Решението беше география и физика. Основният център за данни на архива се намира в район Ричмънд в Сан Франциско, район, известен със своята вечна мъгла и хладен морски климат. Сградата използва този въздух за охлаждане. В машинните стаи на PetaBox няма традиционна климатизация. Вместо това сървърите са проектирани да работят при малко по-високи работни температури, а излишната топлина, генерирана от въртящите се дискове, се улавя и рециркулира, за да се затопли сградата по време на мразовитите зими в Сан Франциско.9 Тази система за „отпадъчна топлина“ е затворен цикъл на ефективност. Над 60 киловата топлинна енергия, произведена от кластер за съхранение, не е страничен продукт, който трябва да се елиминира, а ресурс, който трябва да се събере. Този избор на дизайн драстично понижава съотношението на ефективността на използването на енергия (PUE) на съоръжението, което позволява на Архива да харчи ограничените си средства за твърди дискове, а не за сметки за електроенергия. Това е буквално прилагане на мантрата „намалявай, използвай, рециклирай“ към термодинамиката на съхранението на данни.3 Надеждност и поддръжка: Моделът "Заместване, когато е мъртъв" С повече от 28 000 въртящи се дискове в експлоатация, неуспехът на устройството е статистическа сигурност.3 В традиционния корпоративен център за данни, неуспехът на устройството задейства незабавен, отвратителен протокол за замяна, за да поддържа „пет девет“ (99,999%) надеждност. Данните се отразяват на множество машини, често на различни физически места (включително центрове за данни в Редвуд Сити и Ричмънд, Калифорния, и копия в Европа и Канада).12 Тъй като данните не са „критични за мисията“ по смисъла на жива банкова транзакция, Архивът може да толерира определен брой мъртви дискове в един възел, преди да се изисква физическа поддръжка. Този дизайн с ниска степен на поддръжка позволява на много малък екип – исторически само един системен администратор на петабайт данни – да управлява империя на съхранение, която се конкурира с тези на големите технологични корпорации.Системата използва инструмента за мониторинг Nagios, за да проследява здравето на над 16 000 различни контролни точки в кластера, предупреждавайки малките служители само когато се достигне критичен праг на неуспех.8 Част втора: Дилемата на Краулинг Заснемане на движеща се цел Архивирането на мрежата не е пасивен процес; изисква активен, агресивен софтуер, който неуморно пресича връзките на World Wide Web, копирайки всичко, което намира. Наследството на Heritrix През по-голямата част от историята си Архивът разчиташе на сканер, наречен Разработен съвместно през 2003 г. от Internet Archive и скандинавските национални библиотеки (Норвегия и Исландия), Heritrix е Java-базиран, отворен код сканер, предназначен специално за архивна верност. Еритрекс Еритрекс За разлика от търсачката (като Googlebot), която се грижи предимно за извличане на текст за търсене, Heritrix се грижи за Той се опитва да заснеме точното състояние на уеб страница, включително нейните изображения, стилови листове и вградени обекти.Той опакова тези активи в стандартизиран формат за контейнери, известен като WARC (Web ARChive). Артикулът Файлът WARC е атомната единица на интернет архива. Той съхранява не само съдържанието на страницата, но и "HTTP заглавията" - цифровото ръкостискане между сървъра и браузъра, което се е случило в момента на улавянето. Страница е заловена, сървърът го е доставил, и Връзката е договорена.19 когато Какво Как Heritrix работи с помощта на "Frontier" - усъвършенствана система за управление на опашката, която решава кои URL адреси да посетите по-нататък.Тя се придържа към строги политики за "учтивост", зачита протоколите за изключване на robots.txt и ограничава честотата на заявките, за да избегне срив на целевите сървъри.16 Кризата на динамичната мрежа Въпреки това, Heritrix е построен за по-проста мрежа - мрежа от статични HTML файлове и хипервръзки.Като мрежата се е развила в платформа от динамични приложения (Web 2.0), социални медийни потоци и JavaScript-тежки интерфейси, Heritrix започна да се сблъсква. Heritrix улавя първоначалния HTML, доставен от сървъра. Но на съвременен сайт като Twitter (сега X) или Facebook, този първоначален HTML често е просто празен капак. Heritrix, като глупав изтеглящ софтуер, не може да изпълни този код.Резултатът често е счупена, празна обвивка на страница – цифров град-призрак.17 След Възходът на Брозлер и Умбра За да се бори с "динамичната мрежа", Архивът трябваше да развие своите инструменти. и Umbra, инструменти, които замъгляват границата между сканиране и уеб браузър. Брошъл Брошъл Brozzler (портмантео на "браузър" и "краулер") използва "безглавна" версия на браузъра Google Chrome, за да показва страниците точно така, както ги вижда потребителят. Това позволява на Архива да запази сложни сайтове като Instagram и интерактивни новинарски статии, които биха били невидими за традиционния сканер. преди Umbra действа като помощно средство, като използва автоматизацията на браузъра, за да имитира човешкото поведение. Той "прокручва" страница, за да задейства безкрайно зареждане на потоци, прелиства падащи менюта, за да разкрие скрити връзки, и кликвания върху бутони. Тези действия разкриват нови URL адреси, които след това се подават обратно в сканиращия инструмент за улавяне.17 Тази промяна изисква значително по-голяма изчислителна мощност.Изработването на страница в Chrome отнема много повече цикли на процесора, отколкото просто изтегляне на текстов файл.Това принуди архива да бъде по-селективен и целенасочен в своите сканирания с висока надеждност, като запази ресурсно интензивното сканиране на браузъра за динамични сайтове с висока стойност, докато използва по-леки инструменти за статичния уеб.17 Революцията на „Save Page Now“ Може би най-значимата технологична промяна през последните години е демократизацията на сканирането.Функцията Save Page Now позволява на всеки потребител незабавно да задейства сканирането на конкретен URL адрес. Поддържана от тези базирани на браузър технологии, Save Page Now се превърна в критичен инструмент за журналисти, изследователи и проверяващи факти. През 2025 г. тя често е първата линия на защита срещу разваляне на връзката, позволявайки на потребителите да създават непроменлив запис на туит или статия за новини секунди преди да бъде изтрита или променена.1 Свързване с интернет Alexa Невъзможно е да се обсъди историята на архива, без да се споменава Alexa Internet.Основана от Brewster Kahle през 1996 г. заедно с Archive, Alexa е печеливша компания, която сканира мрежата, за да осигури анализ на трафика (известната "Alexa Rank"). В продължение на почти две десетилетия Alexa е основният източник на данните на Архива. Alexa ще сканира мрежата за собствени търговски цели и след това ще дари данните за сканиране на Интернет Архива след период на ембарго. Тази симбиотична връзка осигурява на Архива масивен, непрекъснат поток от данни, без да е необходимо да управлява собствената си масивна инфраструктура за сканиране. Част III: Икономиката на оцеляването Финансиране на нерентабилните Изпълнението на глобален уебсайт от най-високо ниво обикновено изисква бюджет от Google или Meta. Internet Archive успява да функционира като един от най-посещаваните уебсайтове в света с бюджет, който е шокиращо скромен. Финансовият Ledger Според финансовите доклади (формуляр 990) и годишните отчети, годишните приходи на интернет архива варират между 25 милиона и 30 милиона долара.7 Например през 2024 г. организацията отчита приблизително 26,8 милиона долара приходи срещу 23,5 милиона долара разходи.25 Основният двигател на приходите са вноските и безвъзмездните средства, които обикновено представляват 60-70% от общия доход. \n \n \n Микродонации: "Википедия модел" на искане на потребителите за $ 5 или $ 10. Основни безвъзмездни средства: Финансиране от благотворителни организации като Фондация Mellon, Фондация Kahle/Austin и Фондация Filecoin.25 Вторият основен източник на приходи е Program Services, по-специално услугите за дигитализация и архивиране. \n \n \n \n Архив-Това: Тази услуга за абонамент позволява на институциите (библиотеки, университети, правителства) да създават свои собствени уеб архиви. абонаментите започват от около 2400 долара годишно за 100 GB място за съхранение и се разширяват до 12 000 долара годишно за терабайт. Услуги за дигитализация: Архивът управлява центрове за дигитализация, където сканира книги и други медии за партньори. „Спишете“ скенерите за книги – персонализирани машини с V-образни крила и камери с педал – позволяват неразрушително сканиране на книги. Vault Services: По-нова оферта, Vault предоставя дигитално съхранение за еднократна такса (напр. $1,000 на терабайт). Този "модел на дарение" позволява на институциите да плащат веднъж за постоянно съхранение, като се обзалагат, че разходите за съхранение ще намалеят по-бързо от лихвите за дарение.30 Цената на един петабайт От разходната страна на счетоводната книга доминират заплатите и заплатите (около половината от бюджета) и ИТ инфраструктурата. „Икономиката на PetaBox“ на архива обаче му позволява да съхранява данни на фракция от разходите на търговските доставчици на облачни услуги. Помислете за разходите за съхранение на 100 петабайта на Amazon S3.При стандартни цени (~ $ 0,021 на GB на месец), самото съхранение ще струва над $ 2,1 милиона на месец. Оперативният бюджет – за персонал, сгради, правна защита и хардуер – е по-малко от това, което би струвало да съхранявате данните си в AWS за една година. Годишни Чрез притежаване на хардуера си, използване на архитектурата с висока плътност PetaBox, избягване на разходите за климатизация и използване на софтуер с отворен код, Архивът постига разходоефективност на съхранението, която е по-добра от цените на търговските облаци.25 Част IV: Правното бойно поле Когато съхранението отговаря на авторското право Тази мисия е морално убедителна, но юридически опасна.Като Архивът се разшири отвъд прости уеб страници в книги, музика и софтуер, той се премести от сравнително безопасното пристанище на "имплицираната лицензия" на мрежата в силно укрепената територия на авторското право. Националната библиотека за спешни случаи и Хашета срещу интернет архива Хашета срещу интернет архива Напрежението избухна през 2020 г. по време на пандемията на COVID-19.С закриването на физическите библиотеки, Архивът стартира „Националната извънредна библиотека“, премахвайки списъците за чакане на дигитализираната си колекция от книги.Този ход накара четирима големи издатели – Хашет, Харпър Колинс, Уайли и Пингвин Рандом Хаус – да предявят иск, твърдейки, че има масово нарушение на авторските права.31 Теорията твърди, че ако библиотеката притежава физическа книга, тя трябва да бъде позволена да сканира тази книга и да заеме цифровото копие на едно лице наведнъж, при условие че физическата книга се изважда от обръщение, докато цифровата е на заем. Въпреки това, в съдебно решение от март 2023 г., федерален съдия отхвърли тази защита, като постанови, че сканирането и заемането на Архива не е „справедливо използване“. Съдът установи, че цифровите копия се конкурират с собствените търговски пазари на издателите на електронни книги. Аргументът на Архива, че използването му е „трансформативно“ (по-ефективно заемане) е отхвърлен. През септември 2024 г. Вторият апелативен съд поддържа това решение, а до края на 2024 г. Архивът обяви, че няма да обжалва пред Върховния съд.31 Разположението в Архивът е бил принуден да премахне приблизително 500 000 книги от своята програма за отпускане на заеми – по-специално тези, за които съществува търговска версия на електронна книга. „Това преговаряно решение“ фундаментално промени книжната стратегия на Архива, принуждавайки го да се върне към по-стари, отпечатани и публични произведения, където търговските конфликти са по-малко вероятни. Хашето Големият проект 78 и решението на Sony Докато книжната битка се разрази, на аудиостраницата се отвори втори фронт. Проектът Great 78 има за цел да дигитализира 78 rpm записи от началото на 20-ти век. Тези шеллакови дискове са крехки, остарели и често се влошават. Архивът твърди, че дигитализирането им е необходимост от запазване.37 Големите лейбъли, включително Sony Music и Universal Music Group, не се съгласиха. Те подадоха иск през 2023 г., твърдейки, че проектът е функционирал като "незаконно магазинче", което нарушава авторските права на хиляди песни на артисти като Франк Синатра и Били Холидей. През септември 2025 г. този иск също стигна до споразумение. Докато условията остават поверителни, резолюцията позволи на Архива да избегне потенциално банкрутиращ процес. Незабавното последствие обаче беше премахването на достъпа до много авторски права аудио записи, ограничавайки ги до изследователи, а не до широката общественост. Този модел – уреждане, последвано от ограничаване – маркира новата реалност за Интернет Архива през 2025 г.: отстъпление от подхода „побързай и счупи нещата“ към по-предпазлив, законно ограничен модел на опазване.39 Федералният депозитарен щит В голяма стратегическа победа сред тези загуби, Интернет Архивът е определен като Федерална депозитарна библиотека (FDL) от Сената на САЩ през юли 2025 г. Този статут е повече от просто заглавие; той законно дава право на Архива да събира, съхранява и предоставя достъп до правителствени публикации на САЩ. Това обозначение осигурява решаващ слой правна защита за поне част от колекцията на Архива.Въпреки че не защитава авторски права върху музика или търговски романи, то укрепва ролята на Архива като съществен компонент на информационната инфраструктура на нацията, което го прави политически и юридически по-трудно да се затвори напълно.7 Част V: Определяне на миналото Децентрализация и „краят на срока“ Юридическите заплахи от 2020-2025 г. разкриха критична уязвимост: централизация.Ако съдът реши или катастрофалният пожар удари централата на Фунстън Авеню, основната копия на историята на мрежата може да бъде загубена.Стратегията на Архива за следващото десетилетие е да децентрализира оцеляването. Децентрализирана мрежа (DWeb) Архивът е основният двигател на движението DWeb, което се стреми да изгради мрежа, която е разпределена, а не централизирана.Целта е да съхранява данните на Архива в глобална мрежа от връстници, което прави невъзможно за всяко едно образувание – било то правителство, корпорация или природно бедствие – да ги вземе офлайн. Технологично това включва интеграция с протоколи като IPFS (Interplanetary File System) и Filecoin. \n \n \n IPFS: Позволява съдържанието да бъде адресирано от криптографския хаш (какво е то) вместо от местоположението му (където е).Ако сървърът на архива е блокиран, потребителят може да изтегли същия WARC файл от всеки друг възел в мрежата, който държи копие.5 Filecoin: Осигурява стимулиращ слой за съхранение. През 2025 г. Архивът започва да качва критични колекции, като например правителствените уеб архиви "End of Term", в мрежата Filecoin за хладно съхранение. 2025 г. „Краят на срока“ На всеки четири години Архивът прави масивни усилия за сканиране на сайтовете (dot)gov и (dot)mil преди президентския преход. сканирането през 2024/2025 г. е най-голямото в историята, като улавя над 500 терабайта правителствени данни.45 Този проект подчертава ролята на Архива като наблюдател на историята, като гарантира, че данните за климата, докладите за преброяването и документите за политиката не изчезват, когато нова администрация встъпи в длъжност. Генериращ AI и справедливо използване Изпратих имейл на Brewser Kahle за 2025 и генериращия AI, а тук е неговият цитат: \n \n \n "Генеративният ИИ е накарал някои уеб сайтове да преследват доларови знаци, като блокират техните сайтове или започват съдебни дела.Това не помага на институциите за културно наследство, като например интернет архива и често наранява потребителите като цяло. Интернет Архивът ще остане свободен и отворен, за да се опита да помогне на хората да се справят с нашия променящ се свят.Архивът предлага отворени набори от данни за изследователите и компаниите в областта на изкуствения интелект, за да се възползват от техните услуги. "Генеративният ИИ е накарал някои уеб сайтове да преследват доларови знаци, като блокират техните сайтове или започват съдебни дела.Това не помага на институциите за културно наследство, като например интернет архива и често наранява потребителите като цяло. Интернет Архивът ще остане свободен и отворен, за да се опита да помогне на хората да се справят с нашия променящ се свят.Архивът предлага отворени набори от данни за изследователите и компаниите в областта на изкуствения интелект, за да се възползват от техните услуги. Съвпадение за: The Long Now Тъй като се движим по-дълбоко в 21-ви век, Интернет Архивът стои като парадокс.Това е технологичен бегемот, работещ в мащаб, който съперничи на гигантите от Силициевата долина, но все пак той се помещава в църква и се управлява от библиотекари.Това е крехка институция, ударена от съдебни дела и бюджетни ограничения, но също така е и най-стабилната банка с памет, която човечеството някога е изграждало. Събитията от 2025 г. – „трилионната страница“ – мишена, болезнените правни уреждания и преходът към децентрализирано съхранение – отбелязват узряването на организацията.Това вече не е „дивия запад“ на ранната мрежа.Това е разрушена, но устойчива институция, адаптираща машините си и мисията си да оцелеят в свят, който е все по-враждебен към концепцията за свободен, универсален достъп.И нарастващата популярност на генериращия ИИ добавя още едно непредсказуемо измерение към бъдещото оцеляване на архивите в публичната област. В PetaBox дисковете продължават да се въртят.Топлината, която генерират, затопля сградата, като запазва мъглата на окръг Ричмънд.И някъде на тези плочи, сред трилиони нули и такива, лежи единственото доказателство, че дигиталният свят на вчерашния ден изобщо е съществувал.Машината си спомня, така че ние не трябва да го правим. 