Análise enxeñaría e operacional do Arquivo de Internet Introdución: A humidade da historia na néboa Se estás quieto na nave da antiga igrexa da Ciencia Cristiá na avenida Funston no distrito de Richmond de San Francisco, podes escoitar o son da respiración de Internet. Non é o grito caótico dun modem de chamada ou o ping dunha notificación, senón un hum industrial estable, un trombón de baixa frecuencia xerado por centos de discos duros e os fans de alta velocidade que os arrefrian. Esta é a sede do Arquivo de Internet, unha biblioteca sen ánimo de lucro que tomou a tarefa de rexistrar a historia dixital da civilización humana. Aquí, entre as columnas neoclásicas reemplazadas e as pedras de madeira dun edificio construído para adorar un tipo diferente de permanencia, atópase a manifestación física do mundo "virtual". Tendemos a pensar en Internet como unha nube etérica, un lugar sen xeografía ou masa. Pero neste edificio, a Internet ten peso. Ten calor. Require electricidade, mantemento e unha constante batalla contra a segunda lei da termodinámica. A finais de 2025, esta máquina -coñecida colectivamente como a "máquina da enerxía". Arquivou máis dun billón de páxinas web.1 Contén 99 petabytes de datos únicos, un número que se expande a máis de 212 petabytes cando se contabilizan as copias de seguridade e a redundancia.3 Máquinas Wayback Máquinas Wayback A escala da operación é asombrosa, pero o desafío de enxeñaría é aínda máis profundo.Como podes construír unha máquina que poida inxerir a extensa, dinámica e sempre cambiante World Wide Web en tempo real?Como podes almacenar eses datos durante séculos cando o disco duro medio dura só uns poucos anos?E talvez o máis crítico, como podes pagar a electricidade, o ancho de banda e os fondos de defensa legal necesarios para manter as luces acesas nunha era onde a lei de dereitos de autor e a conservación dixital están pechadas nunha colisión de altas accións? Este informe profundiza na mecánica do Arquivo de Internet coa precisión dun chisco de lágrimas. Retiraremos o chasis para examinar os servidores PetaBox personalizados que quentan o edificio sen aire acondicionado. Iremos rastrexar a evolución dos crawlers web -desde os primeiros desperdicios baseados en cinta de Alexa Internet aos sofisticados bots baseados no navegador de 2025. Analizaremos o rexistro financeiro deste xigante sen ánimo de lucro, explorando como sobrevive nun orzamento que é un erro redondo para os seus veciños do Val do Silicon. É unha historia de 20.000 discos duros, 45 millas de cables, e unha visión que comezou en 1996 cun obxectivo sinxelo e audaz: "Acceso universal a todo o coñecemento".7 Parte I: A termodinámica da memoria A arquitectura PetaBox: Enxeñaría para a densidade e o calor O corazón do Arquivo de Internet é o PetaBox, un servidor de almacenamento deseñado a medida polo persoal do Arquivo para resolver un problema específico: almacenar grandes cantidades de datos con consumo mínimo de enerxía e xeración de calor. A principios dos anos 2000, as solucións de almacenamento corporativo off-the-shelf de xigantes como EMC ou NetApp eran prohibitivamente caras e famosas de enerxía. Foron deseñadas para datos de transaccións de alta velocidade -como sistemas bancarios ou bolsas de valores- onde milisegundos de latencia eran importantes. , o fundador do Arquivo e un enxeñeiro informático que fundara anteriormente a empresa de supercomputadores Thinking Machines, abordou o problema cunha filosofía diferente. En lugar de arreglos RAID de alto rendemento, o Arquivo construíu o PetaBox usando pezas de clase consumidor. A filosofía de deseño foi radical para o seu tempo: usar "Just a Bunch of Disks" (JBOD) en vez de controladores RAID caros, e xestionar a redundancia de datos a través de software en vez de hardware.4 Brewster Cabeza Brewster Cabeza A evolución da densidade: de terabytes a petabytes A traxectoria da PetaBox é un estudo de caso na Lei de Moore aplicada ao almacenamento magnético.A primeira estantería PetaBox, operativa en xuño de 2004, foi unha revelación na densidade de almacenamento.Tiña 100 terabytes (TB) de datos -unha cantidade enorme na época- mentres consumía só uns 6 quilowatts de enerxía.1 Para poñer isto en perspectiva, en 2003, toda a Wayback Machine estaba crecendo a unha taxa de só 12 terabytes por mes. As especificacións de enxeñaría do PetaBox revelan unha persecución implacable da densidade: Specification Generation 1 (2004) Generation 4 (2010) Current Generation (2024-2025) Capacity per Rack 100 TB 480 TB ~1.4 PB (1,400 TB) Drive Count ~40-80 drives 240 drives (2TB each) ~360+ drives (8TB+ each) Power per Rack 6 kW ~6-8 kW ~6-8 kW Heat Dissipation Utilized for building heat Utilized for building heat Utilized for building heat Processor Arch Low-voltage VIA C3 Intel Xeon E7-8870 (10-core) Modern High-Efficiency x86 Cooling Passive / Fan-assisted Passive / Fan-assisted Passive / Fan-assisted Capacidade por rack 100 tb 480 tb ~ 1,4 PB (1,400 TB) Condución Count 40 ou 80 condutores 240 unidades (2TB cada unha) ~ 360+ unidades (8TB + cada unha) Enerxía por rack 6 kW entre 6 e 8 kW entre 6 e 8 kW Disipación de calor Utilízase para a construción de calor Utilízase para a construción de calor Utilízase para a construción de calor Procesador ARCH Baixa tensión VIA C3 Intel Xeon E7-8870 (10 núcleos) Alta eficiencia x86 Refrixeración Pasivo / Fan asistido Pasivo / Fan asistido Pasivo / Fan asistido 1 A cuarta xeración PetaBox, introducida ao redor de 2010, exemplificou esta densidade. Cada rack contiña 240 discos de 2 terabytes cada un, organizados en montaxes de rack de 4U. Estas unidades foron alimentadas por procesadores Intel Xeon (especificamente a serie E7-8870 en actualizacións posteriores) con 12 gigabytes de RAM. A arquitectura dependía do par de interfaces de 1 gigabytes para crear un tubo de 2 gigabytes, alimentándose nun interruptor de rack cun uplink de 10 gigabytes.10 En 2025, a paisaxe de almacenamento cambiou de novo. As racks PetaBox actuais proporcionan 1,4 petabytes de almacenamento por rack. Este salto non se consegue engadindo máis tragamonedas, senón utilizando discos significativamente máis grandes -dispositivos de 8 TB, 16 TB e mesmo 22 TB son agora estándar. En 2016, o Arquivo xestionou arredor de 20.000 discos individuais. O experimento da "caixa negra" Na súa procura de almacenamento eficiente, o Arquivo tamén experimentou con centros de datos modulares.En 2007, o Arquivo converteuse nun adoptante precoz do "Blackbox" de Sun Microsystems (posteriormente o Sun Modular Datacenter). Este experimento validou o concepto de centros de datos containerizados -un modelo adoptado posteriormente por Microsoft e Google-, pero o Arquivo finalmente volveu aos seus deseños personalizados PetaBox para a súa infraestrutura interna primaria, favorecendo a flexibilidade e o menor custo dos seus propios deseños de hardware de código aberto sobre as solucións comerciais propietarias. Refrixeración sen aire acondicionado: o Funston Loop Unha das características máis intelixentes da infraestrutura do Arquivo é o seu sistema de xestión térmica.Os centros de datos son notoriamente intensivos en enerxía, a miúdo gastando tanta electricidade en refrixeración (HVAC) como en computación. A solución foi a xeografía e a física. O principal centro de datos do Arquivo está situado no distrito de Richmond de San Francisco, un barrio coñecido pola súa néboa perpetua e o clima marítimo fresco. O edificio utiliza este aire ambiente para o arrefriamento. Non hai aire acondicionado tradicional nas salas de máquinas de PetaBox. No canto dispoñen para funcionar a temperaturas de funcionamento lixeiramente máis altas, e o exceso de calor xerado polos discos giratorios é capturado e recirculado para quentar o edificio durante os invernos de San Francisco.9 Este sistema de "calor de residuos" é un ciclo pechado de eficiencia. Os 60+ quilowatts de enerxía térmica producidos por un clúster de almacenamento non son un subproduto a eliminar, senón un recurso a recoller. Esta elección de deseño reduce drasticamente a relación de eficiencia de uso de enerxía (PUE) da instalación, permitindo ao Arquivo gastar os seus fondos limitados en discos duros en lugar de facturas de electricidade. É unha aplicación literal do mantra "reduce, reutiliza, recicla" á termodinámica do almacenamento de datos.3 Fiabilidade e mantemento: o modelo de "substituír cando morto" Con máis de 28.000 discos rotativos en funcionamento, a falla da unidade é unha certeza estatística.3 Nun centro de datos corporativo tradicional, unha unidade fallida desencadea un protocolo de substitución inmediato e frenético para manter "cinco nove" (99.999%) de fiabilidade. O software PetaBox está deseñado para ser tolerante a fallos.Os datos son espellados en múltiples máquinas, a miúdo en diferentes lugares físicos (incluíndo centros de datos en Redwood City e Richmond, California, e copias en Europa e Canadá).12 Debido a que os datos non son "críticos para a misión" no sentido dunha transacción bancaria en directo, o Arquivo pode tolerar un certo número de unidades mortas nun nodo antes de que se requira mantemento físico. Este deseño "low-maintenance" permite a un equipo moi pequeno -históricamente só un administrador de sistema por petabytes de datos- para xestionar un imperio de almacenamento que compite cos de grandes corporacións de tecnoloxía.O sistema usa a ferramenta de monitorización Nagios para rastrexar a saúde de máis de 16.000 puntos de control distintos en todo o cluster, alertando ao pequeno persoal só cando se alcanza un limiar crítico de fracaso.8 Parte II: O dilema do crawler Atopar un obxectivo en movemento Se o PetaBox é o cerebro do Arquivo, os rastrexadores web son os seus ollos.Arquivar a web non é un proceso pasivo; require software activo e agresivo que cruza sen descanso as ligazóns da World Wide Web, copiando todo o que atopa.Este proceso, coñecido como rastrexamento, evolucionou da simple recuperación baseada en scripts á complexa automatización do navegador. O legado de Heritrix Durante gran parte da súa historia, o Arquivo dependía dun rastreador chamado Desenvolvido conxuntamente en 2003 polo Internet Archive e as bibliotecas nacionais nórdicas (Noruega e Islandia), Heritrix é un rastreador de código aberto baseado en Java deseñado especificamente para a fidelidade dos arquivos. Hermidaxe Hermidaxe A diferenza dun rastreador de motores de busca (como Googlebot), que se preocupa principalmente pola extracción de texto para a relevancia da busca, Heritrix se preocupa polo seu uso. Intenta capturar o estado exacto dunha páxina web, incluíndo as súas imaxes, follas de estilo e obxectos incorporados. artefactos O ficheiro WARC é a unidade atómica do Arquivo de Internet. Non só preserva o contido da páxina, senón tamén os "títulos HTTP" - o toque de man dixital entre o servidor e o navegador que ocorreu no momento da captura. Unha páxina foi capturada, O servidor o entregou, e A conexión foi negociada.19 cando que como Heritrix opera usando un "Frontier" -un sofisticado sistema de xestión de cola que decide que URL visitar a continuación. adérvase a estritas políticas de "politencia", respectando os protocolos de exclusión de robots.txt e limitando a frecuencia de solicitudes para evitar que os servidores de destino colapsen.16 A crise da web dinámica Con todo, Heritrix foi construído para unha web máis simple, unha web de ficheiros HTML estáticos e hipervínculos.Como a web evolucionou nunha plataforma de aplicacións dinámicas (Web 2.0), feeds de redes sociais e interfaces pesadas en JavaScript, Heritrix comezou a caer. Heritrix captura o HTML inicial entregado polo servidor. Pero nun sitio moderno como Twitter (agora X) ou Facebook, ese HTML inicial é a miúdo só un escaparate en branco. Heritrix, sendo un descargador estúpido, non podía executar este código.O resultado era a miúdo unha casca rota e baleira dunha páxina -unha cidade fantasma dixital.17 Despois A ascensión de Brozzler e Umbra Para combater a "web dinámica", o Arquivo tivo que evolucionar a súa ferramenta. e Umbra, ferramentas que borran a liña entre un crawler e un navegador web. Brozóns Brozóns Brozzler (un portmanteau de "browser" e "crawler") usa unha versión "sen cabeza" do navegador Google Chrome para renderizar páxinas exactamente como un usuario as ve. Isto permite ao Arquivo preservar sitios complexos como Instagram e artigos de noticias interactivos que serían invisibles para un rastreador tradicional.17 Antes Umbra actúa como unha ferramenta de axuda, usando a automatización do navegador para imitar o comportamento humano. "scrolla" unha páxina para desencadear infinitos feeds de carga, desliza sobre os menús de descarga para revelar enlaces ocultos e fai clic en botóns. Estas accións expoñen novas URLs que son entón alimentadas de volta ao crawler para capturar.17 Esta mudanza require significativamente máis poder de computación. A renderización dunha páxina en Chrome leva ordes de magnitude máis ciclos de CPU que simplemente descargar un ficheiro de texto. Isto obrigou ao Arquivo a ser máis selectivo e dirixido nos seus rascados de alta fidelidade, reservando o rascado de navegador intensivo en recursos para sitios dinámicos de alto valor mentres usa ferramentas máis lixeiras para a web estática.17 A revolución de "Save Page Now" Quizais o cambio tecnolóxico máis significativo nos últimos anos foi a democratización do crawl.O recurso Save Page Now permite a calquera usuario desencadear instantaneamente un crawl dunha URL específica. Alimentado por estas tecnoloxías baseadas en navegadores, Save Page Now converteuse nunha ferramenta crítica para xornalistas, investigadores e verificadores de feitos.En 2025, é a miúdo a primeira liña de defensa contra a rotura de ligazóns, permitindo aos usuarios crear un rexistro inmutable dun tweet ou artigo de noticias segundos antes de que sexa eliminado ou alterado.1 Conexión á Internet Alexa Fundada por Brewster Kahle en 1996 xunto ao Archive, Alexa foi unha empresa con fins lucrativos que explorou a web para proporcionar análise de tráfico (o famoso "Alexa Rank"). Durante case dúas décadas, Alexa foi a fonte primaria dos datos do Arquivo. Alexa rastrexaba a web para os seus propios fins comerciais e, a continuación, doaba os datos de rastrexo ao Arquivo de Internet despois dun período de embargo. Esta relación simbiótica proporcionou ao Arquivo un fluxo masivo e continuo de datos sen necesidade de executar a súa propia infraestrutura de rastrexo masiva. Con todo, con Amazon (que adquiriu Alexa en 1999) deixando de ofrecer o servizo de Alexa en maio de 2022, o Arquivo tivo que depender máis da súa propia infraestrutura de rastrexo e socios como Common Crawl.7 Parte III: A economía da supervivencia Financiando o inútil O Internet Archive consegue operar como un dos sitios web máis visitados do mundo cun orzamento que é chocantemente modesto.Como pode unha organización sen anuncios, sen taxas de subscrición para os lectores e sen ingresos de minería de datos manter 200 petabytes de datos en liña? O rexistro financeiro Segundo os rexistros financeiros (Formulario 990) e os informes anuais, os ingresos anuais do Arquivo de Internet oscilan entre 25 e 30 millóns de dólares.7 En 2024, por exemplo, a organización reportou uns ingresos de 26,8 millóns de dólares fronte a 23,5 millóns de dólares en gastos.25 O principal motor de ingresos son as contribucións e subvencións, que normalmente representan o 60-70% do total de ingresos. Micro-doazóns: O "modelo de Wikipedia" de pedir aos usuarios $ 5 ou $ 10. Grandes subvencións: financiamento de organizacións filantrópicas como a Fundación Mellon, a Fundación Kahle / Austin e a Fundación Filecoin.25 A segunda fonte de ingresos é Program Services, especificamente servizos de dixitalización e arquivo.O Arquivo non é só unha biblioteca; é un provedor de servizos. Arquivo-It: Este servizo de subscrición permite que as institucións (bibliotecas, universidades, gobernos) constrúan os seus propios arquivos web curados. As subscricións comezan por volta de US $ 2.400/ano por 100 GB de almacenamento e alcancen ata US $ 12.000/ano por un terabyte. Servizos de dixitalización: O Arquivo opera centros de dixitalización onde escanea libros e outros medios para socios.Os escáneres de libros "Scribe" -máquinas personalizadas con cravos en forma de V e cámaras operadas con pedal de pé - permiten a escaneamento non destrutivo de libros. Vault Services: Unha oferta máis recente, Vault ofrece almacenamento de conservación dixital por unha taxa única (por exemplo, $ 1.000 por terabyte). Este "modelo de endowment" permite que as institucións paguen unha vez por almacenamento perpetuo, apostando que o custo de almacenamento diminuirá máis rápido que o xuro sobre o endowment.30 O custo dun petabyte O lado do gasto do libro está dominado por Salarios e Salarios (aproximadamente a metade do orzamento) e Infraestruturas de TI. Con todo, a "economía de PetaBox" do Arquivo permite almacenar datos a unha fracción do custo dos provedores de nube comercial. Considere o custo de almacenar 100 petabytes en Amazon S3. A taxas estándar (~ $ 0,021 por GB por mes), o almacenamento só custaría máis de $ 2,1 millóns por mes. O orzamento operativo -para persoal, edificios, defensa legal e hardware- é menor que o que custaría almacenar os seus datos en AWS durante un ano. Anualidade Ao posuír o seu hardware, utilizar a arquitectura de alta densidade de PetaBox, evitar custos de aire acondicionado e usar software de código aberto, o Arquivo alcanza unha eficiencia de custos de almacenamento que é orde de magnitude mellor que as taxas de nube comercial.25 Parte IV: O campo de batalla legal Cando a conservación cumpre cos dereitos de autor Esta misión é moralmente convincente pero legalmente perigosa.Como o Arquivo expandiuse máis aló das simples páxinas web en libros, música e software, trasladouse do porto relativamente seguro da "licencia implícita" da web ao territorio fortemente fortificado da lei de copyright. Biblioteca Nacional de Emerxencias e Hachette v. Arquivos da Internet Hachette v. Arquivos da Internet Co peche das bibliotecas físicas, o Arquivo lanzou a "Biblioteca Nacional de Emerxencia", eliminando as listas de espera da súa colección de libros dixitalizados.Esta medida levou a catro grandes editores -Hachette, HarperCollins, Wiley e Penguin Random House- a demandar, alegando unha violación masiva dos dereitos de autor.31 O núcleo legal do programa de libros do Arquivo era o de préstamo dixital controlado (CDL).A teoría argumentou que se unha biblioteca posúe un libro físico, debería ser permitido escanear ese libro e prestar a copia dixital a unha persoa á vez, sempre que o libro físico sexa retirado da circulación mentres o dixital estea en préstamo. Con todo, nunha decisión esmagadora en marzo de 2023, un xuíz federal rexeitou esta defensa, decidindo que a escaneamento e empréstito do Arquivo non era un "uso xusto". O tribunal atopou que as copias dixitais competían cos mercados comerciais dos propios editores de libros electrónicos. O argumento do Arquivo de que o seu uso era "transformativo" (facendo o empréstito máis eficiente) foi rexeitado. En setembro de 2024, o Tribunal de Apelacións do Segundo Circuíto mantivo esta decisión, e a finais de 2024, o Arquivo anunciou que non se apelaría ao Tribunal Supremo.31 O establecemento na O Arquivo foi forzado a eliminar aproximadamente 500.000 libros do seu programa de préstamo -especialmente aqueles para os que existe unha versión comercial de libros electrónicos.Este "xuízo negociado" alterou fundamentalmente a estratexia do libro do Arquivo, forzándoo a reverter a obras máis antigas, non impresas e de dominio público onde os conflitos comerciais son menos propensos.31 Hacheteiro O gran proxecto 78 e o asentamento de Sony Mentres a batalla do libro fuxía, unha segunda fronte abriuse no lado de audio. O Gran Proxecto 78 tivo como obxectivo dixitalizar os rexistros de 78 rpm do inicio do século XX. Estes discos de shellac son fráxiles, obsoletos e a miúdo deteriorantes. As grandes marcas de discos, incluíndo Sony Music e Universal Music Group, discreparon.Puxeron unha demanda en 2023, alegando que o proxecto funcionaba como unha "lista de discos ilegais" que infrinxiu os dereitos de autor de miles de cancións de artistas como Frank Sinatra e Billie Holiday. En setembro de 2025, esta demanda tamén chegou a un acordo. Aínda que os termos permaneceron confidenciais, a resolución permitiu ao Arquivo evitar un xuízo que puidese inducir á bancarrota. Con todo, a consecuencia inmediata foi a eliminación do acceso a moitas gravacións de audio protexidas por dereitos de autor, restrinxíndoas aos investigadores en vez do público en xeral. Este patrón, seguido de restrición, marca a nova realidade para o Arquivo de Internet en 2025: unha retirada do enfoque "move fast and break things" a un modelo de conservación máis cauteloso e legalmente restrinxido.39 O escudo do depósito federal Nunha importante vitoria estratéxica no medio destas perdas, o Arquivo de Internet foi designado como unha Biblioteca do Depósito Federal (FDL) polo Senado dos Estados Unidos en xullo de 2025.7 Este status é máis que un título; autoriza legalmente ao Arquivo a recoller, conservar e proporcionar acceso ás publicacións do goberno dos Estados Unidos. Esta designación proporciona unha capa crucial de protección legal para polo menos unha parte da colección do Arquivo.Aínda que non protexe a música ou as novelas comerciais con dereitos de autor, consolida o papel do Arquivo como un compoñente esencial da infraestrutura de información da nación, o que o fai politicamente e legalmente máis difícil de pechar por completo.7 Parte V: Probar o futuro do pasado Descentralización e o "fin do prazo" As ameazas legais de 2020-2025 expuxeron unha vulnerabilidade crítica: a centralización.Se unha orde xudicial ou un incendio catastrófico afectasen á sede da Funston Avenue, podería perderse a copia primaria da historia da web. Páxina web descentralizada (DWeb) O Arquivo é o principal motor detrás do movemento DWeb, que busca construír unha web que sexa distribuída en vez de centralizada.O obxectivo é almacenar os datos do Arquivo a través dunha rede global de pares, o que fai imposible que calquera entidade -sexa un goberno, unha corporación ou un desastre natural- o leve offline. Tecnolóxicamente, isto implica a integración con protocolos como IPFS (Interplanetary File System) e Filecoin. IPFS: Permite que o contido sexa dirixido polo seu hash criptográfico (que é) en vez da súa localización (onde está).Se o servidor do Arquivo está bloqueado, un usuario pode recuperar o mesmo ficheiro WARC de calquera outro nodo na rede que teña unha copia.5 Filecoin: Proporciona unha capa de incentivo para o almacenamento. En 2025, o Arquivo comezou a subir coleccións críticas, como os arquivos web gobernamentais de "Fin de Termo", á rede Filecoin para o almacenamento en frío. O 2025 "Fin do Termo" Crawl Cada catro anos, o Arquivo leva a cabo un esforzo masivo para rastrexar (dot)gov e (dot)mil sitios web antes dunha transición presidencial.O rastrexo 2024/2025 foi o máis grande da historia, capturando máis de 500 terabytes de datos gobernamentais.45 Este proxecto destaca o papel do Arquivo como un observador da historia, asegurando que os datos climáticos, informes de censos e documentos de políticas non desaparezan cando unha nova administración toma posesión. Intelixencia artificial e uso xusto Eu mandei un correo electrónico a Brewser Kahle sobre 2025 e AI xerativa, e aquí está a súa cita: “A intelixencia artificial xerativa causou que algúns sitios web perseguisen sinais de dólar bloqueando os seus sitios ou lanzando accións xudiciais. Isto non axuda ás institucións de patrimonio cultural, como o Internet Archive e a miúdo prexudica aos usuarios en xeral. O Arquivo de Internet permanecerá libre e aberto para tratar de axudar ás persoas a ter un control sobre o noso mundo cambiante.O Arquivo ofrece conxuntos de datos abertos para que os investigadores e as empresas de IA aproveiten os seus servizos.Como organización, o Arquivo de Internet utilizou ferramentas de IA xerativas para axudar a acelerar a asignación de metadatos e as actividades de escaneo. " “A intelixencia artificial xerativa causou que algúns sitios web perseguisen sinais de dólar bloqueando os seus sitios ou lanzando accións xudiciais. Isto non axuda ás institucións de patrimonio cultural, como o Internet Archive e a miúdo prexudica aos usuarios en xeral. O Arquivo de Internet permanecerá libre e aberto para tratar de axudar ás persoas a ter un control sobre o noso mundo cambiante.O Arquivo ofrece conxuntos de datos abertos para que os investigadores e as empresas de IA aproveiten os seus servizos.Como organización, o Arquivo de Internet utilizou ferramentas de IA xerativas para axudar a acelerar a asignación de metadatos e as actividades de escaneo. " Categoría: The Long Now A medida que nos movemos máis profundamente no século XXI, o Arquivo de Internet é un paradoxo.É un monstro tecnolóxico, operando a unha escala que rivaliza cos xigantes do Val do Silicon Valley, pero está aloxado nunha igrexa e xestionado por bibliotecarios.É unha institución fráxil, golpeada por procesos e restricións orzamentarias, pero tamén é o banco de memoria máis robusto que a humanidade construíu. Os acontecementos de 2025 - o marco da "trillón de páxinas", os asentamentos legais dolorosos e o pivote cara ao almacenamento descentralizado- marcan unha maduración da organización. Xa non é o "oeste salvaxe" da primeira web. É unha institución batida pero resiliente, adaptando a súa maquinaria e a súa misión para sobrevivir nun mundo que é cada vez máis hostil ao concepto de acceso libre e universal. O calor que xeran quenta o edificio, mantendo a néboa do Distrito de Richmond ao abismo.E nalgún lugar neses pratos, entre os billóns de zeros e outros, está a única proba de que o mundo dixital de onte existiu en absoluto. Referencias Wayback Machine - Wikipedia, consultado o 8 de xaneiro de 2026, https://en.wikipedia.org/wiki/Wayback_Machine Mirando atrás en “Conservación da Internet” de 1996 e Blogs de Arquivos da Internet, consultado o 8 de xaneiro de 2026, https://blog.archive.org/2025/09/02/looking-back-on-preserving-the-internet-from-1996/ Petabox - Arquivo de Internet, consultado o 8 de xaneiro de 2026, https://archive.org/web/petabox.php PetaBox - Wikipedia, consultado o 8 de xaneiro de 2026, https://en.wikipedia.org/wiki/PetaBox IPFS: Construción de bloques para unha mellor web IPFS, accesible o 8 de xaneiro de 2026, https://ipfs.tech/ internetarchive/dweb-archive - GitHub, consultado o 8 de xaneiro de 2026, https://github.com/internetarchive/dweb-archive Arquivo de Internet - Wikipedia, consultado o 8 de xaneiro de 2026, https://en.wikipedia.org/wiki/Internet_Archive Facer Memorias Web co PetaBox - eWeek, consultado o 8 de xaneiro de 2026, https://www.eweek.com/storage/making-web-memories-with-the-petabox/ PetaBox - Internet Archive Wiki non oficial, accesible o 8 de xaneiro de 2026, https://internetarchive.archiveteam.org/index.php/PetaBox The Fourth Generation Petabox Echo Internet Archive Blogs, accesible o 8 de xaneiro de 2026, https://blog.archive.org/2010/07/27/the-fourth-generation-petabox/ Internet Archive Hits One Trillion Web Pages - Hackaday, consultado o 8 de xaneiro de 2026, https://hackaday.com/2025/11/18/internet-archive-hits-one-trillion-web-pages/ The Internet Archive's Wayback Machine recibe un novo centro de datos - Computerworld, accesible o 8 de xaneiro de 2026, https://www.computerworld.com/article/1562759/the-internet-archive-s-wayback-machine-gets-a-new-data-center.html Internet Archive to Live in Sun Blackbox - Data Center Knowledge, accesible o 8 de xaneiro de 2026, https://www.datacenterknowledge.com/business/internet-archive-to-live-in-sun-blackbox Inside the Internet Archive: A Meat World Tour, Root Simple, accesible o 8 de xaneiro de 2026, https://www.rootsimple.com/2023/08/inside-the-internet-archive-a-meat-world-tour/ Internet Archive preserva datos da World Wide Web - Richmond Review/Sunset Beacon, accesible o 8 de xaneiro de 2026, https://richmondsunsetnews.com/2017/03/11/internet-archive-preserves-data-from-world-wide-web/ Heritrix - Wikipedia, consultado o 8 de xaneiro de 2026, https://en.wikipedia.org/wiki/Heritrix Archive-It Crawling Technology, consultado o 8 de xaneiro de 2026, https://support.archive-it.org/hc/en-us/articles/115001081186-Archive-It-Crawling-Technology WARCreate: Create Wayback-Consumable WARC Files From Any Webpage - ODU Digital Commons, accessed 8 de xaneiro de 2026, https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1154&context=computerscience_fac_pubs The WARC Format - IIPC Community Resources, accesible o 8 de xaneiro de 2026, https://iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1/ ¿Que é heritrix? - Sala: AI, accesible o 8 de xaneiro de 2026, https://usehall.com/agents/heritrix-bot Arquivo de sitios web que conteñen medios de transmisión, accesible o 8 de xaneiro de 2026, https://library.imaging.org/admin/apis/public/api/ist/website/downloadArticle/archiving/14/1/art00004 Marzo de 2025 Blogs de Arquivos da Internet, consultado o 8 de xaneiro de 2026, https://blog.archive.org/2025/03/ Alexa Crawls - Arquivo de Internet, consultado o 8 de xaneiro de 2026, https://archive.org/details/alexacrawls Alexa Internet - Wikipedia, consultado o 8 de xaneiro de 2026, https://en.wikipedia.org/wiki/Alexa_Internet Internet Archive - Nonprofit Explorer - ProPublica, consultado o 8 de xaneiro de 2026, https://projects.propublica.org/nonprofits/organizations/943242767 Actualización sobre o 2024/2025 End of Term Web Archive - Ben Werdmuller, accesible o 8 de xaneiro de 2026, https://werd.io/update-on-the-20242025-end-of-term-web-archive/ Arquivo: Historia como código, accesible o 8 de xaneiro de 2026, https://www.historyascode.com/tools-data/archive-it/ Prezo - Servizos de dixitalización de arquivos de Internet, accesible o 8 de xaneiro de 2026, https://digitization.archive.org/pricing/ O almacén aleatorio da Área da Baía que alberga un dos maiores arquivos da humanidade - SFGATE, accedido o 8 de xaneiro de 2026, https://www.sfgate.com/tech/article/bay-area-warehouse-internet-archive-19858332.php Modelo de prezos de vault - Soporte de vault, accesible o 8 de xaneiro de 2026, https://vault-webservices.zendesk.com/hc/en-us/articles/22896482572180-Vault-Pricing-Model Hachette v. Internet Archive - Wikipedia, consultado o 8 de xaneiro de 2026, https://en.wikipedia.org/wiki/Hachette_v._Internet_Archive Hachette Book Group, Inc. v. Internet Archive, Consultado o 8 de xaneiro de 2026, https://copyrightalliance.org/copyright-cases/hachette-book-group-internet-archive/ Hachette Book Group, Inc. v. Internet Archive, No. 23-1260 (2d Cir. 2024) - Lei de Xustiza, accesible o 8 de xaneiro de 2026, https://law.justia.com/cases/federal/appellate-courts/ca2/23-1260/23-1260-2024-09-04.html Hachette Book Group v. Internet Archive and the Future of Controlled Digital Lending, accesible o 8 de xaneiro de 2026, https://www.library.upenn.edu/news/hachette-v-internet-archive Internet Archive's Open Library and Copyright Law: The Final Chapter, accesible o 8 de xaneiro de 2026, https://www.lutzker.com/ip_bit_pieces/internet-archives-open-library-and-copyright-law-the-final-chapter/ Que significa a Decisión de Arquivo de Internet contra Hachette para a nosa Biblioteca, accesible o 8 de xaneiro de 2026, https://blog.archive.org/2023/08/17/what-the-hachette-v-internet-archive-decision-means-for-our-library/ Etiquetas resolver demanda de dereitos de autor contra Internet Archive sobre streaming de discos de vinilo vintage - Music Business Worldwide, accesado o 8 de xaneiro de 2026, https://www.musicbusinessworldwide.com/labels-settle-copyright-lawsuit-against-internet-archive-over-streaming-of-vintage-vinyl-records/ Internet Archive liquida un xuízo de 621 millóns de dólares con principais etiquetas sobre o Proxecto de Preservación de Vinilo - Consequence.net, consultado o 8 de xaneiro de 2026, https://consequence.net/2025/09/internet-archive-labels-settle-copyright-lawsuit/ Unha actualización sobre os Blogs de Arquivos da Internet dos Grandes Xulgados dos 78s, accesible o 8 de xaneiro de 2026, https://blog.archive.org/2025/09/15/an-update-on-the-great-78s-lawsuit/ Music Publishers, Internet Archive Settle Lawsuit Over Old Recordings - GigaLaw, consultado o 8 de xaneiro de 2026, https://giga.law/daily-news/2025/9/15/music-publishers-internet-archive-settle-lawsuit-over-old-recordings Internet Archive Settles Copyright Suit with Sony, Universal Over Vintage Records, accesible o 8 de xaneiro de 2026, https://www.webpronews.com/internet-archive-settles-copyright-suit-with-sony-universal-over-vintage-records/ Xullo de 2025 - Blogs de Arquivos da Internet, consultado o 8 de xaneiro de 2026, https://blog.archive.org/2025/07/ FAQs web descentralizadas - Blogs de Arquivos de Internet, accesible o 8 de xaneiro de 2026, https://blog.archive.org/2018/07/21/decentralized-web-faq/ Servidor web descentralizado: Enfoque posíbel con estimacións de custos e rendemento, accesible o 8 de xaneiro de 2026, https://blog.archive.org/2016/06/23/decentalized-web-server-possible-approach-with-cost-and-performance-estimates/ Actualización sobre o 2024/2025 Fin do prazo Arquivo Web de Internet ..., accesible o 8 de xaneiro de 2026, https://blog.archive.org/2025/02/06/update-on-the-2024-2025-end-of-term-web-archive/ Actualización do progreso de The End of Term Web Archive: 100 millóns de páxinas web recollidas, máis de 500 TB de datos : r/DataHoarder - Reddit, accesado o 8 de xaneiro de 2026, https://www.reddit.com/r/DataHoarder/comments/1ijkdjl/progress_update_from_the_end_of_term_web_archive/ https://en.wikipedia.org/wiki/Wayback_Machine https://blog.archive.org/2025/09/02/looking-back-on-preserving-the-internet-from-1996/ https://archive.org/web/petabox.php https://en.wikipedia.org/wiki/PetaBox https://ipfs.tech/ https://github.com/internetarchive/dweb-archive https://en.wikipedia.org/wiki/Internet_Archive https://www.eweek.com/storage/making-web-memories-with-the-petabox/ https://internetarchive.archiveteam.org/index.php/PetaBox https://blog.archive.org/2010/07/27/the-fourth-generation-petabox/ https://hackaday.com/2025/11/18/internet-archive-hits-one-trillion-web-pages/ https://www.computerworld.com/article/1562759/the-internet-archive-s-wayback-machine-gets-a-new-data-center.html https://www.datacenterknowledge.com/business/internet-archive-to-live-in-sun-blackbox https://www.rootsimple.com/2023/08/inside-the-internet-archive-a-meat-world-tour/ https://richmondsunsetnews.com/2017/03/11/internet-archive-preserves-data-from-world-wide-web/ https://en.wikipedia.org/wiki/Heritrix https://support.archive-it.org/hc/en-us/articles/115001081186-Archive-It-Crawling-Technology https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1154&context=computerscience_fac_pubs https://iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1/ https://usehall.com/agents/heritrix-bot https://library.imaging.org/admin/apis/public/api/ist/website/downloadArticle/archiving/14/1/art00004 https://blog.archive.org/2025/03/ https://archive.org/details/alexacrawls https://en.wikipedia.org/wiki/Alexa_Internet https://projects.propublica.org/nonprofits/organizations/943242767 https://werd.io/update-on-the-20242025-end-of-term-web-archive/ https://www.historyascode.com/tools-data/archive-it/ https://digitization.archive.org/pricing/ https://www.sfgate.com/tech/article/bay-area-warehouse-internet-archive-19858332.php https://vault-webservices.zendesk.com/hc/en-us/articles/22896482572180-Vault-Pricing-Model https://en.wikipedia.org/wiki/Hachette_v._Internet_Archive https://copyrightalliance.org/copyright-cases/hachette-book-group-internet-archive/ https://law.justia.com/cases/federal/appellate-courts/ca2/23-1260/23-1260-2024-09-04.html https://www.library.upenn.edu/news/hachette-v-internet-archive https://www.lutzker.com/ip_bit_pieces/internet-archives-open-library-and-copyright-law-the-final-chapter/ https://blog.archive.org/2023/08/17/what-the-hachette-v-internet-archive-decision-means-for-our-library/ https://www.musicbusinessworldwide.com/labels-settle-copyright-lawsuit-against-internet-archive-over-streaming-of-vintage-vinyl-records/ https://consequence.net/2025/09/internet-archive-labels-settle-copyright-lawsuit/ https://blog.archive.org/2025/09/15/an-update-on-the-great-78s-lawsuit/ https://giga.law/daily-news/2025/9/15/music-publishers-internet-archive-settle-lawsuit-over-old-recordings https://www.webpronews.com/internet-archive-settles-copyright-suit-with-sony-universal-over-vintage-records/ https://blog.archive.org/2025/07/ https://blog.archive.org/2018/07/21/decentralized-web-faq/ https://blog.archive.org/2016/06/23/decentalized-web-server-possible-approach-with-cost-and-performance-estimates/ https://blog.archive.org/2025/02/06/update-on-the-2024-2025-end-of-term-web-archive/ https://www.reddit.com/r/DataHoarder/comments/1ijkdjl/progress_update_from_the_end_of_term_web_archive/