Analisis Kejuruteraan dan Operasi Komprehensif Arsip Internet Pengenalan: The Hum of History dalam kabut Jika anda berdiri diam-diam di kapal bekas gereja Sains Kristian di Funston Avenue di Daerah Richmond di San Francisco, anda boleh mendengar bunyi Internet bernafas.Ini bukan jeritan yang kacau daripada modem panggilan-up atau ping pemberitahuan, tetapi humpalan industri yang stabil - trum frekuensi rendah yang dihasilkan oleh beratus-ratus cakera keras berputar dan penggemar kelajuan tinggi yang menyejukkan mereka.Ini adalah ibu pejabat Internet Archive, perpustakaan bukan keuntungan yang telah mengambil tugas Sisyphean untuk merekodkan keseluruhan sejarah digital peradaban manusia. Di sini, di tengah-tengah lajur neoklasik yang diubahsuai dan tongkat kayu sebuah bangunan yang dibina untuk menyembah sejenis permanen yang berbeza, terletak manifestasi fizikal dunia "virtual".Kami cenderung untuk memikirkan internet sebagai awan eter, tempat tanpa geografi atau massa.Tetapi di dalam bangunan ini, internet mempunyai berat.Ia mempunyai haba.Ia memerlukan elektrik, pemeliharaan, dan pertempuran yang berterusan melawan undang-undang kedua termodinamika.Mulai akhir tahun 2025, mesin ini – secara kolektif dikenali sebagai Ia menyimpan 99 petabyte data unik, bilangan yang meluas kepada lebih daripada 212 petabyte apabila mengira untuk cadangan dan redundansi. Mesin Wayback Mesin Wayback Skala operasi menakjubkan, tetapi cabaran kejuruteraan lebih mendalam.Bagaimana anda membina sebuah mesin yang boleh menelan World Wide Web yang merebak, dinamik, dan sentiasa berubah dalam masa nyata?Bagaimana anda menyimpan data itu selama berabad-abad apabila hard drive purata hanya bertahan beberapa tahun?Dan mungkin yang paling penting, bagaimana anda membayar untuk elektrik, lebar band, dan dana pertahanan undang-undang yang diperlukan untuk menyalakan lampu dalam era di mana undang-undang hak cipta dan pemeliharaan digital terkunci dalam tumpuan bertaruh tinggi? Laporan ini merangkumi mekanik Arsip Internet dengan ketepatan air mata. Kami akan memotong semula kerusi untuk mengkaji pelayan PetaBox yang dibuat khusus yang memanaskan bangunan tanpa penghawa dingin. Kami akan menjejaki evolusi crawler web—dari sampah berbasis pita awal Alexa Internet kepada bot berbasis pelayar yang canggih pada tahun 2025. Kami akan menganalisis buku catatan kewangan raksasa bukan keuntungan ini, mengkaji bagaimana ia bertahan pada bajet yang merupakan kesilapan bulat bagi tetangga Silicon Valley. Dan akhirnya, kami akan melihat ke masa depan, di mana "Decentralized Web" (DWeb) menjanjikan untuk memecah Archive menjadi satu juta keping untuk memastikan ia tidak boleh dihancurkan.5 Untuk memahami Arkib adalah untuk memahami realiti fizikal memori digital.Ini adalah kisah 20,000 cakera keras, 45 batu kabel, dan visi yang bermula pada tahun 1996 dengan matlamat yang mudah dan berani: "Pengakses Universal kepada Semua Pengetahuan".7 Bahagian I: Termodinamik Ingatan Arsitektur PetaBox: Kejuruteraan untuk kepadatan dan haba Jantung Internet Archive ialah PetaBox, pelayan penyimpanan yang direka khas oleh kakitangan Archive untuk menyelesaikan masalah tertentu: menyimpan sejumlah besar data dengan penggunaan kuasa minimum dan pengeluaran haba. Pada awal 2000-an, penyelesaian penyimpanan korporat off-the-shelf daripada raksasa seperti EMC atau NetApp sangat mahal dan lapar kuasa. Mereka direka untuk data transaksi berkelajuan tinggi – seperti sistem perbankan atau bursa saham – di mana milisekunder latensi adalah perkara. penyimpanan arkib, bagaimanapun, mempunyai keperluan yang berbeza. , pengasas Archive dan seorang jurutera komputer yang sebelum ini telah menubuhkan syarikat superkomputer Thinking Machines, mendekati masalah dengan falsafah yang berbeza. alih-alih rangkaian RAID berkinerja tinggi, Archive membina PetaBox menggunakan bahagian-bahagian kelas pengguna. falsafah reka bentuk adalah radikal untuk masa itu: gunakan "Just a Bunch of Disks" (JBOD) bukannya kawalan RAID mahal, dan menangani redundansi data melalui perisian bukannya perkakasan.4 Brewster Kahle Brewster Kahle Evolusi kepadatan: Dari Terabyte kepada Petabyte Trajektori PetaBox adalah kajian kes dalam Undang-undang Moore yang diterapkan kepada penyimpanan magnet. rak PetaBox pertama, yang beroperasi pada bulan Jun 2004, merupakan penemuan dalam kepadatan penyimpanan. Ia memegang 100 terabytes (TB) data - jumlah yang besar pada masa itu - manakala mengkonsumsi hanya kira-kira 6 kilowatt kuasa.1 Untuk mengatakan ini dalam perspektif, pada tahun 2003, seluruh Wayback Machine tumbuh pada kadar hanya 12 terabytes sebulan. Spesifikasi kejuruteraan PetaBox mendedahkan pengejaran kekal kepadatan: Specification Generation 1 (2004) Generation 4 (2010) Current Generation (2024-2025) Capacity per Rack 100 TB 480 TB ~1.4 PB (1,400 TB) Drive Count ~40-80 drives 240 drives (2TB each) ~360+ drives (8TB+ each) Power per Rack 6 kW ~6-8 kW ~6-8 kW Heat Dissipation Utilized for building heat Utilized for building heat Utilized for building heat Processor Arch Low-voltage VIA C3 Intel Xeon E7-8870 (10-core) Modern High-Efficiency x86 Cooling Passive / Fan-assisted Passive / Fan-assisted Passive / Fan-assisted Kapasiti per rak daripada 100 TB Jumlah 480 TB ~ 1.4 PB (1,400 TB) Pengangkutan Count 40 – 80 buah kereta 240 pemacu (2TB setiap) ~360+ pemacu (8TB+ setiap) Kuasa untuk Rack 6 buah kW ~ 6 ~ 8 kW ~ 6 ~ 8 kW haba dissipasi Digunakan untuk pemanasan bangunan Digunakan untuk pemanasan bangunan Digunakan untuk pemanasan bangunan Pemprosesan Arch Tekanan rendah Via C3 Intel Xeon E7-8870 (10-Core) daripada Intel Kualiti tinggi x86 sejukkan Pengikut / Fan-Assisted Pengikut / Fan-Assisted Pengikut / Fan-Assisted 1 PetaBox generasi keempat, yang diperkenalkan sekitar tahun 2010, menunjukkan kepadatan ini. Setiap rak mengandungi 240 cakera 2 terabyte masing-masing, dianjurkan ke dalam 4U rack tinggi. Unit-unit ini didorong oleh prosesor Intel Xeon (terutamanya siri E7-8870 dalam kemas kini seterusnya) dengan 12 gigabyte RAM. Pada tahun 2025, landskap penyimpanan telah berubah lagi. rak PetaBox semasa menyediakan 1.4 petabyte penyimpanan per rak. Lompatan ini dicapai bukan dengan menambah lebih banyak slot, tetapi dengan menggunakan cakera yang lebih besar – 8TB, 16TB, dan bahkan 22TB cakera kini standard. Pada tahun 2016, Archive menguruskan kira-kira 20,000 cakera individu. Penyelidikan “Black Box” Dalam pencarian untuk penyimpanan yang cekap, Archive juga bereksperimen dengan pusat data modular. Pada tahun 2007, Archive menjadi penerima awal Sun Microsystems "Blackbox" (kemudian Sun Modular Datacenter).Ini merupakan kontena penghantaran yang dikemas dengan Sun Fire X4500 "Thumper" pelayan penyimpanan, mampu menyimpan sejumlah besar data dalam unit portabel, yang mengandungi sendiri. Eksperimen ini mengesahkan konsep pusat data kontainer – sebuah model yang kemudian diadopsi oleh Microsoft dan Google – tetapi Archive akhirnya kembali kepada reka bentuk PetaBox tersuai untuk infrastruktur dalaman utama mereka, menggalakkan fleksibiliti dan kos yang lebih rendah daripada reka bentuk perkakasan sumber terbuka mereka sendiri daripada penyelesaian komersial milik. Pemanasan tanpa penghawa dingin: The Funston Loop Salah satu ciri-ciri yang paling cemerlang dalam infrastruktur Archive ialah sistem pengurusan haba. Pusat data terkenal mempunyai tenaga yang tinggi, sering menghabiskan sebanyak elektrik untuk pendinginan (HVAC) seperti yang mereka lakukan untuk pengkomputeran. Penyelesaian ialah geografi dan fizik. Pusat data utama Arkib terletak di Daerah Richmond di San Francisco, sebuah kawasan yang dikenali kerana kabut abadi dan iklim laut yang sejuk. Bangunan ini menggunakan udara persekitaran ini untuk pendinginan. Tiada penghawa dingin tradisional di bilik mesin PetaBox. Sebaliknya, pelayan direka untuk berjalan pada suhu operasi yang sedikit lebih tinggi, dan haba yang berlebihan yang dihasilkan oleh cakera berputar ditangkap dan dikitar semula untuk memanaskan bangunan semasa musim sejuk San Francisco.9 Sistem "kehilangan haba" ini adalah satu laluan tertutup kecekapan. 60+ kilowatt tenaga haba yang dihasilkan oleh cluster penyimpanan bukan produk sampingan yang perlu dihilangkan tetapi sumber yang perlu dikumpulkan. Pilihan reka bentuk ini secara dramatik mengurangkan rasio Penggunaan Tenaga (PUE) kemudahan, membolehkan Arkib untuk membelanjakan dana terhadnya pada cakera keras bukannya tagihan elektrik. Ia adalah penerapan harfiah mantra "kurangkan, gunakan semula, daur ulang" kepada termodinamik penyimpanan data.3 Kebolehpercayaan dan Pemeliharaan: Model "Ganti Apabila Mati" Dengan lebih daripada 28,000 cakera berputar dalam operasi, kegagalan drive adalah kepastian statistik.3 Dalam pusat data korporat tradisional, kegagalan drive mengaktifkan protokol penggantian segera dan menjengkelkan untuk mengekalkan "lima sembilan" (99.999%) kebolehpercayaan. Data ditayangkan di pelbagai mesin, sering di lokasi fizikal yang berbeza (termasuk pusat data di Redwood City dan Richmond, California, dan salinan di Eropah dan Kanada).12 Oleh kerana data tidak "misi-kritik" dalam arti transaksi perbankan langsung, Arkib boleh mentoleransi bilangan cakera mati dalam satu nod sebelum pemeliharaan fizikal diperlukan. Reka bentuk "pengekalan rendah" ini membolehkan pasukan yang sangat kecil - bersejarah hanya satu pentadbir sistem per petabyte data - untuk menguruskan empayar penyimpanan yang bersaing dengan syarikat-syarikat teknologi utama. sistem ini menggunakan alat pemantauan Nagios untuk menjejaki kesihatan lebih daripada 16,000 titik kawalan yang berbeza di seluruh cluster, memberi amaran kepada kakitangan kecil hanya apabila ambang kritikal kegagalan dicapai.8 Bahagian II: Dilema Crawler Menangkap sasaran yang bergerak Jika PetaBox adalah otak Arkib, web crawler adalah matanya. mengarsipkan web bukanlah proses pasif; ia memerlukan perisian aktif, agresif yang tanpa henti melintasi pautan World Wide Web, menyalin segala-galanya yang ia temukan. Warisan daripada Heritrix Untuk sebahagian besar sejarahnya, Arkib bergantung kepada crawler yang dipanggil Dibangunkan bersama-sama pada tahun 2003 oleh Internet Archive dan perpustakaan kebangsaan Nordic (Norwegia dan Iceland), Heritrix ialah crawler sumber terbuka berasaskan Java yang direka khas untuk kesetiaan arsip. Heritrix Heritrix Tidak seperti crawler enjin crawler (seperti Googlebot), yang terutama peduli tentang mengekstrak teks untuk relevansi carian, Heritrix peduli tentang Ia cuba untuk menangkap keadaan yang tepat halaman web, termasuk imej, lembaran gaya, dan objek tertanam.Ia membungkus aset ini ke dalam format kontena standard yang dikenali sebagai WARC (Web ARChive). Artifak Fail WARC ialah unit atom Arsip Internet. ia menyimpan bukan sahaja kandungan halaman, tetapi "header HTTP"—tangan digital antara pelayan dan pelayar yang berlaku pada masa penangkapan. satu halaman telah ditangkap, Server telah membekalkan, dan Perjanjian ini telah ditandatangani.19 bila apa bagaimana Heritrix beroperasi menggunakan "Frontier"—sistem pengurusan barisan yang canggih yang memutuskan URL mana yang akan dikunjungi seterusnya.Ia mematuhi dasar "kesetiaan" yang ketat, menghormati protokol pengecualian robots.txt dan mengehadkan frekuensi permintaan untuk mengelakkan kejatuhan pelayan sasaran.16 Krisis Web Dinamis Walau bagaimanapun, Heritrix dibina untuk web yang lebih mudah—sebuah web fail HTML statik dan hyperlinks.Sementara web berkembang menjadi platform aplikasi dinamik (Web 2.0), aliran media sosial, dan antara muka yang berat JavaScript, Heritrix mula tergelincir. Heritrix menangkap HTML awal yang dihantar oleh pelayan.Tetapi di laman moden seperti Twitter (sekarang X) atau Facebook, HTML awal itu seringkali hanyalah penghalang kosong. Heritrix, yang merupakan pengunduh bodoh, tidak dapat menjalankan kod ini. Hasilnya seringkali merupakan selubung halaman yang pecah dan kosong – sebuah bandar hantu digital.17 Selepas Kebangkitan Brozzler dan Umbra Untuk memerangi "web dinamik", Archive terpaksa mengembangkan alatnya. dan Umbra, alat yang membingungkan garis antara crawler dan pelayar web. Brozzler Brozzler Brozzler (sebuah portmanteau dari "browser" dan "crawler") menggunakan versi "tanpa kepala" pelayar Google Chrome untuk memaparkan halaman persis seperti yang dilihat pengguna. Ini membolehkan Arkib untuk mengekalkan laman web yang kompleks seperti Instagram dan artikel berita interaktif yang tidak kelihatan kepada crawler tradisional.17 sebelum Umbra bertindak sebagai alat bantu, menggunakan automasi pelayar untuk meniru tingkah laku manusia. Ia "scrolls" ke bawah halaman untuk mengaktifkan feed muat turun yang tidak terhingga, melayari menu dropdown untuk mendedahkan pautan tersembunyi, dan klik butang. tindakan ini mendedahkan URL baru yang kemudian dimasukkan kembali ke crawler untuk menangkap.17 Perubahan ini memerlukan kuasa pengkomputeran yang lebih besar.Menghasilkan halaman dalam Chrome mengambil perintah lebih banyak kitaran CPU daripada hanya memuat turun fail teks.Ini telah memaksa Arkib untuk lebih selektif dan ditargetkan dalam crawl yang tinggi kesetiaan, mengehadkan crawling pelayar yang mengandungi sumber daya untuk laman dinamik bernilai tinggi sambil menggunakan alat yang lebih ringan untuk web statis.17 Revolusi “Save Page Now” Mungkin perubahan teknologi yang paling signifikan dalam tahun-tahun kebelakangan ini telah mendemokratiskan crawl. ciri Save Page Now membolehkan mana-mana pengguna untuk segera memicu crawl URL tertentu. Dirancang oleh teknologi berasaskan pelayar ini, Save Page Now telah menjadi alat penting untuk wartawan, penyelidik, dan pemeriksaan fakta. Pada tahun 2025, ia sering merupakan garis pertahanan pertama terhadap rosak pautan, membolehkan pengguna untuk mencipta rekod yang tidak berubah daripada tweet atau artikel berita sebelum ia dipadamkan atau diubahsuai.1 Sambungan Internet Alexa Diasaskan oleh Brewster Kahle pada tahun 1996 bersama dengan Archive, Alexa adalah sebuah syarikat untuk keuntungan yang melayari web untuk menyediakan analisis lalu lintas (yang terkenal "Alexa Rank"). Selama hampir dua dekad, Alexa adalah sumber utama data Archive. Alexa akan menggeledah web untuk tujuan komersial sendiri dan kemudian menyumbangkan data crawl ke Internet Archive selepas tempoh embargo. Hubungan simbiotik ini menyediakan Archive dengan aliran data yang besar dan berterusan tanpa perlu menjalankan infrastruktur crawling yang besar sendiri. Walau bagaimanapun, dengan Amazon (yang memperoleh Alexa pada tahun 1999) menghentikan perkhidmatan Alexa pada Mei 2022, Archive terpaksa bergantung lebih banyak kepada infrastruktur crawling sendiri dan rakan kongsi seperti Common Crawl.7 Bahagian III: Ekonomi kelangsungan hidup Membiayai yang tidak menguntungkan Mengendalikan laman web global peringkat atas biasanya memerlukan bajet Google atau Meta. Arsip Internet berjaya berfungsi sebagai salah satu laman web yang paling banyak dikunjungi di dunia pada bajet yang sangat sederhana.Bagaimana organisasi tanpa iklan, tiada yuran langganan untuk pembaca, dan tiada pendapatan penambangan data menyimpan 200 petabyte data dalam talian? Tag: ledger kewangan Menurut pendaftaran kewangan (Bentuk 990) dan laporan tahunan, pendapatan tahunan Internet Archive berkisar antara $25 juta dan $30 juta.7 Pada tahun 2024, contohnya, organisasi melaporkan pendapatan kira-kira $26.8 juta berbanding $23.5 juta dalam perbelanjaan.25 Penggerak pendapatan utama ialah Kontribusi dan Grants, yang biasanya mewakili 60-70% daripada pendapatan keseluruhan. Micro-donasi: "Model Wikipedia" meminta pengguna untuk $ 5 atau $ 10. Bidang utama: Pembiayaan daripada organisasi amal seperti Yayasan Mellon, Yayasan Kahle / Austin, dan Yayasan Filecoin.25 Sumber pendapatan utama kedua ialah Perkhidmatan Program, khususnya perkhidmatan digitalisasi dan arsip.Arsip bukan sekadar perpustakaan; ia merupakan pembekal perkhidmatan. Archive-It: Perkhidmatan langganan ini membolehkan institusi (pustaka, universiti, kerajaan) untuk membina arkib web mereka sendiri. Langganan bermula kira-kira $ 2,400 / tahun untuk 100 GB storan dan meluas sehingga $ 12,000 / tahun untuk satu terabyte. Perkhidmatan ini menghasilkan jutaan pendapatan, secara berkesan menyumbang kepada Wayback Machine percuma.27 Perkhidmatan digitalisasi: Arkib mengendalikan pusat digitalisasi di mana ia memindai buku dan media lain untuk rakan kongsi. pemindai buku "Scribe" - mesin tersuai dengan cakar berbentuk V dan kamera yang dikendalikan dengan pedal kaki - membenarkan pemindaian buku yang tidak merosakkan. rakan kongsi membayar setiap halaman (contohnya, $0.15 setiap halaman untuk buku terikat) untuk mengedit koleksi mereka.28 Perkhidmatan Vault: Sebuah tawaran yang lebih baru, Vault menyediakan penyimpanan penyimpanan digital dengan bayaran satu kali (contohnya, $1,000 setiap terabyte). "model endowment" ini membolehkan institusi untuk membayar sekali untuk penyimpanan kekal, bertaruh bahawa kos penyimpanan akan berkurangan lebih cepat daripada faedah pada endowment.30 Tag: harga sebuah petabyte Bahagian pengeluaran tajuk ini didominasi oleh Gaji dan Gaji (sekitar separuh daripada bajet) dan Infrastruktur IT. Walau bagaimanapun, "PetaBox ekonomi" Archive membolehkan ia menyimpan data pada sebahagian daripada kos pembekal awan komersial. Pertimbangkan kos penyimpanan 100 petabyte pada Amazon S3. Pada kadar standard (~ $0,021 per GB sebulan), penyimpanan sahaja akan kos lebih daripada $2.1 juta sebulan. anggaran operasi – untuk kakitangan, bangunan, pertahanan undang-undang, dan perkakasan – kurang daripada apa yang akan dikenakan untuk menyimpan data mereka di AWS selama setahun. tahunan Dengan memegang perkakasnya, menggunakan seni bina kepadatan tinggi PetaBox, mengelakkan kos penghawa dingin, dan menggunakan perisian sumber terbuka, Archive mencapai kecekapan kos penyimpanan yang lebih baik daripada kadar awan komersial. Bahagian IV: Kawasan pertempuran undang-undang Apabila penyimpanan memenuhi hak cipta Misi Arsip Internet ialah "Pengakses Universal kepada Semua Pengetahuan."Misi ini adalah memaksa secara moral tetapi berbahaya secara undang-undang.Sementara Arsip berkembang melampaui halaman web sederhana ke dalam buku, muzik, dan perisian, ia berpindah dari pelabuhan yang agak selamat dari "lisensi tersirat" web ke wilayah yang sangat diperkuat undang-undang hak cipta. Perpustakaan Negara dan Hachette v. Arsip Internet Hachette v. Arsip Internet Ketegangan meletup pada tahun 2020 semasa pandemi COVID-19.Dengan perpustakaan fizikal ditutup, Arkib melancarkan "National Emergency Library," menghapuskan senarai tunggu dalam koleksi buku digitalnya.Langkah ini mendorong empat penerbit utama—Hachette, HarperCollins, Wiley, dan Penguin Random House—untuk mengadu, menuduh pelanggaran hak cipta yang besar.31 Asas undang-undang program buku Arsip ialah Pembiayaan Digital Terkawal (CDL). teori ini berpendapat bahawa jika sebuah perpustakaan mempunyai buku fizikal, ia harus dibenarkan untuk memindai buku itu dan meminjamkan salinan digital kepada satu orang pada satu masa, asalkan buku fizikal diambil daripada peredaran manakala buku digital sedang dipinjamkan. Walau bagaimanapun, dalam keputusan yang menghancurkan pada bulan Mac 2023, seorang hakim persekutuan menolak pertahanan ini, mengesahkan bahawa pemindaian dan pinjaman Arkib bukanlah "penggunaan yang adil." Mahkamah mendapati bahawa salinan digital bersaing dengan pasaran ebook komersial penerbit sendiri. Argumen Arkib bahawa penggunaannya adalah "transformatif" (membuat pinjaman lebih cekap) telah ditolak. Pada bulan September 2024, Mahkamah Ringkasan Lingkaran Kedua mengekalkan keputusan ini, dan pada akhir 2024, Arkib mengumumkan bahawa ia tidak akan mengajukan banding kepada Mahkamah Tinggi.31 Penyelesaian di dalam Arkib terpaksa menghapuskan kira-kira 500,000 buku daripada program pinjaman – terutamanya buku-buku yang mempunyai versi ebook komersial. ”Penghakiman yang dibincangkan” ini secara mendasar mengubah strategi buku Arkib, memaksa ia untuk kembali kepada kerja-kerja yang lebih tua, di luar cetak, dan domain awam di mana konflik komersial kurang mungkin. Hachette yang Projek Great 78 dan Penyelesaian Sony Semasa pertempuran buku merosakkan, had kedua dibuka di bahagian audio. Projek Great 78 bertujuan untuk mendigitalkan rekod 78rpm dari awal abad ke-20. cakera shellac ini rapuh, usang, dan sering merosakkan. Syarikat-syarikat rekod utama, termasuk Sony Music dan Universal Music Group, tidak bersetuju.Mereka mengadu pada tahun 2023, mengklaim projek ini berfungsi sebagai "toko rekod haram" yang melanggar hak cipta beribu-ribu lagu oleh artis seperti Frank Sinatra dan Billie Holiday.Mereka mencari kerosakan yang boleh mencapai lebih daripada $600 juta - ancaman eksistensial kepada Arkib.38 Pada bulan September 2025, tuntutan ini juga mencapai penyelesaian. Walaupun syarat-syarat itu kekal rahsia, resolusi ini membolehkan Arkib untuk mengelakkan persidangan yang berpotensi menyebabkan kebangkrutan. Walau bagaimanapun, akibat segera melihat penghapusan akses kepada banyak rekod audio yang dilindungi hak cipta, mengehadkan mereka kepada penyelidik dan bukannya kepada orang awam. Model ini – penyelesaian yang diikuti oleh pembatasan – menandakan realiti baru untuk Arkib Internet pada tahun 2025: penarikan daripada pendekatan "move fast and break things" kepada model pemeliharaan yang lebih berhati-hati, yang dibatasi secara undang-undang.39 Perisai Deposit Persekutuan Dalam kemenangan strategik utama di tengah-tengah kerugian ini, Arkib Internet ditunjuk sebagai Perpustakaan Depository Persekutuan (FDL) oleh Senat Amerika Syarikat pada Julai 2025.7 Status ini lebih daripada sekadar tajuk; ia secara undang-undang membolehkan Arkib untuk mengumpul, menyimpan, dan menyediakan akses kepada penerbitan kerajaan Amerika Syarikat. Pengenalan ini menyediakan lapisan perlindungan undang-undang yang penting untuk sekurang-kurangnya sebahagian daripada koleksi Arkib.Meskipun ia tidak melindungi muzik yang dilindungi hak cipta atau novel komersial, ia mengukuhkan peranan Arkib sebagai komponen penting infrastruktur maklumat negara, menjadikannya lebih sukar secara politik dan undang-undang untuk ditutup sepenuhnya.7 Bahagian V: Mengesahkan masa lalu Decentralisasi dan “Hujung Masa” Ancaman undang-undang tahun 2020-2025 mendedahkan kelemahan kritikal: centralisasi.Jika perintah mahkamah atau kebakaran bencana berlaku di ibu pejabat Funston Avenue, salinan utama sejarah web boleh hilang. Laman web yang terdesentralisasi (DWeb) Arsip adalah enjin utama di sebalik gerakan DWeb, yang bertujuan untuk membina web yang didistribusikan bukannya bersentralisasi. matlamatnya adalah untuk menyimpan data Arsip di seluruh rangkaian global rakan-rakan, menjadikannya mustahil bagi mana-mana entiti tunggal - sama ada ia adalah kerajaan, sebuah syarikat, atau bencana alam - untuk mengambilnya secara offline.5 Secara teknologi, ini melibatkan integrasi dengan protokol seperti IPFS (Interplanetary File System) dan Filecoin. IPFS: Membolehkan kandungan untuk ditargetkan oleh hash kriptografi (apa yang ia adalah) daripada lokasi (di mana ia berada).Jika pelayan Archive disekat, pengguna boleh mendapatkan fail WARC yang sama dari mana-mana nod lain dalam rangkaian yang memegang salinan.5 Filecoin: Menyediakan lapisan insentif untuk penyimpanan. Pada tahun 2025, Archive mula memuat naik koleksi kritikal, seperti arsip web kerajaan "End of Term", ke rangkaian Filecoin untuk penyimpanan sejuk. 2025 "Akhir Zaman" Crawl Setiap empat tahun, Arkib memimpin usaha besar untuk menjejak (dot)gov dan (dot)mil laman web sebelum transisi presiden. crawl 2024/2025 adalah yang terbesar dalam sejarah, menangkap lebih daripada 500 terabyte data kerajaan.45 Projek ini menyoroti peranan Arkib sebagai pengawas sejarah, memastikan bahawa data iklim, laporan pendaftaran, dan dokumen dasar tidak hilang apabila pentadbiran baru mengambil jawatan. Generatif AI dan penggunaan yang adil Saya telah menghantar e-mel kepada Brewser Kahle mengenai 2025 dan AI generatif, dan di sini ialah kutipan beliau: “Generative AI telah menyebabkan beberapa tapak web untuk mengejar tanda dolar dengan menghalang tapak mereka atau melancarkan tuntutan undang-undang. Ini tidak membantu institusi warisan budaya, seperti Internet Archive dan sering menyakiti pengguna secara umum. Arsip Internet akan kekal bebas dan terbuka untuk cuba membantu orang-orang mengendalikan dunia kita yang berubah.Arsip ini menawarkan set data terbuka bagi penyelidik AI dan syarikat-syarikat untuk memanfaatkan perkhidmatan mereka.Sebagai organisasi, Arsip Internet telah menggunakan alat-alat AI generatif untuk membantu mempercepatkan pengagihan metadata dan aktiviti pemindaian. “Generative AI telah menyebabkan beberapa tapak web untuk mengejar tanda dolar dengan menghalang tapak mereka atau melancarkan tuntutan undang-undang. Ini tidak membantu institusi warisan budaya, seperti Internet Archive dan sering menyakiti pengguna secara umum. Arsip Internet akan kekal bebas dan terbuka untuk cuba membantu orang-orang mengendalikan dunia kita yang berubah.Arsip ini menawarkan set data terbuka bagi penyelidik AI dan syarikat-syarikat untuk memanfaatkan perkhidmatan mereka.Sebagai organisasi, Arsip Internet telah menggunakan alat-alat AI generatif untuk membantu mempercepatkan pengagihan metadata dan aktiviti pemindaian. Tajuk : The Long Now Semasa kita bergerak lebih dalam ke abad ke-21, Arsip Internet berdiri sebagai paradoks.Ia adalah sebuah bencana teknologi, beroperasi pada skala yang bersaing dengan gergasi Silicon Valley, namun ia disimpan dalam sebuah gereja dan dikendalikan oleh perpustakaan.Ia adalah institusi rapuh, dipukul oleh tuntutan undang-undang dan sekatan bajet, tetapi ia juga merupakan bank memori yang paling kukuh yang pernah dibina oleh umat manusia. Peristiwa-peristiwa pada tahun 2025 – landmark "bilion halaman" – pemisahan undang-undang yang menyakitkan, dan pivot ke arah penyimpanan terdesentralisasi – menandakan kematangan organisasi.Ia bukan lagi "Wild West" web awal.Ia adalah institusi yang tertekan tetapi tahan lama, menyesuaikan mesin dan misi untuk bertahan hidup dalam dunia yang semakin bermusuhan dengan konsep akses bebas, universal.Dan populariti yang semakin meningkat AI generatif menambah dimensi lain yang tidak dapat diramalkan kepada kelangsungan hidup arsip domain awam. Di dalam PetaBox, drive terus berputar. haba yang mereka cipta menghangatkan bangunan, menjaga kabut Richmond District. dan di suatu tempat di atas piring-piring itu, di tengah-tengah triliun nol dan nol, terletak satu-satunya bukti bahawa dunia digital semalam pernah wujud sama sekali. Referensi Wayback Machine - Wikipedia, diakses pada 8 Januari 2026, https://en.wikipedia.org/wiki/Wayback_Machine Melihat ke belakang pada “Pengekalan Internet” daripada 1996 e Internet Archive Blogs, diakses pada 8 Januari 2026, https://blog.archive.org/2025/09/02/looking-back-on-preserving-the-internet-from-1996/ Petabox - Arsip Internet, diakses pada 8 Januari 2026, https://archive.org/web/petabox.php PetaBox - Wikipedia, diakses pada 8 Januari 2026, https://en.wikipedia.org/wiki/PetaBox IPFS: Pembinaan blok untuk web yang lebih baik IPFS, diakses pada 8 Januari 2026, https://ipfs.tech/ internetarchive/dweb-archive - GitHub, diakses pada 8 Januari 2026, https://github.com/internetarchive/dweb-archive Arsip Internet - Wikipedia, diakses pada 8 Januari 2026, https://en.wikipedia.org/wiki/Internet_Archive Making Web Memories dengan PetaBox - eWeek, diakses pada 8 Januari 2026, https://www.eweek.com/storage/making-web-memories-with-the-petabox/ PetaBox - Internet Archive Wiki tidak rasmi, diakses pada 8 Januari 2026, https://internetarchive.archiveteam.org/index.php/PetaBox The Fourth Generation Petabox eBay Internet Archive Blogs, diakses pada 8 Januari 2026, https://blog.archive.org/2010/07/27/the-fourth-generation-petabox/ Internet Archive Hits One Trillion Web Pages - Hackaday, diakses pada 8 Januari 2026, https://hackaday.com/2025/11/18/internet-archive-hits-one-trillion-web-pages/ The Internet Archive's Wayback Machine mendapat pusat data baru - Computerworld, diakses pada 8 Januari 2026, https://www.computerworld.com/article/1562759/the-internet-archive-s-wayback-machine-gets-a-new-data-center.html Internet Archive to Live in Sun Blackbox - Pengetahuan Pusat Data, diakses pada 8 Januari 2026, https://www.datacenterknowledge.com/business/internet-archive-to-live-in-sun-blackbox Di dalam Arsip Internet: A Meat World Tour, Root Simple, diakses pada 8 Januari 2026, https://www.rootsimple.com/2023/08/inside-the-internet-archive-a-meat-world-tour/ Internet Archive Menyimpan Data dari World Wide Web - Richmond Review/Sunset Beacon, diakses pada 8 Januari 2026, https://richmondsunsetnews.com/2017/03/11/internet-archive-preserves-data-from-world-wide-web/ Heritrix - Wikipedia, diakses pada 8 Januari 2026, https://en.wikipedia.org/wiki/Heritrix Archive-It Crawling Technology, diakses pada 8 Januari 2026, https://support.archive-it.org/hc/en-us/articles/115001081186-Archive-It-Crawling-Technology WARCreate: Create Wayback-Consumable WARC Files From Any Webpage - ODU Digital Commons, accessed January 8, 2026, https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1154&context=computerscience_fac_pubs The WARC Format - IIPC Community Resources, diakses pada 8 Januari 2026, https://iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1/ Apa itu heritrix? - Hall: AI, diakses pada 8 Januari 2026, https://usehall.com/agents/heritrix-bot Arsip Laman Web yang mengandungi Media Streaming, diakses pada 8 Januari 2026, https://library.imaging.org/admin/apis/public/api/ist/website/downloadArticle/archiving/14/1/art00004 Mac 2019 Mac 2019 Mac 2019 Internet Archive Blogs, diakses 8 Januari 2026, https://blog.archive.org/2025/03/ Alexa Crawls - Arsip Internet, diakses pada 8 Januari 2026, https://archive.org/details/alexacrawls Alexa Internet - Wikipedia, diakses pada 8 Januari 2026, https://en.wikipedia.org/wiki/Alexa_Internet Internet Archive - Nonprofit Explorer - ProPublica, diakses pada 8 Januari 2026, https://projects.propublica.org/nonprofits/organizations/943242767 Kemas kini pada 2024/2025 End of Term Web Archive - Ben Werdmuller, diakses pada 8 Januari 2026, https://werd.io/update-on-the-20242025-end-of-term-web-archive/ Arkib-Itu, Sejarah sebagai Kod, diakses pada 8 Januari 2026, https://www.historyascode.com/tools-data/archive-it/ Harga - Internet Archive Digitization Services, diakses pada 8 Januari 2026, https://digitization.archive.org/pricing/ The random Bay Area warehouse yang menampung salah satu arsip terbesar umat manusia - SFGATE, diakses pada 8 Januari 2026, https://www.sfgate.com/tech/article/bay-area-warehouse-internet-archive-19858332.php Model Harga Vault - Sokongan Vault, diakses pada 8 Januari 2026, https://vault-webservices.zendesk.com/hc/en-us/articles/22896482572180-Vault-Pricing-Model Hachette v. Internet Archive - Wikipedia, diakses pada 8 Januari 2026, https://en.wikipedia.org/wiki/Hachette_v._Internet_Archive Hachette Book Group, Inc. v. Internet Archive, Copyright Cases, diakses pada 8 Januari 2026, https://copyrightalliance.org/copyright-cases/hachette-book-group-internet-archive/ Hachette Book Group, Inc. v. Internet Archive, No. 23-1260 (2d Cir. 2024) - Undang-undang Justia, diakses pada 8 Januari 2026, https://law.justia.com/cases/federal/appellate-courts/ca2/23-1260/23-1260-2024-09-04.html Hachette Book Group v. Internet Archive and the Future of Controlled Digital Lending, diakses pada 8 Januari 2026, https://www.library.upenn.edu/news/hachette-v-internet-archive Internet Archive's Open Library and Copyright Law: The Final Chapter, diakses pada 8 Januari 2026, https://www.lutzker.com/ip_bit_pieces/internet-archives-open-library-and-copyright-law-the-final-chapter/ Apa Keputusan Hachette v. Internet Archive Means untuk Perpustakaan Kami, diakses pada 8 Januari 2026, https://blog.archive.org/2023/08/17/what-the-hachette-v-internet-archive-decision-means-for-our-library/ Labels menyelesaikan tuntutan hak cipta terhadap Internet Archive atas streaming rekod vinil vintage - Perniagaan Musik Dunia, diakses pada 8 Januari 2026, https://www.musicbusinessworldwide.com/labels-settle-copyright-lawsuit-against-internet-archive-over-streaming-of-vintage-vinyl-records/ Internet Archive Menyelesaikan $ 621 Juta Pengaduan Dengan Label Utama Mengenai Projek Pemeliharaan Vinyl - Consequence.net, diakses pada 8 Januari 2026, https://consequence.net/2025/09/internet-archive-labels-settle-copyright-lawsuit/ An Update on the Great 78s Lawsuit Bharat Internet Archive Blogs, diakses pada 8 Januari 2026, https://blog.archive.org/2025/09/15/an-update-on-the-great-78s-lawsuit/ Penerbit Muzik, Internet Archive Settle Lawsuit Over Old Recordings - GigaLaw, diakses pada 8 Januari 2026, https://giga.law/daily-news/2025/9/15/music-publishers-internet-archive-settle-lawsuit-over-old-recordings Internet Archive Settles Copyright Suit with Sony, Universal Over Vintage Records, diakses pada 8 Januari 2026, https://www.webpronews.com/internet-archive-settles-copyright-suit-with-sony-universal-over-vintage-records/ September 2019 - Arsip Internet Blogs, diakses 8 Januari 2026, https://blog.archive.org/2025/07/ Laman web yang dikecentralkan FAQ - Arsip Internet Blog, diakses pada 8 Januari 2026, https://blog.archive.org/2018/07/21/decentralized-web-faq/ Pelayan web terdesentralisasi: Pendekatan yang mungkin dengan perkiraan kos dan prestasi, diakses pada 8 Januari 2026, https://blog.archive.org/2016/06/23/decentalized-web-server-possible-approach-with-cost-and-performance-estimates/ Update on the 2024/2025 End of Term Web Archive Internet ..., diakses pada 8 Januari 2026, https://blog.archive.org/2025/02/06/update-on-the-2024-2025-end-of-term-web-archive/ Kemas kini kemajuan daripada The End of Term Web Archive: 100 juta halaman web dikumpulkan, lebih daripada 500 TB data : r/DataHoarder - Reddit, diakses pada 8 Januari 2026, https://www.reddit.com/r/DataHoarder/comments/1ijkdjl/progress_update_from_the_end_of_term_web_archive/ https://en.wikipedia.org/wiki/Wayback_Machine https://blog.archive.org/2025/09/02/looking-back-on-preserving-the-internet-from-1996/ https://archive.org/web/petabox.php https://en.wikipedia.org/wiki/PetaBox https://ipfs.tech/ https://github.com/internetarchive/dweb-archive https://en.wikipedia.org/wiki/Internet_Archive https://www.eweek.com/storage/making-web-memories-with-the-petabox/ https://internetarchive.archiveteam.org/index.php/PetaBox https://blog.archive.org/2010/07/27/the-fourth-generation-petabox/ https://hackaday.com/2025/11/18/internet-archive-hits-one-trillion-web-pages/ https://www.computerworld.com/article/1562759/the-internet-archive-s-wayback-machine-gets-a-new-data-center.html https://www.datacenterknowledge.com/business/internet-archive-to-live-in-sun-blackbox https://www.rootsimple.com/2023/08/inside-the-internet-archive-a-meat-world-tour/ https://richmondsunsetnews.com/2017/03/11/internet-archive-preserves-data-from-world-wide-web/ https://en.wikipedia.org/wiki/Heritrix https://support.archive-it.org/hc/en-us/articles/115001081186-Archive-It-Crawling-Technology https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1154&context=computerscience_fac_pubs https://iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1/ https://usehall.com/agents/heritrix-bot https://library.imaging.org/admin/apis/public/api/ist/website/downloadArticle/archiving/14/1/art00004 https://blog.archive.org/2025/03/ https://archive.org/details/alexacrawls https://en.wikipedia.org/wiki/Alexa_Internet https://projects.propublica.org/nonprofits/organizations/943242767 https://werd.io/update-on-the-20242025-end-of-term-web-archive/ https://www.historyascode.com/tools-data/archive-it/ https://digitization.archive.org/pricing/ https://www.sfgate.com/tech/article/bay-area-warehouse-internet-archive-19858332.php https://vault-webservices.zendesk.com/hc/en-us/articles/22896482572180-Vault-Pricing-Model https://en.wikipedia.org/wiki/Hachette_v._Internet_Archive https://copyrightalliance.org/copyright-cases/hachette-book-group-internet-archive/ https://law.justia.com/cases/federal/appellate-courts/ca2/23-1260/23-1260-2024-09-04.html https://www.library.upenn.edu/news/hachette-v-internet-archive https://www.lutzker.com/ip_bit_pieces/internet-archives-open-library-and-copyright-law-the-final-chapter/ https://blog.archive.org/2023/08/17/what-the-hachette-v-internet-archive-decision-means-for-our-library/ https://www.musicbusinessworldwide.com/labels-settle-copyright-lawsuit-against-internet-archive-over-streaming-of-vintage-vinyl-records/ https://consequence.net/2025/09/internet-archive-labels-settle-copyright-lawsuit/ https://blog.archive.org/2025/09/15/an-update-on-the-great-78s-lawsuit/ https://giga.law/daily-news/2025/9/15/music-publishers-internet-archive-settle-lawsuit-over-old-recordings https://www.webpronews.com/internet-archive-settles-copyright-suit-with-sony-universal-over-vintage-records/ https://blog.archive.org/2025/07/ https://blog.archive.org/2018/07/21/decentralized-web-faq/ https://blog.archive.org/2016/06/23/decentalized-web-server-possible-approach-with-cost-and-performance-estimates/ https://blog.archive.org/2025/02/06/update-on-the-2024-2025-end-of-term-web-archive/ https://www.reddit.com/r/DataHoarder/comments/1ijkdjl/progress_update_from_the_end_of_term_web_archive/