इंटरनेट आरेख का व्यापक इंजीनियरिंग और ऑपरेटिंग विश्लेषण प्रविष्टि: अंधेरे में इतिहास का हौसला यदि आप सैन फ्रांसिस्को के रिचमंड जिले में फोंस्टन एवेन्यू पर पूर्व क्रिश्चियन साइंस चर्च के नौका में चुपचाप खड़े रहते हैं, तो आप इंटरनेट की सांस की ध्वनि सुन सकते हैं. यह एक कॉल-अप मॉडेम की अराजक चिल्लाहट या एक नोटिस की पिंग नहीं है, बल्कि एक स्थिर, औद्योगिक हाउम - सैकड़ों घूमने वाले हार्ड ड्राइवों और उच्च गति वाले प्रशंसकों द्वारा उत्पन्न एक कम आवृत्ति थर्म। यहां, एक इमारत की पुनर्वित न्यूक्लासिक स्तंभों और लकड़ी के पैरों के बीच, जो एक अलग तरह की स्थायित्व की आराधना करने के लिए बनाई गई थी, "वास्तविक" दुनिया की शारीरिक अभिव्यक्ति है। हम इंटरनेट को एक ईथरिक बादल के रूप में सोचने की प्रवृत्ति रखते हैं, कोई भूगोल या द्रव्यमान के बिना एक जगह। लेकिन इस इमारत में, इंटरनेट का वजन होता है। -एक ट्रिलियन से अधिक वेब पेज संग्रहीत किए गए हैं.1 इसमें 99 पेटाबाइट अनूठे डेटा होते हैं, एक संख्या जो बैकअप और रिडांडेशन के लिए लेखांकन करते समय 212 पेटाबाइट से अधिक तक बढ़ जाती है.3 Wayback मशीन Wayback मशीन ऑपरेशन का पैमाना आश्चर्यजनक है, लेकिन इंजीनियरिंग चुनौती और भी गहरा है. आप एक मशीन कैसे बनाते हैं जो वास्तविक समय में विशाल, गतिशील और लगातार बदलती वर्ल्ड वाइड वेब को अवशोषित कर सकती है? आप उस डेटा को सदियों तक कैसे संग्रहीत करते हैं जब औसत हार्ड ड्राइव केवल कुछ वर्षों तक रहता है? और शायद सबसे महत्वपूर्ण बात यह है कि आप बिजली, बैंडविड्थ और कानूनी रक्षा धन के लिए कैसे भुगतान करते हैं जो एक युग में प्रकाश को चालू रखने के लिए आवश्यक हैं जहां कॉपीराइट कानून और डिजिटल संरक्षण एक उच्च स्टॉक संघर्ष में बंद हैं? इस रिपोर्ट में इंटरनेट आरेख की यांत्रिकता की सटीकता के साथ गुजरता है. हम कस्टम बनाए गए पेटाबॉक्स सर्वरों की जांच करने के लिए शेड्यूल को खींचेंगे जो इमारत को एयर कंडीशनर के बिना गर्म करते हैं. हम वेब क्रॉलर के विकास को ट्रैक करेंगे – एलेक्सा इंटरनेट के प्रारंभिक टेप-आधारित डंप से लेकर 2025 के परिष्कृत ब्राउज़र-आधारित बॉट्स तक। हम इस गैर-लाभकारी विशाल के वित्तीय रजिस्टर का विश्लेषण करेंगे, यह पता लगाने के लिए कि यह एक बजट पर कैसे जीवित रहता है जो अपने सिलिकॉन Valley पड़ोसियों के लिए एक गोल गलती है. और अंत में, हम भविष्य की ओर देखेंगे, जहां "डिसेन्टरलाइ संग्रह को समझना डिजिटल स्मृति की भौतिक वास्तविकता को समझना है. यह 20,000 हार्ड ड्राइव, 45 मील के केबलिंग की कहानी है, और एक दृष्टि है जो 1996 में एक सरल, साहसी लक्ष्य के साथ शुरू हुई थी: "सभी ज्ञान के लिए सार्वभौमिक पहुंच"। भाग I: स्मृति की थर्मोडिनामी PetaBox वास्तुकला: घनत्व और गर्मी के लिए इंजीनियरिंग इंटरनेट आरेख का दिल पेटाबॉक्स है, एक स्टोरेज सर्वर जिसे आरेख के कर्मचारियों द्वारा एक विशिष्ट समस्या को हल करने के लिए अनुकूलित किया गया था: न्यूनतम बिजली की खपत और गर्मी के उत्पादन के साथ बड़ी मात्रा में डेटा संग्रहीत करना। 2000 के दशक की शुरुआत में, ईएमसी या नेटएप जैसी विशाल कंपनियों के ऑफ-टेलर उद्यम स्टोरेज समाधानों को बहुत महंगा और बिजली की भूख लगी थीं। , Archive के संस्थापक और एक कंप्यूटर इंजीनियर जिन्होंने पहले सुपर कंप्यूटर कंपनी Thinking Machines को स्थापित किया था, ने समस्या का एक अलग दर्शन के साथ दृष्टिकोण किया। उच्च प्रदर्शन के RAID पैराइलें के बजाय, Archive ने उपभोक्ता-ग्रेड भागों का उपयोग करके PetaBox का निर्माण किया। डिजाइन दर्शन अपने समय के लिए कट्टरपंथी था: महंगे RAID नियंत्रक के बजाय "केवल एक बैच डिस्क" (JBOD) का उपयोग करें, और हार्डवेयर के बजाय सॉफ़्टवेयर के माध्यम से डेटा रिडंडन को संभालें.4 बेरोजगारी के लिए बेरोजगारी के लिए घनत्व के विकास: टेराबाइट से पेटबाइट तक PetaBox की ट्रैक्चर मैग्नेटिक भंडारण पर लागू Moore के कानून में एक मामले का अध्ययन है. पहला PetaBox रैक, जून 2004 में संचालित, भंडारण घनत्व में एक खुलासा था. यह 100 टेराबाइट (टीबी) डेटा रखता था - उस समय एक विशाल राशि - जबकि केवल लगभग 6 किलोवाट बिजली का उपभोग करता था.1 इस परिप्रेक्ष्य में, 2003 में, पूरे वेवबैक मशीन केवल 12 टेराबाइट प्रति माह की दर से बढ़ रहा था. 2009 तक, यह दर प्रति माह 100 टेराबाइट पर कूद गया था, और PetaBox को विकास करना पड़ा.1 पेटाबॉक्स के इंजीनियरिंग विनिर्देश घनत्व के लिए एक अविश्वसनीय खोज को प्रकट करते हैं: Specification Generation 1 (2004) Generation 4 (2010) Current Generation (2024-2025) Capacity per Rack 100 TB 480 TB ~1.4 PB (1,400 TB) Drive Count ~40-80 drives 240 drives (2TB each) ~360+ drives (8TB+ each) Power per Rack 6 kW ~6-8 kW ~6-8 kW Heat Dissipation Utilized for building heat Utilized for building heat Utilized for building heat Processor Arch Low-voltage VIA C3 Intel Xeon E7-8870 (10-core) Modern High-Efficiency x86 Cooling Passive / Fan-assisted Passive / Fan-assisted Passive / Fan-assisted प्रति रैक क्षमता 100 टीबी 480 टीबी ~1.4 पीबी (1,400 टीबी) ड्राइव काउंटर - 40 से 80 ड्राइव 240 ड्राइव (2TB प्रत्येक) ~ 360+ ड्राइव (8TB + प्रत्येक) रैक के लिए शक्ति 6 किलोवाट 6 से 8 किलोवाट 6 से 8 किलोवाट गर्मी का विघटन इमारत गर्मी के लिए उपयोग किया जाता है इमारत गर्मी के लिए उपयोग किया जाता है इमारत गर्मी के लिए उपयोग किया जाता है ARCH प्रोसेसर कम वोल्टेज VIA C3 इंटेल Xeon E7-8870 (10-कोर) आधुनिक उच्च दक्षता x86 ठंडा प्रशंसक सहायता / Fan-assisted प्रशंसक सहायता / Fan-assisted प्रशंसक सहायता / Fan-assisted 1 चौथा पीटाबॉक्स, जो 2010 के आसपास पेश किया गया था, इस घनत्व का उदाहरण था। प्रत्येक रैक में 240 डिस्क होते थे, प्रत्येक में 2 टेराबाइट, 4 यू उच्च रैक मंचों में व्यवस्थित होते थे। इन इकाइयों को इंटेल Xeon प्रोसेसरों (विशेष रूप से बाद में अपग्रेड में E7-8870 श्रृंखला) द्वारा 12 जीबी रैम के साथ संचालित किया गया था। 2025 तक, भंडारण परिदृश्य फिर से बदल गया था। वर्तमान PetaBox रैक प्रति रैक 1.4 petabytes भंडारण प्रदान करते हैं. इस कूद को अधिक स्लॉट जोड़कर नहीं किया जाता है, बल्कि काफी बड़े ड्राइवों का उपयोग करके किया जाता है—8TB, 16TB, और यहां तक कि 22TB ड्राइव अब मानक हैं. 2016 में, आर्केज ने लगभग 20,000 व्यक्तिगत डिस्क ड्राइवों का प्रबंधन किया. उल्लेखनीय रूप से, जब 2012 और 2016 के बीच भंडारण क्षमता तीन गुना बढ़ गई, तो इन घनत्व सुधारों के कारण ड्राइवों की कुल संख्या अपेक्षाकृत स्थिर रह गई.11 ब्लैक बॉक्स का प्रयोग प्रभावी भंडारण के लिए अपनी खोज में, आरेख ने मॉड्यूलर डेटा सेंटर के साथ भी प्रयोग किया। 2007 में, आरेख ने सन माइक्रोसिस्टम्स के "ब्लैक बॉक्स" (आगे बाद सन मॉड्यूलर डेटा सेंटर) का एक प्रारंभिक अधिग्रहण किया। यह एक शिपिंग कंटेनर था जो सन फायर X4500 "थंपर" भंडारण सर्वरों के साथ पैक किया गया था, जो एक पोर्टेबल, स्व-संरक्षण इकाई में बड़ी मात्रा में डेटा रखने में सक्षम था। संग्रहालय में ब्लैक बॉक्स को सोलाaris 10 ऑपरेटिंग सिस्टम और ZFS फ़ाइल सिस्टम चलाने वाले सर्वर के आठ रैक से भरा गया था. इस प्रयोग ने कंटेनरित डेटा सेंटरों की अवधारणा की पुष्टि की - एक मॉडल जिसे बाद में माइक्रोसॉफ्ट और गूगल द्वारा अपनाया गया था - लेकिन संग्रहालय ने अंततः अपने प्राथमिक आंतरिक बुनियादी ढांचे के लिए अपने अनुकूलित पेटाबॉक्स डिजाइन पर वापस लौट दिया, अपने स्वयं के ओपन सोर्स हार्डवेयर डिजाइनों की लचीलापन और कम लागत को स्वायत्त वाणिज्यिक समाधानों की तुलना में। एयर कंडीशनिंग के बिना ठंडा: Funston लूप आर्किटेक्ट की बुनियादी ढांचे में से एक सबसे चतुर विशेषता इसकी थर्मल प्रबंधन प्रणाली है. डेटा सेंटर अक्सर कंप्यूटिंग के रूप में ठंडा करने (HVAC) पर उतना ही बिजली खर्च करते हैं. इंटरनेट आर्किटेक्ट, एक गैर-लाभकारी बजट पर काम करता है, इस तरह के बर्बादी का भुगतान नहीं कर सकता था. समाधान भूगोल और भौतिकी था। फ़िल्म का प्राथमिक डेटा सेंटर सैन फ्रांसिस्को के रिचमंड जिले में स्थित है, एक पड़ोस जो अपने निरंतर अंधेरे और ठंडे समुद्री जलवायु के लिए जाना जाता है। इमारत को ठंडा करने के लिए इस वातावरण के वायु का उपयोग किया जाता है. पेटाबॉक्स मशीन रूम में कोई पारंपरिक एयर कंडीशनर नहीं है. इसके बजाय, सर्वरों को थोड़ा अधिक ऑपरेटिंग तापमान पर चलाने के लिए डिज़ाइन किया गया है, और घूमने वाले डिस्क द्वारा उत्पन्न अतिरिक्त गर्मी को कैप्चर किया जाता है और ठंडा सैन फ्रांसिस्को सर्दियों के दौरान इमारत को गर्म करने के लिए पुनः सर्किट किया जाता है.9 यह "बचत गर्मी" प्रणाली दक्षता का एक बंद चक्र है। एक स्टोरेज क्लस्टर द्वारा उत्पादित 60+ किलोवाट गर्मी ऊर्जा एक उप-उत्पाद नहीं है जिसे खत्म किया जाना चाहिए, बल्कि एक संसाधन है जिसे कटाया जाना चाहिए। यह डिजाइन विकल्प संयंत्र के पावर उपयोग दक्षता (पीयूई) अनुपात को नाटकीय रूप से कम करता है, जिससे आर्केज को बिजली के बिल के बजाय हार्ड ड्राइव पर अपने सीमित धन खर्च करने की अनुमति मिलती है। विश्वसनीयता और रखरखाव: "मृत्यु पर प्रतिस्थापन" मॉडल एक पारंपरिक कॉर्पोरेट डेटा सेंटर में, एक विफल ड्राइव "पांच नौ" (99,999%) विश्वसनीयता को बनाए रखने के लिए एक त्वरित, शर्मनाक प्रतिस्थापन प्रोटोकॉल को सक्रिय करता है। डेटा को कई मशीनों पर दर्शाया जाता है, अक्सर विभिन्न भौतिक स्थानों पर (रेडवुड सिटी और रिचमंड, कैलिफोर्निया में डेटा सेंटर सहित, और यूरोप और कनाडा में प्रतियां सहित)।12 चूंकि डेटा एक लाइव बैंकिंग लेनदेन के अर्थ में "मिशन महत्वपूर्ण" नहीं है, इसलिए एक नोड में कुछ मृत ड्राइव को शारीरिक रखरखाव की आवश्यकता से पहले सहन कर सकता है। यह "कम रखरखाव" डिजाइन एक बहुत छोटी टीम - ऐतिहासिक रूप से डेटा के पेटाबाइट प्रति केवल एक सिस्टम प्रशासक - एक स्टोरेज साम्राज्य का प्रबंधन करने की अनुमति देता है जो प्रमुख प्रौद्योगिकी निगमों के साथ प्रतिस्पर्धा करता है। भाग II: क्रॉलर की डिलीवरी एक स्थानांतरित लक्ष्य को पकड़ना यदि पेटाबॉक्स आर्किटेक्ट का मस्तिष्क है, तो वेब क्रॉलर इसकी आंखें हैं. वेब का आर्किटेक्ट करना एक निष्क्रिय प्रक्रिया नहीं है; इसके लिए सक्रिय, आक्रामक सॉफ्टवेयर की आवश्यकता होती है जो विश्व वाइड वेब के लिंक के माध्यम से अविश्वसनीय रूप से गुजरती है, जो कुछ भी मिलता है को कॉपी करता है. इस प्रक्रिया, क्रॉलिंग के रूप में जाना जाता है, सरल स्क्रिप्ट-आधारित खोज से जटिल ब्राउज़र ऑटोमेशन तक विकसित हो गया है. Heritrix की विरासत अपने इतिहास का एक बड़ा हिस्सा के लिए, दस्तावेज़ ने एक क्रॉलर पर भरोसा किया जिसे 2003 में इंटरनेट आरेख और उत्तरी राष्ट्रीय पुस्तकालयों (नॉर्वे और आइसलैंड) द्वारा संयुक्त रूप से विकसित, हेरिट्रिक्स एक जावा-आधारित, खुले स्रोत क्रैगर है जो विशेष रूप से आर्किवल वफादारी के लिए डिज़ाइन किया गया है। एरिट्रिक्स एरिट्रिक्स एक खोज इंजन क्रॉलर (जैसे Googlebot) के विपरीत, जो मुख्य रूप से खोज प्रासंगिकता के लिए पाठ निकालने के बारे में चिंतित है, हेरिट्रिक्स के बारे में चिंतित है यह एक वेब पेज की सटीक स्थिति को कैप्चर करने का प्रयास करता है, जिसमें उसके छवियों, स्टाइल शीट और एम्बेड ऑब्जेक्ट शामिल हैं. यह इन संपत्तियों को एक मानकीकृत कंटेनर प्रारूप में पैक करता है जिसे WARC (Web ARChive) कहा जाता है. आर्टिफिशियल WARC फ़ाइल इंटरनेट आरेख का परमाणु इकाई है. यह न केवल पृष्ठ की सामग्री को बनाए रखता है, बल्कि "एचटीटीपी हेडर्स" - सर्वर और ब्राउज़र के बीच डिजिटल हस्तमैथुन जो कैप्चर के क्षण में हुआ। एक पृष्ठ पकड़ लिया गया है, सर्वर ने इसे भेजा है, और इस संबंध में बातचीत की गई है.19 जब क्या कैसे हेरिट्रिक्स एक "फ्रंटियर" का उपयोग करके काम करता है—एक परिष्कृत रेखा प्रबंधन प्रणाली जो तय करती है कि अगला कौन सा यूआरएल देखें. यह सख्त "अच्छेपन" नीतियों का पालन करता है, robots.txt अवरोध प्रोटोकॉल का सम्मान करता है और अनुरोधों की आवृत्ति को सीमित करता है ताकि लक्ष्य सर्वरों को दुर्घटनाग्रस्त न होने दें.16 गतिशील वेब की संकट हालांकि, हेरिट्रिक्स को एक सरल वेब के लिए बनाया गया था - स्थिर HTML फ़ाइलों और हाइपरलिंकों का एक वेब। हेरिट्रिक्स सर्वर द्वारा वितरित प्रारंभिक एचटीएमएल को कैप्चर करता है. लेकिन ट्विटर (अब एक्स) या फेसबुक जैसे आधुनिक साइट पर, कि प्रारंभिक एचटीएमएल अक्सर सिर्फ एक खाली स्टैफ़लिंग है. वास्तविक सामग्री गतिशील रूप से उपयोगकर्ता के ब्राउज़र में चलने वाले जावास्क्रिप्ट कोड द्वारा लोड की जाती है Heritrix, एक मूर्ख डाउनलोडर होने के नाते, इस कोड को निष्पादित नहीं कर सका. परिणाम अक्सर एक पृष्ठ की टूटी हुई, खाली कोशिका थी—एक डिजिटल भूत शहर.17 के बाद Brozzler और Umbra की वृद्धि "जीवनशील वेब" से लड़ने के लिए, आर्केड को अपने उपकरणों को विकसित करना पड़ा. आधुनिक आर्केड स्टैक में शामिल हैं और Umbra, उपकरण जो एक क्रैलर और एक वेब ब्राउज़र के बीच लाइन को अस्पष्ट करते हैं। Brozzler ब्राउज़र Brozzler (एक "ब्राउज़र" और "क्रूलर" का एक पोर्टमैनव) Google Chrome ब्राउज़र के एक "हेडलेस" संस्करण का उपयोग करके पृष्ठों को बिल्कुल उसी तरह प्रदर्शित करता है जैसा एक उपयोगकर्ता उन्हें देखता है. यह जावास्क्रिप्ट चलाता है, मेनू का विस्तार करता है, और एनीमेशन खेलेगा. सामग्री को कब्जा करने के लिए. यह फ़ाइल को इंस्टाग्राम और इंटरैक्टिव समाचार लेख जैसे जटिल साइटों को बनाए रखने की अनुमति देता है जो पारंपरिक क्रॉलर के लिए अदृश्य होंगे.17 पहले Umbra एक सहायक उपकरण के रूप में कार्य करता है, ब्राउज़र ऑटोमेशन का उपयोग मानव व्यवहार को नकल करने के लिए करता है. यह एक पृष्ठ को अंतहीन लोड फ़ीड को सक्रिय करने के लिए "स्क्रॉल" करता है, छिपे हुए लिंक को प्रकट करने के लिए ड्रॉप-डाउन मेनू पर झुकता है, और बटन क्लिक करता है. ये कार्य नए यूआरएल को प्रकट करते हैं जिन्हें फिर कैप्चर के लिए क्रॉलर में वापस डाला जाता है. इस बदलाव को काफी अधिक कंप्यूटिंग शक्ति की आवश्यकता होती है. Chrome में एक पृष्ठ का प्रदर्शन करने के लिए सिर्फ एक टेक्स्ट फ़ाइल को डाउनलोड करने की तुलना में अधिक CPU चक्र की मात्रा के आदेश लेते हैं. इसने फ़ाइल को उच्च भरोसेमंदता के क्रैकिंग में अधिक चयनित और लक्षित करने के लिए मजबूर किया है, उच्च मूल्य वाले गतिशील साइटों के लिए संसाधन-अनुकूल ब्राउज़र क्रैकिंग को आरक्षित करते हुए स्टैटिक वेब के लिए हल्के उपकरणों का उपयोग करते हुए.17 "Save Page Now" क्रांति शायद हाल के वर्षों में सबसे महत्वपूर्ण तकनीकी बदलाव क्रॉलिंग की लोकतांत्रिकता है. Save Page Now सुविधा किसी भी उपयोगकर्ता को तुरंत एक विशिष्ट URL का क्रॉलिंग शुरू करने की अनुमति देती है. यह निर्धारित, एल्गोरिथिक क्रॉलिंग को दूर करता है और एक उच्च प्राथमिकता कार्य सीधे इंजेक्शन लाइन में डालता है. इन ब्राउज़र-आधारित प्रौद्योगिकियों द्वारा संचालित, सहेजें पेज अब पत्रकारों, शोधकर्ताओं और तथ्यों की जाँच करने वालों के लिए एक महत्वपूर्ण उपकरण बन गया है. 2025 में, यह अक्सर लिंक टूटने के खिलाफ रक्षा का पहला लाइन है, जिससे उपयोगकर्ताओं को एक ट्वीट या समाचार लेख का अपरिवर्तनीय रिकॉर्ड बनाने की अनुमति मिलती है। Alexa इंटरनेट कनेक्शन अलेक्सा इंटरनेट के बारे में बात करने के बिना अलेक्सा के क्रैकिंग इतिहास पर चर्चा करना असंभव है. 1996 में ब्रूस्टर कैले द्वारा आरेख के साथ स्थापित, अलेक्सा एक लाभकारी कंपनी थी जो ट्रैफ़िक विश्लेषण प्रदान करने के लिए वेब पर क्रैकिंग कर रही थी (उस प्रसिद्ध "अलेक्सा रैंक"). लगभग दो दशकों के लिए, एलेक्सा आरेख के डेटा का मुख्य स्रोत था. एलेक्सा अपने स्वयं के व्यावसायिक उद्देश्यों के लिए वेब को क्रॉलिंग करेगा और फिर एक प्रतिबंध की अवधि के बाद इंटरनेट आरेख को क्रॉलिंग डेटा दान करेगा. इस सहकारिता रिश्ते ने आरेख को अपने स्वयं के विशाल क्रॉलिंग इन्फ्रास्ट्रक्चर चलाने की आवश्यकता के बिना बड़े पैमाने पर, निरंतर डेटा का प्रवाह प्रदान किया. हालांकि, अमेज़ॅन (जिसने 1999 में एलेक्सा को अधिग्रहण किया) द्वारा मई 2022 में एलेक्सा सेवा को रोकने के साथ, आरेख को अपने स्वयं के क्रॉलिंग इन्फ्रास्ट्रक्चर और साझेदारों जैसे Common Crawl पर अधिक भरोसा करना भाग III: जीवित रहने की अर्थव्यवस्था बेकार के लिए पैसा एक शीर्ष स्तर की वैश्विक वेबसाइट चलाने के लिए आमतौर पर एक Google या एक मेटा की बजट की आवश्यकता होती है. इंटरनेट आरेख दुनिया में सबसे अधिक देखी जाने वाली वेबसाइटों में से एक के रूप में संचालन करने में कामयाब होती है, एक बजट जो आश्चर्यजनक रूप से मामूली है. कोई विज्ञापन, पाठकों के लिए कोई सदस्यता शुल्क, और कोई डेटा खनन आय के साथ एक संगठन 200 petabytes डेटा ऑनलाइन कैसे रखता है? वित्तीय लेजर वित्तीय दस्तावेजों (फॉर्म 990) और वार्षिक रिपोर्टों के अनुसार, इंटरनेट आरेख का वार्षिक आय $ 25 मिलियन से $ 30 मिलियन के बीच भिन्न है। मुख्य आय ड्राइवर योगदान और अनुदान हैं, जो आमतौर पर कुल आय के 60-70% का प्रतिनिधित्व करते हैं। माइक्रो-दान: उपयोगकर्ताओं को $ 5 या $ 10 के लिए पूछने का "विकिपीडिया मॉडल"। प्रमुख अनुदान: मेलोन फाउंडेशन, कैले / ऑस्टिन फाउंडेशन, और फिलेकोइन फाउंडेशन जैसे दयालु संगठनों से वित्त पोषण.25 दूसरा प्रमुख राजस्व प्रोग्राम सेवाएं हैं, विशेष रूप से डिजिटलकरण और आर्केजिंग सेवाएं. आर्केजिंग सिर्फ एक पुस्तकालय नहीं है; यह एक सेवा प्रदाता है। Archive-It: यह सदस्यता सेवा संस्थानों (लिब्रेरी, विश्वविद्यालय, सरकारों) को अपने स्वयं के संचालित वेब आरेखों का निर्माण करने की अनुमति देती है। सदस्यता $ 2,400 / वर्ष के आसपास शुरू होती है 100 जीबी भंडारण के लिए और एक टेराबाइट के लिए $ 12,000 / वर्ष तक बढ़ जाती है। डिजिटलेशन सेवाएं: आर्केज डिजिटलेशन केंद्रों का संचालन करता है जहां यह भागीदारों के लिए किताबें और अन्य मीडिया स्कैन करता है. पुस्तक स्कैनर - V आकार के कस्टम मशीनों और पैर-पेडल संचालित कैमरों के साथ - किताबों के गैर विनाशकारी स्कैन की अनुमति देते हैं. भागीदारों ने अपनी संग्रहों को डिजिटल करने के लिए प्रति पृष्ठ (उदाहरण के लिए, बंधे पुस्तकों के लिए $ 0.15 प्रति पृष्ठ) भुगतान किया। Vault सेवाएं: एक नई पेशकश, Vault एक बार शुल्क (उदाहरण के लिए, $ 1,000 प्रति टेराबाइट) के लिए डिजिटल भंडारण भंडारण प्रदान करता है। एक Petabyte की लागत रजिस्टर की लागत पक्ष मजदूरी और मजदूरी (लगभग आधे बजट) और आईटी बुनियादी ढांचे द्वारा नियंत्रित है. हालांकि, फ़िल्म के "पेटाबॉक्स अर्थशास्त्र" इसे वाणिज्यिक क्लाउड प्रदाताओं की लागत के एक खंड पर डेटा संग्रहीत करने की अनुमति देता है. अमेज़ॅन एस 3 पर 100 पेटाबाइट्स को स्टोरेज करने की लागत पर विचार करें। मानक दरों ($ 0,021 प्रति जीबी प्रति माह) पर, स्टोरेज की लागत प्रति माह $ 2.1 मिलियन से अधिक होगी। कर्मचारियों, इमारतों, कानूनी रक्षा और हार्डवेयर के लिए ऑपरेटिंग बजट एक वर्ष के लिए AWS पर अपने डेटा को संग्रहीत करने की लागत से कम है। वार्षिक अपने हार्डवेयर के स्वामित्व के माध्यम से, उच्च घनत्व आर्किटेक्चर PetaBox का उपयोग करके, एयर कंडीशनिंग लागत से बचने के लिए, और खुले स्रोत सॉफ्टवेयर का उपयोग करके, आर्केज एक भंडारण लागत दक्षता प्राप्त करता है जो वाणिज्यिक क्लाउड दरों की तुलना में बड़े पैमाने पर बेहतर है.25 भाग IV: कानूनी लड़ाई क्षेत्र जब संरक्षण कॉपीराइट से मिलता है इंटरनेट आरेख का मिशन "सभी ज्ञान के लिए सार्वभौमिक पहुंच" है. यह मिशन नैतिक रूप से आश्चर्यजनक है लेकिन कानूनी रूप से खतरनाक है. जैसा कि आरेख सरल वेब पृष्ठों से परे किताबों, संगीत और सॉफ्टवेयर में विस्तारित हुई, यह वेब के "अनिहित लाइसेंस" के अपेक्षाकृत सुरक्षित बंदरगाह से कॉपीराइट कानून के भारी रूप से मजबूत क्षेत्र में चली गई। राष्ट्रीय आपातकालीन पुस्तकालय और Hachette v. इंटरनेट फ़ाइल Hachette v. इंटरनेट फ़ाइल COVID-19 महामारी के दौरान तनाव 2020 में विस्फोट हुआ. भौतिक पुस्तकालयों को बंद करने के साथ, आर्किटेक्ट ने "राष्ट्रीय आपातकालीन पुस्तकालय" लॉन्च किया, अपने डिजिटल पुस्तकों के संग्रह पर इंतजार सूची को हटा दिया. इस कदम ने चार प्रमुख प्रकाशनकारों - हैचेट, हार्परकॉलिन्स, वाइली, और पेंगुइन रैंडम हाउस - को बड़े पैमाने पर कॉपीराइट उल्लंघन का आरोप लगाते हुए मुकदमा लगाने के लिए प्रेरित किया। संग्रहालय की पुस्तक कार्यक्रम का कानूनी कोर नियंत्रित डिजिटल उधार (सीडीएल) था. सिद्धांत का तर्क था कि यदि एक पुस्तकालय में एक भौतिक पुस्तक है, तो उसे उस पुस्तक को स्कैन करने और डिजिटल प्रति को एक बार में एक व्यक्ति को उधार देने की अनुमति दी जानी चाहिए, जब तक कि भौतिक पुस्तक को प्रवाह से बाहर निकाला जाता है जबकि डिजिटल पुस्तक उधार में है. यह "अपने-उधार" अनुपात भौतिक उधार के प्रतिबंधों को नकल करता है. हालांकि, मार्च 2023 में एक निराशाजनक फैसले में, एक संघीय न्यायाधीश ने इस रक्षा को अस्वीकार कर दिया, जिसने फैसला किया कि आर्केड का स्कैन और उधार "असमान्य उपयोग" नहीं था. अदालत ने पाया कि डिजिटल प्रतियां प्रकाशनकों के स्वयं के वाणिज्यिक ई-बुक बाजारों के साथ प्रतिस्पर्धा करती थीं. आर्केड का तर्क कि इसका उपयोग "अनुकूल" था (अनुकूलन को अधिक कुशल बनाना) अस्वीकार किया गया था. सितंबर 2024 में, द्वितीय सर्किट अपील कोर्ट ने इस फैसले को बनाए रखा, और 2024 के अंत तक, आर्केड ने घोषणा की कि वह सुप्रीम कोर्ट में अपील नहीं करेगा. निवास में रहने वाले फाइल को अपने उधार कार्यक्रम से लगभग 500,000 पुस्तकों को हटाने के लिए मजबूर किया गया था - विशेष रूप से उन लोगों के लिए जिनके लिए एक वाणिज्यिक ई-पुस्तक संस्करण मौजूद है। हैसियत Great 78 परियोजना और सोनी निपटान जबकि किताबों की लड़ाई गुस्से में थी, ऑडियो पक्ष पर एक दूसरा फ्रंट खुल गया. ग्रेट 78 प्रोजेक्ट का उद्देश्य 20 वीं शताब्दी की शुरुआत से 78rpm रिकॉर्ड डिजिटल करना था. ये शेलैक डिस्क खराब, पुराने हैं, और अक्सर खराब हो रहे हैं. आर्किटेक्ट ने तर्क दिया कि उन्हें डिजिटल करना एक संरक्षण अनिवार्य था.37 प्रमुख रिकॉर्डिंग लेबल, जिसमें सोनी म्यूजिक और यूनिवर्सल म्यूजिक ग्रुप शामिल थे, असहमत थे. उन्होंने 2023 में दावा किया कि परियोजना एक "अधिकारिक रिकॉर्डिंग स्टोर" के रूप में कार्य करती थी जिसने फ्रैंक सिनात्रा और बिली होली जैसे कलाकारों द्वारा हजारों गीतों के कॉपीराइट का उल्लंघन किया था. उन्होंने नुकसान की मांग की जो 600 मिलियन डॉलर से अधिक तक पहुंच सकती थी – एक अस्तित्वगत खतरा है। सितंबर 2025 में, यह मुकदमा भी एक समझौते तक पहुंच गया. हालांकि शर्तें गोपनीय रहती हैं, फैसले ने आर्किड को संभावित रूप से विफलता का कारण बनने वाले एक परीक्षण से बचने की अनुमति दी. हालांकि, तत्काल परिणाम कई कॉपीराइट-रहित ऑडियो रिकॉर्डिंग तक पहुंच को हटा दिया गया, उन्हें सामान्य जनता के बजाय शोधकर्ताओं के लिए प्रतिबंधित किया। यह पैटर्न – निपटान और प्रतिबंध के बाद – 2025 में इंटरनेट आर्किड के लिए नई वास्तविकता को चिह्नित करता है: एक अधिक सावधानीपूर्वक, कानूनी रूप से प्रतिबंधित संरक्षण मॉडल के लिए "खेल और चीजों को तोड़ें" दृष्टिकोण से वापसी। Federal Depository Shield के बारे में इन नुकसानों के बीच एक प्रमुख रणनीतिक जीत में, इंटरनेट आरेख को संयुक्त राज्य अमेरिका के सीनेट द्वारा जुलाई 2025 में एक संघीय भंडारण पुस्तकालय (एफडीएल) के रूप में नियुक्त किया गया था। इस नाम से कम से कम एक हिस्से के संग्रह के लिए कानूनी सुरक्षा का एक महत्वपूर्ण परत प्रदान की जाती है. हालांकि यह कॉपीराइट वाले संगीत या वाणिज्यिक उपन्यासों की रक्षा नहीं करती है, लेकिन यह आर्केड की भूमिका को देश की सूचना बुनियादी ढांचे का एक अनिवार्य घटक के रूप में मजबूत करती है, जिससे इसे पूरी तरह से बंद करना राजनीतिक और कानूनी रूप से कठिन हो जाता है. भाग V: भविष्य-आधारित अतीत डिस्काउंट और "समय का अंत" 2020-2025 के कानूनी खतरों ने एक महत्वपूर्ण कमजोरी को उजागर किया: केंद्रकरण. यदि एक अदालत के आदेश या एक विनाशकारी आग Funston Avenue मुख्यालय को प्रभावित करेगी, तो वेब के इतिहास की प्राथमिक प्रति खोई जा सकती है. अगले दशक के लिए आर्केड की रणनीति अस्तित्व को अवरुद्ध करना है. Decentralized Web (DWeb) के बारे में जानकारी फ़ाइल DWeb आंदोलन के पीछे एक प्राथमिक ड्राइवर है, जो एक वेब बनाने की कोशिश करता है जो वितरित किया जाता है बल्कि केंद्रित किया जाता है. लक्ष्य फ़ाइल के डेटा को एक वैश्विक नेटवर्क के माध्यम से संग्रहीत करना है, जिससे किसी भी इकाई के लिए - चाहे यह एक सरकार, एक कॉर्पोरेट, या एक प्राकृतिक आपदा हो - इसे ऑफ़लाइन लेना असंभव हो जाता है.5 तकनीकी रूप से, इसमें IPFS (इंटरप्लेनेटरी फ़ाइल सिस्टम) और Filecoin जैसे प्रोटोकॉल के साथ एकीकरण शामिल है। आईपीएफएस: अनुमति देता है कि सामग्री को इसकी क्रिप्टोग्राफिक हैश द्वारा संबोधित किया जाए (जो यह है) इसके बजाय इसकी स्थिति (जहाँ यह है) यदि आरेख का सर्वर अवरुद्ध है, तो एक उपयोगकर्ता किसी भी नेटवर्क में किसी भी अन्य नोड से एक ही WARC फ़ाइल प्राप्त कर सकता है जो एक प्रति रखता है.5 Filecoin: भंडारण के लिए एक प्रोत्साहन परत प्रदान करता है. 2025 में, आरेख महत्वपूर्ण संग्रहों को अपलोड करना शुरू कर दिया, जैसे कि "आखिरी अवधि" सरकारी वेब आरेख Filecoin नेटवर्क को ठंडा भंडारण के लिए। 2025 का "मौत का अंत" Crawl हर चार साल में, आर्केड एक बड़े पैमाने पर प्रयास करता है (डॉट)gov और (डॉट)mil वेबसाइटों को राष्ट्रपति संक्रमण से पहले क्रैक करने के लिए. 2024/2025 क्रैक इतिहास में सबसे बड़ा था, 500 से अधिक टेराबाइट सरकारी डेटा पकड़ रहा है.45 इस परियोजना ने इतिहास की निगरानी के रूप में आर्केड की भूमिका को उजागर किया, यह सुनिश्चित करने के लिए कि जलवायु डेटा, जनगणना रिपोर्ट, और नीति दस्तावेज़ जब एक नई प्रशासन कार्यालय ले जाता है तो गायब नहीं होते हैं. जनरेटिव एआई और उचित उपयोग मैंने Brewser Kahle को 2025 और जनरेटिव एआई के बारे में ईमेल किया, और यहां उनकी उद्धरण है: "जीनेरेटिव एआई ने कुछ वेबसाइटों को अपने साइटों को ब्लॉक करके डॉलर संकेतों का पीछा करने के लिए प्रेरित किया है या मुकदमा शुरू कर दिया है. यह सांस्कृतिक विरासत संस्थानों, जैसे कि इंटरनेट आर्केज की मदद नहीं करता है और अक्सर सामान्य रूप से उपयोगकर्ताओं को चोट पहुंचाता है। इंटरनेट आरेख मुक्त और खुले रहेंगे ताकि लोगों को हमारे बदलते दुनिया को संभालने में मदद मिल सके. आरेख एआई शोधकर्ताओं और कंपनियों के लिए खुले डेटा सेट प्रदान करेगी ताकि वे अपनी सेवाओं का लाभ उठा सकें. एक संगठन के रूप में इंटरनेट आरेख एआई उपकरणों का उपयोग कर रहे हैं ताकि मेटाडेटा सौंपने और स्कैनिंग गतिविधियों को तेज किया जा सके. " "जीनेरेटिव एआई ने कुछ वेबसाइटों को अपने साइटों को ब्लॉक करके डॉलर संकेतों का पीछा करने के लिए प्रेरित किया है या मुकदमा शुरू कर दिया है. यह सांस्कृतिक विरासत संस्थानों, जैसे कि इंटरनेट आर्केज की मदद नहीं करता है और अक्सर सामान्य रूप से उपयोगकर्ताओं को चोट पहुंचाता है। इंटरनेट आरेख मुक्त और खुले रहेंगे ताकि लोगों को हमारे बदलते दुनिया को संभालने में मदद मिल सके. आरेख एआई शोधकर्ताओं और कंपनियों के लिए खुले डेटा सेट प्रदान करेगी ताकि वे अपनी सेवाओं का लाभ उठा सकें. एक संगठन के रूप में इंटरनेट आरेख एआई उपकरणों का उपयोग कर रहे हैं ताकि मेटाडेटा सौंपने और स्कैनिंग गतिविधियों को तेज किया जा सके. " अंत: अब लंबे समय तक जैसा कि हम 21 वीं शताब्दी में गहराई से आगे बढ़ते हैं, इंटरनेट आरेख एक विरोधाभास के रूप में खड़ा है. यह एक तकनीकी बेमॉथ है, एक पैमाने पर काम करता है जो सिलिकॉन वेलियन विशालियों के साथ प्रतिस्पर्धा करता है, फिर भी यह एक चर्च में स्थित है और पुस्तकालयियों द्वारा संचालित किया जाता है. यह एक संवेदनशील संस्था है, मुकदमे और बजट प्रतिबंधों से पीड़ित है, फिर भी यह मानवजाति ने कभी बनाया है सबसे मजबूत स्मृति बैंक भी है. 2025 की घटनाएं - "ट्रिलियन पृष्ठ" मीलस्टोन, दर्दनाक कानूनी निपटान, और decentralized storage की दिशा में मोड़ - संगठन की परिपक्वता को चिह्नित करते हैं. यह अब प्रारंभिक वेब के "वॉल्ड वेस्ट" नहीं है. यह एक टूटा हुआ लेकिन प्रतिरोधी संस्था है, अपनी मशीनरी और अपनी मिशन को एक दुनिया में जीवित रहने के लिए अनुकूलित करती है जो मुक्त, सार्वभौमिक पहुंच की अवधारणा के लिए तेजी से शत्रुतापूर्ण है. और जनरेटिव एआई की बढ़ती लोकप्रियता सार्वजनिक क्षेत्र आर्केड के भविष्य के अस्तित्व के लिए एक और अप्रत्याशित आयाम जोड़ती है. पेटाबॉक्स के अंदर, ड्राइव लगातार घूमते रहते हैं। उनके उत्पन्न गर्मी इमारत को गर्म करती है, जो रिचमंड जिले के अंधेरे को अंधेरे में रखती है. और उन प्लेटफार्मों पर कहीं, ट्रिलियन शून्य और उन के बीच, एकमात्र सबूत है कि कल की डिजिटल दुनिया कभी भी मौजूद थी. मशीन याद करती है, इसलिए हमें नहीं करना पड़ता। संदर्भ Wayback Machine - विकिपीडिया, एक्सेस किया गया 8 जनवरी, 2026, https://en.wikipedia.org/wiki/Wayback_Machine वापस देखने के लिए "इंटरनेट को संरक्षित करना" से 1996 e Internet Archive Blogs, accessed January 8, 2026, https://blog.archive.org/2025/09/02/looking-back-on-preserving-the-internet-from-1996/ Petabox - इंटरनेट आर्किड, एक्सेस किया गया 8 जनवरी, 2026, https://archive.org/web/petabox.php PetaBox - विकिपीडिया, एक्सेस किया गया 8 जनवरी, 2026, https://en.wikipedia.org/wiki/PetaBox IPFS: बेहतर वेब के लिए निर्माण ब्लॉक IPFS, 8 जनवरी, 2026 तक पहुंच गया, https://ipfs.tech/ internetarchive/dweb-archive - GitHub, एक्सेस किया गया 8 जनवरी, 2026, https://github.com/internetarchive/dweb-archive इंटरनेट आर्किटेक्ट - विकिपीडिया, एक्सेस किया गया 8 जनवरी, 2026, https://en.wikipedia.org/wiki/Internet_Archive PetaBox के साथ वेब मेमोरी बनाने - eWeek, accessed January 8, 2026, https://www.eweek.com/storage/making-web-memories-with-the-petabox/ PetaBox - Internet Archive अनौपचारिक विकि, एक्सेस किया गया 8 जनवरी, 2026, https://internetarchive.archiveteam.org/index.php/PetaBox The Fourth Generation Petabox eBay Internet Archive Blogs, accessed January 8, 2026, https://blog.archive.org/2010/07/27/the-fourth-generation-petabox/ Internet Archive Hits One Trillion Web Pages - Hackaday, accessed जनवरी 8, 2026, https://hackaday.com/2025/11/18/internet-archive-hits-one-trillion-web-pages/ Internet Archive के Wayback Machine को एक नया डेटा सेंटर मिलता है - Computerworld, जो 8 जनवरी, 2026 तक पहुंच गया था https://www.computerworld.com/article/1562759/the-internet-archive-s-wayback-machine-gets-a-new-data-center.html Internet Archive to Live in Sun Blackbox - Data Center Knowledge, accessed January 8, 2026, https://www.datacenterknowledge.com/business/internet-archive-to-live-in-sun-blackbox Internet Archive: A Meat World Tour, Root Simple, accessed 8 जनवरी, 2026, https://www.rootsimple.com/2023/08/inside-the-internet-archive-a-meat-world-tour/ Internet Archive Preserves Data from World Wide Web - Richmond Review/Sunset Beacon, accessed January 8, 2026, https://richmondsunsetnews.com/2017/03/11/internet-archive-preserves-data-from-world-wide-web/ Heritrix - विकिपीडिया, एक्सेस किया गया 8 जनवरी, 2026, https://en.wikipedia.org/wiki/Heritrix Archive-It Crawling Technology, accessed 8 जनवरी, 2026, https://support.archive-it.org/hc/en-us/articles/115001081186-Archive-It-Crawling-Technology WARCreate: Create Wayback-Consumable WARC Files From Any Webpage - ODU Digital Commons, accessed January 8, 2026, https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1154&context=computerscience_fac_pubs The WARC Format - IIPC Community Resources, accessed January 8, 2026, https://iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1/ क्या है heritrix? - हॉल: एआई, एक्सेस किया गया जनवरी 8, 2026, https://usehall.com/agents/heritrix-bot स्ट्रीमिंग मीडिया को शामिल करने वाली वेबसाइटों की संग्रह, 8 जनवरी, 2026 तक पहुंच गई https://library.imaging.org/admin/apis/public/api/ist/website/downloadArticle/archiving/14/1/art00004 अक्टूबर 2019 अक्टूबर 2019 अक्टूबर 2019 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 अक्टूबर 2016 Alexa Crawls - Internet Archive, accessed 8 जनवरी, 2026, https://archive.org/details/alexacrawls Alexa Internet - विकिपीडिया, एक्सेस किया गया 8 जनवरी, 2026, https://en.wikipedia.org/wiki/Alexa_Internet Internet Archive - Nonprofit Explorer - ProPublica, accessed January 8, 2026, https://projects.propublica.org/nonprofits/organizations/943242767 2024/2025 अंत की अवधि वेब आर्किटेक्ट पर अद्यतन - बेन वर्डमुलर, 8 जनवरी, 2026 तक पहुंच गया https://werd.io/update-on-the-20242025-end-of-term-web-archive/ Archive-Itḳ History as Code, accessed जनवरी 8, 2026, https://www.historyascode.com/tools-data/archive-it/ कीमतें - इंटरनेट आर्केजिंग डिजिटलेशन सेवाएं, एक्सेस किया गया 8 जनवरी, 2026 https://digitization.archive.org/pricing/ यादृच्छिक द्वीप क्षेत्र भंडारण है कि मानवता के सबसे बड़े संग्रहालयों में से एक है - SFGATE, 8 जनवरी, 2026 तक पहुंच गया, https://www.sfgate.com/tech/article/bay-area-warehouse-internet-archive-19858332.php Vault मूल्य मॉडल - Vault समर्थन, एक्सेस किया गया जनवरी 8, 2026, https://vault-webservices.zendesk.com/hc/en-us/articles/22896482572180-Vault-Pricing-Model Hachette v. Internet Archive - विकिपीडिया, एक्सेस किया गया 8 जनवरी, 2026, https://en.wikipedia.org/wiki/Hachette_v._Internet_Archive Hachette Book Group, Inc. v. Internet Archive, Copyright Cases, accessed January 8, 2026, https://copyrightalliance.org/copyright-cases/hachette-book-group-internet-archive/ Hachette Book Group, Inc. v. Internet Archive, No. 23-1260 (2d Cir. 2024) - Justia Law, accessed January 8, 2026, https://law.justia.com/cases/federal/appellate-courts/ca2/23-1260/23-1260-2024-09-04.html Hachette Book Group v. Internet Archive and the Future of Controlled Digital Lending, accessed January 8, 2026, https://www.library.upenn.edu/news/hachette-v-internet-archive इंटरनेट आरेख का खुला पुस्तकालय और कॉपीराइट कानून: अंतिम अध्याय, 8 जनवरी, 2026 तक पहुंच गया https://www.lutzker.com/ip_bit_pieces/internet-archives-open-library-and-copyright-law-the-final-chapter/ What the Hachette v. Internet Archive Decision Means for Our Library, accessed January 8, 2026, https://blog.archive.org/2023/08/17/what-the-hachette-v-internet-archive-decision-means-for-our-library/ Labels settle copyright lawsuit against Internet Archive over streaming of vintage vinyl records - Music Business Worldwide, accessed January 8, 2026, https://www.musicbusinessworldwide.com/labels-settle-copyright-lawsuit-against-internet-archive-over-streaming-of-vintage-vinyl-records/ Internet Archive settles $621 Million Lawsuit with Major Labels Over Vinyl Preservation Project - Consequence.net, accessed January 8, 2026, https://consequence.net/2025/09/internet-archive-labels-settle-copyright-lawsuit/ A Update on the Great 78s Lawsuit Bharat Internet Archive Blogs, accessed January 8, 2026, https://blog.archive.org/2025/09/15/an-update-on-the-great-78s-lawsuit/ Music Publishers, Internet Archive Settle Lawsuit Over Old Recordings - GigaLaw, accessed January 8, 2026, https://giga.law/daily-news/2025/9/15/music-publishers-internet-archive-settle-lawsuit-over-old-recordings Internet Archive Settles Copyright Suit with Sony, Universal Over Vintage Records, accessed January 8, 2026, https://www.webpronews.com/internet-archive-settles-copyright-suit-with-sony-universal-over-vintage-records/ अक्टूबर 2019 - इंटरनेट आर्किटेक्ट ब्लॉग, एक्सेस किया 8 जनवरी, 2026, https://blog.archive.org/2025/07/ Decentralized Web FAQ - Internet Archive Blogs, accessed 8 जनवरी, 2026, https://blog.archive.org/2018/07/21/decentralized-web-faq/ Decentralized Web Server: Possible Approach with Cost and Performance Estimates, accessed January 8, 2026, https://blog.archive.org/2016/06/23/decentalized-web-server-possible-approach-with-cost-and-performance-estimates/ अद्यतन पर 2024/2025 अंत की अवधि वेब आर्किटेबल इंटरनेट ..., एक्सेस जनवरी 8, 2026, https://blog.archive.org/2025/02/06/update-on-the-2024-2025-end-of-term-web-archive/ The End of Term Web Archive से प्रगति अद्यतन: 100 मिलियन वेबपेज एकत्र किए गए, 500 TB से अधिक डेटा : r/DataHoarder - Reddit, accessed January 8, 2026, https://www.reddit.com/r/DataHoarder/comments/1ijkdjl/progress_update_from_the_end_of_term_web_archive/ https://en.wikipedia.org/wiki/Wayback_Machine https://blog.archive.org/2025/09/02/looking-back-on-preserving-the-internet-from-1996/ https://archive.org/web/petabox.php https://en.wikipedia.org/wiki/PetaBox https://ipfs.tech/ https://github.com/internetarchive/dweb-archive https://en.wikipedia.org/wiki/Internet_Archive https://www.eweek.com/storage/making-web-memories-with-the-petabox/ https://internetarchive.archiveteam.org/index.php/PetaBox https://blog.archive.org/2010/07/27/the-fourth-generation-petabox/ https://hackaday.com/2025/11/18/internet-archive-hits-one-trillion-web-pages/ https://www.computerworld.com/article/1562759/the-internet-archive-s-wayback-machine-gets-a-new-data-center.html https://www.datacenterknowledge.com/business/internet-archive-to-live-in-sun-blackbox https://www.rootsimple.com/2023/08/inside-the-internet-archive-a-meat-world-tour/ https://richmondsunsetnews.com/2017/03/11/internet-archive-preserves-data-from-world-wide-web/ https://en.wikipedia.org/wiki/Heritrix https://support.archive-it.org/hc/en-us/articles/115001081186-Archive-It-Crawling-Technology https://digitalcommons.odu.edu/cgi/viewcontent.cgi?article=1154&context=computerscience_fac_pubs https://iipc.github.io/warc-specifications/specifications/warc-format/warc-1.1/ https://usehall.com/agents/heritrix-bot https://library.imaging.org/admin/apis/public/api/ist/website/downloadArticle/archiving/14/1/art00004 https://blog.archive.org/2025/03/ https://archive.org/details/alexacrawls https://en.wikipedia.org/wiki/Alexa_Internet https://projects.propublica.org/nonprofits/organizations/943242767 https://werd.io/update-on-the-20242025-end-of-term-web-archive/ https://www.historyascode.com/tools-data/archive-it/ https://digitization.archive.org/pricing/ https://www.sfgate.com/tech/article/bay-area-warehouse-internet-archive-19858332.php https://vault-webservices.zendesk.com/hc/en-us/articles/22896482572180-Vault-Pricing-Model https://en.wikipedia.org/wiki/Hachette_v._Internet_Archive https://copyrightalliance.org/copyright-cases/hachette-book-group-internet-archive/ https://law.justia.com/cases/federal/appellate-courts/ca2/23-1260/23-1260-2024-09-04.html https://www.library.upenn.edu/news/hachette-v-internet-archive https://www.lutzker.com/ip_bit_pieces/internet-archives-open-library-and-copyright-law-the-final-chapter/ https://blog.archive.org/2023/08/17/what-the-hachette-v-internet-archive-decision-means-for-our-library/ https://www.musicbusinessworldwide.com/labels-settle-copyright-lawsuit-against-internet-archive-over-streaming-of-vintage-vinyl-records/ https://consequence.net/2025/09/internet-archive-labels-settle-copyright-lawsuit/ https://blog.archive.org/2025/09/15/an-update-on-the-great-78s-lawsuit/ https://giga.law/daily-news/2025/9/15/music-publishers-internet-archive-settle-lawsuit-over-old-recordings https://www.webpronews.com/internet-archive-settles-copyright-suit-with-sony-universal-over-vintage-records/ https://blog.archive.org/2025/07/ https://blog.archive.org/2018/07/21/decentralized-web-faq/ https://blog.archive.org/2016/06/23/decentalized-web-server-possible-approach-with-cost-and-performance-estimates/ https://blog.archive.org/2025/02/06/update-on-the-2024-2025-end-of-term-web-archive/ https://www.reddit.com/r/DataHoarder/comments/1ijkdjl/progress_update_from_the_end_of_term_web_archive/