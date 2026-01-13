इंटरनेट आरेख का व्यापक इंजीनियरिंग और ऑपरेटिंग विश्लेषण प्रविष्टि: अंधेरे में इतिहास का हौसला यदि आप सैन फ्रांसिस्को के रिचमंड जिले में फोंस्टन एवेन्यू पर पूर्व क्रिश्चियन साइंस चर्च के नौका में चुपचाप खड़े रहते हैं, तो आप इंटरनेट की सांस की ध्वनि सुन सकते हैं. यह एक कॉल-अप मॉडेम की अराजक चिल्लाहट या एक नोटिस की पिंग नहीं है, बल्कि एक स्थिर, औद्योगिक हाउम - सैकड़ों घूमने वाले हार्ड ड्राइवों और उच्च गति वाले प्रशंसकों द्वारा उत्पन्न एक कम आवृत्ति थर्म। यहां, एक इमारत की पुनर्वित न्यूक्लासिक स्तंभों और लकड़ी के पैरों के बीच, जो एक अलग तरह की स्थायित्व की आराधना करने के लिए बनाई गई थी, "वास्तविक" दुनिया की शारीरिक अभिव्यक्ति है। हम इंटरनेट को एक ईथरिक बादल के रूप में सोचने की प्रवृत्ति रखते हैं, कोई भूगोल या द्रव्यमान के बिना एक जगह। लेकिन इस इमारत में, इंटरनेट का वजन होता है। -एक ट्रिलियन से अधिक वेब पेज संग्रहीत किए गए हैं.1 इसमें 99 पेटाबाइट अनूठे डेटा होते हैं, एक संख्या जो बैकअप और रिडांडेशन के लिए लेखांकन करते समय 212 पेटाबाइट से अधिक तक बढ़ जाती है.3 Wayback मशीन Wayback मशीन ऑपरेशन का पैमाना आश्चर्यजनक है, लेकिन इंजीनियरिंग चुनौती और भी गहरा है. आप एक मशीन कैसे बनाते हैं जो वास्तविक समय में विशाल, गतिशील और लगातार बदलती वर्ल्ड वाइड वेब को अवशोषित कर सकती है? आप उस डेटा को सदियों तक कैसे संग्रहीत करते हैं जब औसत हार्ड ड्राइव केवल कुछ वर्षों तक रहता है? और शायद सबसे महत्वपूर्ण बात यह है कि आप बिजली, बैंडविड्थ और कानूनी रक्षा धन के लिए कैसे भुगतान करते हैं जो एक युग में प्रकाश को चालू रखने के लिए आवश्यक हैं जहां कॉपीराइट कानून और डिजिटल संरक्षण एक उच्च स्टॉक संघर्ष में बंद हैं? इस रिपोर्ट में इंटरनेट आरेख की यांत्रिकता की सटीकता के साथ गुजरता है. हम कस्टम बनाए गए पेटाबॉक्स सर्वरों की जांच करने के लिए शेड्यूल को खींचेंगे जो इमारत को एयर कंडीशनर के बिना गर्म करते हैं. हम वेब क्रॉलर के विकास को ट्रैक करेंगे – एलेक्सा इंटरनेट के प्रारंभिक टेप-आधारित डंप से लेकर 2025 के परिष्कृत ब्राउज़र-आधारित बॉट्स तक। हम इस गैर-लाभकारी विशाल के वित्तीय रजिस्टर का विश्लेषण करेंगे, यह पता लगाने के लिए कि यह एक बजट पर कैसे जीवित रहता है जो अपने सिलिकॉन Valley पड़ोसियों के लिए एक गोल गलती है. और अंत में, हम भविष्य की ओर देखेंगे, जहां "डिसेन्टरलाइ संग्रह को समझना डिजिटल स्मृति की भौतिक वास्तविकता को समझना है. यह 20,000 हार्ड ड्राइव, 45 मील के केबलिंग की कहानी है, और एक दृष्टि है जो 1996 में एक सरल, साहसी लक्ष्य के साथ शुरू हुई थी: "सभी ज्ञान के लिए सार्वभौमिक पहुंच"। भाग I: स्मृति की थर्मोडिनामी PetaBox वास्तुकला: घनत्व और गर्मी के लिए इंजीनियरिंग इंटरनेट आरेख का दिल पेटाबॉक्स है, एक स्टोरेज सर्वर जिसे आरेख के कर्मचारियों द्वारा एक विशिष्ट समस्या को हल करने के लिए अनुकूलित किया गया था: न्यूनतम बिजली की खपत और गर्मी के उत्पादन के साथ बड़ी मात्रा में डेटा संग्रहीत करना। 2000 के दशक की शुरुआत में, ईएमसी या नेटएप जैसी विशाल कंपनियों के ऑफ-टेलर उद्यम स्टोरेज समाधानों को बहुत महंगा और बिजली की भूख लगी थीं। , Archive के संस्थापक और एक कंप्यूटर इंजीनियर जिन्होंने पहले सुपर कंप्यूटर कंपनी Thinking Machines को स्थापित किया था, ने समस्या का एक अलग दर्शन के साथ दृष्टिकोण किया। उच्च प्रदर्शन के RAID पैराइलें के बजाय, Archive ने उपभोक्ता-ग्रेड भागों का उपयोग करके PetaBox का निर्माण किया। डिजाइन दर्शन अपने समय के लिए कट्टरपंथी था: महंगे RAID नियंत्रक के बजाय "केवल एक बैच डिस्क" (JBOD) का उपयोग करें, और हार्डवेयर के बजाय सॉफ़्टवेयर के माध्यम से डेटा रिडंडन को संभालें.4 बेरोजगारी के लिए बेरोजगारी के लिए घनत्व के विकास: टेराबाइट से पेटबाइट तक PetaBox की ट्रैक्चर मैग्नेटिक भंडारण पर लागू Moore के कानून में एक मामले का अध्ययन है. पहला PetaBox रैक, जून 2004 में संचालित, भंडारण घनत्व में एक खुलासा था. यह 100 टेराबाइट (टीबी) डेटा रखता था - उस समय एक विशाल राशि - जबकि केवल लगभग 6 किलोवाट बिजली का उपभोग करता था.1 इस परिप्रेक्ष्य में, 2003 में, पूरे वेवबैक मशीन केवल 12 टेराबाइट प्रति माह की दर से बढ़ रहा था. 2009 तक, यह दर प्रति माह 100 टेराबाइट पर कूद गया था, और PetaBox को विकास करना पड़ा.1 पेटाबॉक्स के इंजीनियरिंग विनिर्देश घनत्व के लिए एक अविश्वसनीय खोज को प्रकट करते हैं: \n \n \n \n \n \n \n \n \n \n \n \n \n \n Specification \n Generation 1 (2004) \n Generation 4 (2010) \n Current Generation (2024-2025) \n \n \n \n \n \n Capacity per Rack \n 100 TB \n 480 TB \n ~1.4 PB (1,400 TB) \n \n \n \n \n \n Drive Count \n ~40-80 drives \n 240 drives (2TB each) \n ~360+ drives (8TB+ each) \n \n \n \n \n \n Power per Rack \n 6 kW \n ~6-8 kW \n ~6-8 kW \n \n \n \n \n \n Heat Dissipation \n Utilized for building heat \n Utilized for building heat \n Utilized for building heat \n \n \n \n \n \n Processor Arch \n Low-voltage VIA C3 \n Intel Xeon E7-8870 (10-core) \n Modern High-Efficiency x86 \n \n \n \n \n \n Cooling \n Passive / Fan-assisted \n Passive / Fan-assisted \n Passive / Fan-assisted प्रति रैक क्षमता 100 टीबी 480 टीबी ~1.4 पीबी (1,400 टीबी) ड्राइव काउंटर - 40 से 80 ड्राइव 240 ड्राइव (2TB प्रत्येक) ~ 360+ ड्राइव (8TB + प्रत्येक) रैक के लिए शक्ति 6 किलोवाट 6 से 8 किलोवाट 6 से 8 किलोवाट गर्मी का विघटन इमारत गर्मी के लिए उपयोग किया जाता है इमारत गर्मी के लिए उपयोग किया जाता है इमारत गर्मी के लिए उपयोग किया जाता है ARCH प्रोसेसर कम वोल्टेज VIA C3 इंटेल Xeon E7-8870 (10-कोर) आधुनिक उच्च दक्षता x86 ठंडा प्रशंसक सहायता / Fan-assisted प्रशंसक सहायता / Fan-assisted प्रशंसक सहायता / Fan-assisted 1 चौथा पीटाबॉक्स, जो 2010 के आसपास पेश किया गया था, इस घनत्व का उदाहरण था। प्रत्येक रैक में 240 डिस्क होते थे, प्रत्येक में 2 टेराबाइट, 4 यू उच्च रैक मंचों में व्यवस्थित होते थे। इन इकाइयों को इंटेल Xeon प्रोसेसरों (विशेष रूप से बाद में अपग्रेड में E7-8870 श्रृंखला) द्वारा 12 जीबी रैम के साथ संचालित किया गया था। 2025 तक, भंडारण परिदृश्य फिर से बदल गया था। वर्तमान PetaBox रैक प्रति रैक 1.4 petabytes भंडारण प्रदान करते हैं. इस कूद को अधिक स्लॉट जोड़कर नहीं किया जाता है, बल्कि काफी बड़े ड्राइवों का उपयोग करके किया जाता है—8TB, 16TB, और यहां तक कि 22TB ड्राइव अब मानक हैं. 2016 में, आर्केज ने लगभग 20,000 व्यक्तिगत डिस्क ड्राइवों का प्रबंधन किया. उल्लेखनीय रूप से, जब 2012 और 2016 के बीच भंडारण क्षमता तीन गुना बढ़ गई, तो इन घनत्व सुधारों के कारण ड्राइवों की कुल संख्या अपेक्षाकृत स्थिर रह गई.11 ब्लैक बॉक्स का प्रयोग प्रभावी भंडारण के लिए अपनी खोज में, आरेख ने मॉड्यूलर डेटा सेंटर के साथ भी प्रयोग किया। 2007 में, आरेख ने सन माइक्रोसिस्टम्स के "ब्लैक बॉक्स" (आगे बाद सन मॉड्यूलर डेटा सेंटर) का एक प्रारंभिक अधिग्रहण किया। यह एक शिपिंग कंटेनर था जो सन फायर X4500 "थंपर" भंडारण सर्वरों के साथ पैक किया गया था, जो एक पोर्टेबल, स्व-संरक्षण इकाई में बड़ी मात्रा में डेटा रखने में सक्षम था। संग्रहालय में ब्लैक बॉक्स को सोलाaris 10 ऑपरेटिंग सिस्टम और ZFS फ़ाइल सिस्टम चलाने वाले सर्वर के आठ रैक से भरा गया था. इस प्रयोग ने कंटेनरित डेटा सेंटरों की अवधारणा की पुष्टि की - एक मॉडल जिसे बाद में माइक्रोसॉफ्ट और गूगल द्वारा अपनाया गया था - लेकिन संग्रहालय ने अंततः अपने प्राथमिक आंतरिक बुनियादी ढांचे के लिए अपने अनुकूलित पेटाबॉक्स डिजाइन पर वापस लौट दिया, अपने स्वयं के ओपन सोर्स हार्डवेयर डिजाइनों की लचीलापन और कम लागत को स्वायत्त वाणिज्यिक समाधानों की तुलना में। एयर कंडीशनिंग के बिना ठंडा: Funston लूप आर्किटेक्ट की बुनियादी ढांचे में से एक सबसे चतुर विशेषता इसकी थर्मल प्रबंधन प्रणाली है. डेटा सेंटर अक्सर कंप्यूटिंग के रूप में ठंडा करने (HVAC) पर उतना ही बिजली खर्च करते हैं. इंटरनेट आर्किटेक्ट, एक गैर-लाभकारी बजट पर काम करता है, इस तरह के बर्बादी का भुगतान नहीं कर सकता था. समाधान भूगोल और भौतिकी था। फ़िल्म का प्राथमिक डेटा सेंटर सैन फ्रांसिस्को के रिचमंड जिले में स्थित है, एक पड़ोस जो अपने निरंतर अंधेरे और ठंडे समुद्री जलवायु के लिए जाना जाता है। इमारत को ठंडा करने के लिए इस वातावरण के वायु का उपयोग किया जाता है. पेटाबॉक्स मशीन रूम में कोई पारंपरिक एयर कंडीशनर नहीं है. इसके बजाय, सर्वरों को थोड़ा अधिक ऑपरेटिंग तापमान पर चलाने के लिए डिज़ाइन किया गया है, और घूमने वाले डिस्क द्वारा उत्पन्न अतिरिक्त गर्मी को कैप्चर किया जाता है और ठंडा सैन फ्रांसिस्को सर्दियों के दौरान इमारत को गर्म करने के लिए पुनः सर्किट किया जाता है.9 यह "बचत गर्मी" प्रणाली दक्षता का एक बंद चक्र है। एक स्टोरेज क्लस्टर द्वारा उत्पादित 60+ किलोवाट गर्मी ऊर्जा एक उप-उत्पाद नहीं है जिसे खत्म किया जाना चाहिए, बल्कि एक संसाधन है जिसे कटाया जाना चाहिए। यह डिजाइन विकल्प संयंत्र के पावर उपयोग दक्षता (पीयूई) अनुपात को नाटकीय रूप से कम करता है, जिससे आर्केज को बिजली के बिल के बजाय हार्ड ड्राइव पर अपने सीमित धन खर्च करने की अनुमति मिलती है। विश्वसनीयता और रखरखाव: "मृत्यु पर प्रतिस्थापन" मॉडल एक पारंपरिक कॉर्पोरेट डेटा सेंटर में, एक विफल ड्राइव "पांच नौ" (99,999%) विश्वसनीयता को बनाए रखने के लिए एक त्वरित, शर्मनाक प्रतिस्थापन प्रोटोकॉल को सक्रिय करता है। डेटा को कई मशीनों पर दर्शाया जाता है, अक्सर विभिन्न भौतिक स्थानों पर (रेडवुड सिटी और रिचमंड, कैलिफोर्निया में डेटा सेंटर सहित, और यूरोप और कनाडा में प्रतियां सहित)।12 चूंकि डेटा एक लाइव बैंकिंग लेनदेन के अर्थ में "मिशन महत्वपूर्ण" नहीं है, इसलिए एक नोड में कुछ मृत ड्राइव को शारीरिक रखरखाव की आवश्यकता से पहले सहन कर सकता है। यह "कम रखरखाव" डिजाइन एक बहुत छोटी टीम - ऐतिहासिक रूप से डेटा के पेटाबाइट प्रति केवल एक सिस्टम प्रशासक - एक स्टोरेज साम्राज्य का प्रबंधन करने की अनुमति देता है जो प्रमुख प्रौद्योगिकी निगमों के साथ प्रतिस्पर्धा करता है। भाग II: क्रॉलर की डिलीवरी एक स्थानांतरित लक्ष्य को पकड़ना यदि पेटाबॉक्स आर्किटेक्ट का मस्तिष्क है, तो वेब क्रॉलर इसकी आंखें हैं. वेब का आर्किटेक्ट करना एक निष्क्रिय प्रक्रिया नहीं है; इसके लिए सक्रिय, आक्रामक सॉफ्टवेयर की आवश्यकता होती है जो विश्व वाइड वेब के लिंक के माध्यम से अविश्वसनीय रूप से गुजरती है, जो कुछ भी मिलता है को कॉपी करता है. इस प्रक्रिया, क्रॉलिंग के रूप में जाना जाता है, सरल स्क्रिप्ट-आधारित खोज से जटिल ब्राउज़र ऑटोमेशन तक विकसित हो गया है. Heritrix की विरासत अपने इतिहास का एक बड़ा हिस्सा के लिए, दस्तावेज़ ने एक क्रॉलर पर भरोसा किया जिसे 2003 में इंटरनेट आरेख और उत्तरी राष्ट्रीय पुस्तकालयों (नॉर्वे और आइसलैंड) द्वारा संयुक्त रूप से विकसित, हेरिट्रिक्स एक जावा-आधारित, खुले स्रोत क्रैगर है जो विशेष रूप से आर्किवल वफादारी के लिए डिज़ाइन किया गया है। एरिट्रिक्स एरिट्रिक्स एक खोज इंजन क्रॉलर (जैसे Googlebot) के विपरीत, जो मुख्य रूप से खोज प्रासंगिकता के लिए पाठ निकालने के बारे में चिंतित है, हेरिट्रिक्स के बारे में चिंतित है यह एक वेब पेज की सटीक स्थिति को कैप्चर करने का प्रयास करता है, जिसमें उसके छवियों, स्टाइल शीट और एम्बेड ऑब्जेक्ट शामिल हैं. यह इन संपत्तियों को एक मानकीकृत कंटेनर प्रारूप में पैक करता है जिसे WARC (Web ARChive) कहा जाता है. आर्टिफिशियल WARC फ़ाइल इंटरनेट आरेख का परमाणु इकाई है. यह न केवल पृष्ठ की सामग्री को बनाए रखता है, बल्कि "एचटीटीपी हेडर्स" - सर्वर और ब्राउज़र के बीच डिजिटल हस्तमैथुन जो कैप्चर के क्षण में हुआ। एक पृष्ठ पकड़ लिया गया है, सर्वर ने इसे भेजा है, और इस संबंध में बातचीत की गई है.19 जब क्या कैसे हेरिट्रिक्स एक "फ्रंटियर" का उपयोग करके काम करता है—एक परिष्कृत रेखा प्रबंधन प्रणाली जो तय करती है कि अगला कौन सा यूआरएल देखें. यह सख्त "अच्छेपन" नीतियों का पालन करता है, robots.txt अवरोध प्रोटोकॉल का सम्मान करता है और अनुरोधों की आवृत्ति को सीमित करता है ताकि लक्ष्य सर्वरों को दुर्घटनाग्रस्त न होने दें.16 गतिशील वेब की संकट हालांकि, हेरिट्रिक्स को एक सरल वेब के लिए बनाया गया था - स्थिर HTML फ़ाइलों और हाइपरलिंकों का एक वेब। हेरिट्रिक्स सर्वर द्वारा वितरित प्रारंभिक एचटीएमएल को कैप्चर करता है. लेकिन ट्विटर (अब एक्स) या फेसबुक जैसे आधुनिक साइट पर, कि प्रारंभिक एचटीएमएल अक्सर सिर्फ एक खाली स्टैफ़लिंग है. वास्तविक सामग्री गतिशील रूप से उपयोगकर्ता के ब्राउज़र में चलने वाले जावास्क्रिप्ट कोड द्वारा लोड की जाती है Heritrix, एक मूर्ख डाउनलोडर होने के नाते, इस कोड को निष्पादित नहीं कर सका. परिणाम अक्सर एक पृष्ठ की टूटी हुई, खाली कोशिका थी—एक डिजिटल भूत शहर.17 के बाद Brozzler और Umbra की वृद्धि "जीवनशील वेब" से लड़ने के लिए, आर्केड को अपने उपकरणों को विकसित करना पड़ा. आधुनिक आर्केड स्टैक में शामिल हैं और Umbra, उपकरण जो एक क्रैलर और एक वेब ब्राउज़र के बीच लाइन को अस्पष्ट करते हैं। Brozzler ब्राउज़र Brozzler (एक "ब्राउज़र" और "क्रूलर" का एक पोर्टमैनव) Google Chrome ब्राउज़र के एक "हेडलेस" संस्करण का उपयोग करके पृष्ठों को बिल्कुल उसी तरह प्रदर्शित करता है जैसा एक उपयोगकर्ता उन्हें देखता है. यह जावास्क्रिप्ट चलाता है, मेनू का विस्तार करता है, और एनीमेशन खेलेगा. सामग्री को कब्जा करने के लिए. यह फ़ाइल को इंस्टाग्राम और इंटरैक्टिव समाचार लेख जैसे जटिल साइटों को बनाए रखने की अनुमति देता है जो पारंपरिक क्रॉलर के लिए अदृश्य होंगे.17 पहले Umbra एक सहायक उपकरण के रूप में कार्य करता है, ब्राउज़र ऑटोमेशन का उपयोग मानव व्यवहार को नकल करने के लिए करता है. यह एक पृष्ठ को अंतहीन लोड फ़ीड को सक्रिय करने के लिए "स्क्रॉल" करता है, छिपे हुए लिंक को प्रकट करने के लिए ड्रॉप-डाउन मेनू पर झुकता है, और बटन क्लिक करता है. ये कार्य नए यूआरएल को प्रकट करते हैं जिन्हें फिर कैप्चर के लिए क्रॉलर में वापस डाला जाता है. इस बदलाव को काफी अधिक कंप्यूटिंग शक्ति की आवश्यकता होती है. Chrome में एक पृष्ठ का प्रदर्शन करने के लिए सिर्फ एक टेक्स्ट फ़ाइल को डाउनलोड करने की तुलना में अधिक CPU चक्र की मात्रा के आदेश लेते हैं. इसने फ़ाइल को उच्च भरोसेमंदता के क्रैकिंग में अधिक चयनित और लक्षित करने के लिए मजबूर किया है, उच्च मूल्य वाले गतिशील साइटों के लिए संसाधन-अनुकूल ब्राउज़र क्रैकिंग को आरक्षित करते हुए स्टैटिक वेब के लिए हल्के उपकरणों का उपयोग करते हुए.17 "Save Page Now" क्रांति शायद हाल के वर्षों में सबसे महत्वपूर्ण तकनीकी बदलाव क्रॉलिंग की लोकतांत्रिकता है. Save Page Now सुविधा किसी भी उपयोगकर्ता को तुरंत एक विशिष्ट URL का क्रॉलिंग शुरू करने की अनुमति देती है. यह निर्धारित, एल्गोरिथिक क्रॉलिंग को दूर करता है और एक उच्च प्राथमिकता कार्य सीधे इंजेक्शन लाइन में डालता है. इन ब्राउज़र-आधारित प्रौद्योगिकियों द्वारा संचालित, सहेजें पेज अब पत्रकारों, शोधकर्ताओं और तथ्यों की जाँच करने वालों के लिए एक महत्वपूर्ण उपकरण बन गया है. 2025 में, यह अक्सर लिंक टूटने के खिलाफ रक्षा का पहला लाइन है, जिससे उपयोगकर्ताओं को एक ट्वीट या समाचार लेख का अपरिवर्तनीय रिकॉर्ड बनाने की अनुमति मिलती है। Alexa इंटरनेट कनेक्शन अलेक्सा इंटरनेट के बारे में बात करने के बिना अलेक्सा के क्रैकिंग इतिहास पर चर्चा करना असंभव है. 1996 में ब्रूस्टर कैले द्वारा आरेख के साथ स्थापित, अलेक्सा एक लाभकारी कंपनी थी जो ट्रैफ़िक विश्लेषण प्रदान करने के लिए वेब पर क्रैकिंग कर रही थी (उस प्रसिद्ध "अलेक्सा रैंक"). लगभग दो दशकों के लिए, एलेक्सा आरेख के डेटा का मुख्य स्रोत था. एलेक्सा अपने स्वयं के व्यावसायिक उद्देश्यों के लिए वेब को क्रॉलिंग करेगा और फिर एक प्रतिबंध की अवधि के बाद इंटरनेट आरेख को क्रॉलिंग डेटा दान करेगा. इस सहकारिता रिश्ते ने आरेख को अपने स्वयं के विशाल क्रॉलिंग इन्फ्रास्ट्रक्चर चलाने की आवश्यकता के बिना बड़े पैमाने पर, निरंतर डेटा का प्रवाह प्रदान किया. हालांकि, अमेज़ॅन (जिसने 1999 में एलेक्सा को अधिग्रहण किया) द्वारा मई 2022 में एलेक्सा सेवा को रोकने के साथ, आरेख को अपने स्वयं के क्रॉलिंग इन्फ्रास्ट्रक्चर और साझेदारों जैसे Common Crawl पर अधिक भरोसा करना भाग III: जीवित रहने की अर्थव्यवस्था बेकार के लिए पैसा एक शीर्ष स्तर की वैश्विक वेबसाइट चलाने के लिए आमतौर पर एक Google या एक मेटा की बजट की आवश्यकता होती है. इंटरनेट आरेख दुनिया में सबसे अधिक देखी जाने वाली वेबसाइटों में से एक के रूप में संचालन करने में कामयाब होती है, एक बजट जो आश्चर्यजनक रूप से मामूली है. कोई विज्ञापन, पाठकों के लिए कोई सदस्यता शुल्क, और कोई डेटा खनन आय के साथ एक संगठन 200 petabytes डेटा ऑनलाइन कैसे रखता है? वित्तीय लेजर वित्तीय दस्तावेजों (फॉर्म 990) और वार्षिक रिपोर्टों के अनुसार, इंटरनेट आरेख का वार्षिक आय $ 25 मिलियन से $ 30 मिलियन के बीच भिन्न है। मुख्य आय ड्राइवर योगदान और अनुदान हैं, जो आमतौर पर कुल आय के 60-70% का प्रतिनिधित्व करते हैं। \n \n \n माइक्रो-दान: उपयोगकर्ताओं को $ 5 या $ 10 के लिए पूछने का "विकिपीडिया मॉडल"। प्रमुख अनुदान: मेलोन फाउंडेशन, कैले / ऑस्टिन फाउंडेशन, और फिलेकोइन फाउंडेशन जैसे दयालु संगठनों से वित्त पोषण.25 दूसरा प्रमुख राजस्व प्रोग्राम सेवाएं हैं, विशेष रूप से डिजिटलकरण और आर्केजिंग सेवाएं. आर्केजिंग सिर्फ एक पुस्तकालय नहीं है; यह एक सेवा प्रदाता है। \n \n \n \n Archive-It: यह सदस्यता सेवा संस्थानों (लिब्रेरी, विश्वविद्यालय, सरकारों) को अपने स्वयं के संचालित वेब आरेखों का निर्माण करने की अनुमति देती है। सदस्यता $ 2,400 / वर्ष के आसपास शुरू होती है 100 जीबी भंडारण के लिए और एक टेराबाइट के लिए $ 12,000 / वर्ष तक बढ़ जाती है। डिजिटलेशन सेवाएं: आर्केज डिजिटलेशन केंद्रों का संचालन करता है जहां यह भागीदारों के लिए किताबें और अन्य मीडिया स्कैन करता है. पुस्तक स्कैनर - V आकार के कस्टम मशीनों और पैर-पेडल संचालित कैमरों के साथ - किताबों के गैर विनाशकारी स्कैन की अनुमति देते हैं. भागीदारों ने अपनी संग्रहों को डिजिटल करने के लिए प्रति पृष्ठ (उदाहरण के लिए, बंधे पुस्तकों के लिए $ 0.15 प्रति पृष्ठ) भुगतान किया। Vault सेवाएं: एक नई पेशकश, Vault एक बार शुल्क (उदाहरण के लिए, $ 1,000 प्रति टेराबाइट) के लिए डिजिटल भंडारण भंडारण प्रदान करता है। एक Petabyte की लागत रजिस्टर की लागत पक्ष मजदूरी और मजदूरी (लगभग आधे बजट) और आईटी बुनियादी ढांचे द्वारा नियंत्रित है. हालांकि, फ़िल्म के "पेटाबॉक्स अर्थशास्त्र" इसे वाणिज्यिक क्लाउड प्रदाताओं की लागत के एक खंड पर डेटा संग्रहीत करने की अनुमति देता है. अमेज़ॅन एस 3 पर 100 पेटाबाइट्स को स्टोरेज करने की लागत पर विचार करें। मानक दरों ($ 0,021 प्रति जीबी प्रति माह) पर, स्टोरेज की लागत प्रति माह $ 2.1 मिलियन से अधिक होगी। कर्मचारियों, इमारतों, कानूनी रक्षा और हार्डवेयर के लिए ऑपरेटिंग बजट एक वर्ष के लिए AWS पर अपने डेटा को संग्रहीत करने की लागत से कम है। वार्षिक अपने हार्डवेयर के स्वामित्व के माध्यम से, उच्च घनत्व आर्किटेक्चर PetaBox का उपयोग करके, एयर कंडीशनिंग लागत से बचने के लिए, और खुले स्रोत सॉफ्टवेयर का उपयोग करके, आर्केज एक भंडारण लागत दक्षता प्राप्त करता है जो वाणिज्यिक क्लाउड दरों की तुलना में बड़े पैमाने पर बेहतर है.25 भाग IV: कानूनी लड़ाई क्षेत्र जब संरक्षण कॉपीराइट से मिलता है इंटरनेट आरेख का मिशन "सभी ज्ञान के लिए सार्वभौमिक पहुंच" है. यह मिशन नैतिक रूप से आश्चर्यजनक है लेकिन कानूनी रूप से खतरनाक है. जैसा कि आरेख सरल वेब पृष्ठों से परे किताबों, संगीत और सॉफ्टवेयर में विस्तारित हुई, यह वेब के "अनिहित लाइसेंस" के अपेक्षाकृत सुरक्षित बंदरगाह से कॉपीराइट कानून के भारी रूप से मजबूत क्षेत्र में चली गई। राष्ट्रीय आपातकालीन पुस्तकालय और Hachette v. इंटरनेट फ़ाइल Hachette v. इंटरनेट फ़ाइल COVID-19 महामारी के दौरान तनाव 2020 में विस्फोट हुआ. भौतिक पुस्तकालयों को बंद करने के साथ, आर्किटेक्ट ने "राष्ट्रीय आपातकालीन पुस्तकालय" लॉन्च किया, अपने डिजिटल पुस्तकों के संग्रह पर इंतजार सूची को हटा दिया. इस कदम ने चार प्रमुख प्रकाशनकारों - हैचेट, हार्परकॉलिन्स, वाइली, और पेंगुइन रैंडम हाउस - को बड़े पैमाने पर कॉपीराइट उल्लंघन का आरोप लगाते हुए मुकदमा लगाने के लिए प्रेरित किया। संग्रहालय की पुस्तक कार्यक्रम का कानूनी कोर नियंत्रित डिजिटल उधार (सीडीएल) था. सिद्धांत का तर्क था कि यदि एक पुस्तकालय में एक भौतिक पुस्तक है, तो उसे उस पुस्तक को स्कैन करने और डिजिटल प्रति को एक बार में एक व्यक्ति को उधार देने की अनुमति दी जानी चाहिए, जब तक कि भौतिक पुस्तक को प्रवाह से बाहर निकाला जाता है जबकि डिजिटल पुस्तक उधार में है. यह "अपने-उधार" अनुपात भौतिक उधार के प्रतिबंधों को नकल करता है. हालांकि, मार्च 2023 में एक निराशाजनक फैसले में, एक संघीय न्यायाधीश ने इस रक्षा को अस्वीकार कर दिया, जिसने फैसला किया कि आर्केड का स्कैन और उधार "असमान्य उपयोग" नहीं था. अदालत ने पाया कि डिजिटल प्रतियां प्रकाशनकों के स्वयं के वाणिज्यिक ई-बुक बाजारों के साथ प्रतिस्पर्धा करती थीं. आर्केड का तर्क कि इसका उपयोग "अनुकूल" था (अनुकूलन को अधिक कुशल बनाना) अस्वीकार किया गया था. सितंबर 2024 में, द्वितीय सर्किट अपील कोर्ट ने इस फैसले को बनाए रखा, और 2024 के अंत तक, आर्केड ने घोषणा की कि वह सुप्रीम कोर्ट में अपील नहीं करेगा. निवास में रहने वाले फाइल को अपने उधार कार्यक्रम से लगभग 500,000 पुस्तकों को हटाने के लिए मजबूर किया गया था - विशेष रूप से उन लोगों के लिए जिनके लिए एक वाणिज्यिक ई-पुस्तक संस्करण मौजूद है। हैसियत Great 78 परियोजना और सोनी निपटान जबकि किताबों की लड़ाई गुस्से में थी, ऑडियो पक्ष पर एक दूसरा फ्रंट खुल गया. ग्रेट 78 प्रोजेक्ट का उद्देश्य 20 वीं शताब्दी की शुरुआत से 78rpm रिकॉर्ड डिजिटल करना था. ये शेलैक डिस्क खराब, पुराने हैं, और अक्सर खराब हो रहे हैं. आर्किटेक्ट ने तर्क दिया कि उन्हें डिजिटल करना एक संरक्षण अनिवार्य था.37 प्रमुख रिकॉर्डिंग लेबल, जिसमें सोनी म्यूजिक और यूनिवर्सल म्यूजिक ग्रुप शामिल थे, असहमत थे. उन्होंने 2023 में दावा किया कि परियोजना एक "अधिकारिक रिकॉर्डिंग स्टोर" के रूप में कार्य करती थी जिसने फ्रैंक सिनात्रा और बिली होली जैसे कलाकारों द्वारा हजारों गीतों के कॉपीराइट का उल्लंघन किया था. उन्होंने नुकसान की मांग की जो 600 मिलियन डॉलर से अधिक तक पहुंच सकती थी – एक अस्तित्वगत खतरा है। सितंबर 2025 में, यह मुकदमा भी एक समझौते तक पहुंच गया. हालांकि शर्तें गोपनीय रहती हैं, फैसले ने आर्किड को संभावित रूप से विफलता का कारण बनने वाले एक परीक्षण से बचने की अनुमति दी. हालांकि, तत्काल परिणाम कई कॉपीराइट-रहित ऑडियो रिकॉर्डिंग तक पहुंच को हटा दिया गया, उन्हें सामान्य जनता के बजाय शोधकर्ताओं के लिए प्रतिबंधित किया। यह पैटर्न – निपटान और प्रतिबंध के बाद – 2025 में इंटरनेट आर्किड के लिए नई वास्तविकता को चिह्नित करता है: एक अधिक सावधानीपूर्वक, कानूनी रूप से प्रतिबंधित संरक्षण मॉडल के लिए "खेल और चीजों को तोड़ें" दृष्टिकोण से वापसी। Federal Depository Shield के बारे में इन नुकसानों के बीच एक प्रमुख रणनीतिक जीत में, इंटरनेट आरेख को संयुक्त राज्य अमेरिका के सीनेट द्वारा जुलाई 2025 में एक संघीय भंडारण पुस्तकालय (एफडीएल) के रूप में नियुक्त किया गया था। इस नाम से कम से कम एक हिस्से के संग्रह के लिए कानूनी सुरक्षा का एक महत्वपूर्ण परत प्रदान की जाती है. हालांकि यह कॉपीराइट वाले संगीत या वाणिज्यिक उपन्यासों की रक्षा नहीं करती है, लेकिन यह आर्केड की भूमिका को देश की सूचना बुनियादी ढांचे का एक अनिवार्य घटक के रूप में मजबूत करती है, जिससे इसे पूरी तरह से बंद करना राजनीतिक और कानूनी रूप से कठिन हो जाता है. भाग V: भविष्य-आधारित अतीत डिस्काउंट और "समय का अंत" 2020-2025 के कानूनी खतरों ने एक महत्वपूर्ण कमजोरी को उजागर किया: केंद्रकरण. यदि एक अदालत के आदेश या एक विनाशकारी आग Funston Avenue मुख्यालय को प्रभावित करेगी, तो वेब के इतिहास की प्राथमिक प्रति खोई जा सकती है. अगले दशक के लिए आर्केड की रणनीति अस्तित्व को अवरुद्ध करना है. Decentralized Web (DWeb) के बारे में जानकारी फ़ाइल DWeb आंदोलन के पीछे एक प्राथमिक ड्राइवर है, जो एक वेब बनाने की कोशिश करता है जो वितरित किया जाता है बल्कि केंद्रित किया जाता है. लक्ष्य फ़ाइल के डेटा को एक वैश्विक नेटवर्क के माध्यम से संग्रहीत करना है, जिससे किसी भी इकाई के लिए - चाहे यह एक सरकार, एक कॉर्पोरेट, या एक प्राकृतिक आपदा हो - इसे ऑफ़लाइन लेना असंभव हो जाता है.5 तकनीकी रूप से, इसमें IPFS (इंटरप्लेनेटरी फ़ाइल सिस्टम) और Filecoin जैसे प्रोटोकॉल के साथ एकीकरण शामिल है। \n \n \n आईपीएफएस: अनुमति देता है कि सामग्री को इसकी क्रिप्टोग्राफिक हैश द्वारा संबोधित किया जाए (जो यह है) इसके बजाय इसकी स्थिति (जहाँ यह है) यदि आरेख का सर्वर अवरुद्ध है, तो एक उपयोगकर्ता किसी भी नेटवर्क में किसी भी अन्य नोड से एक ही WARC फ़ाइल प्राप्त कर सकता है जो एक प्रति रखता है.5 Filecoin: भंडारण के लिए एक प्रोत्साहन परत प्रदान करता है. 2025 में, आरेख महत्वपूर्ण संग्रहों को अपलोड करना शुरू कर दिया, जैसे कि "आखिरी अवधि" सरकारी वेब आरेख Filecoin नेटवर्क को ठंडा भंडारण के लिए। 2025 का "मौत का अंत" Crawl हर चार साल में, आर्केड एक बड़े पैमाने पर प्रयास करता है (डॉट)gov और (डॉट)mil वेबसाइटों को राष्ट्रपति संक्रमण से पहले क्रैक करने के लिए. 2024/2025 क्रैक इतिहास में सबसे बड़ा था, 500 से अधिक टेराबाइट सरकारी डेटा पकड़ रहा है.45 इस परियोजना ने इतिहास की निगरानी के रूप में आर्केड की भूमिका को उजागर किया, यह सुनिश्चित करने के लिए कि जलवायु डेटा, जनगणना रिपोर्ट, और नीति दस्तावेज़ जब एक नई प्रशासन कार्यालय ले जाता है तो गायब नहीं होते हैं. जनरेटिव एआई और उचित उपयोग मैंने Brewser Kahle को 2025 और जनरेटिव एआई के बारे में ईमेल किया, और यहां उनकी उद्धरण है: \n \n \n "जीनेरेटिव एआई ने कुछ वेबसाइटों को अपने साइटों को ब्लॉक करके डॉलर संकेतों का पीछा करने के लिए प्रेरित किया है या मुकदमा शुरू कर दिया है. यह सांस्कृतिक विरासत संस्थानों, जैसे कि इंटरनेट आर्केज की मदद नहीं करता है और अक्सर सामान्य रूप से उपयोगकर्ताओं को चोट पहुंचाता है। इंटरनेट आरेख मुक्त और खुले रहेंगे ताकि लोगों को हमारे बदलते दुनिया को संभालने में मदद मिल सके. आरेख एआई शोधकर्ताओं और कंपनियों के लिए खुले डेटा सेट प्रदान करेगी ताकि वे अपनी सेवाओं का लाभ उठा सकें. एक संगठन के रूप में इंटरनेट आरेख एआई उपकरणों का उपयोग कर रहे हैं ताकि मेटाडेटा सौंपने और स्कैनिंग गतिविधियों को तेज किया जा सके. 