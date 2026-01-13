インターネットアーカイブの包括的なエンジニアリングおよび運用分析 原題:The Hum of History in the Fog もしあなたがサンフランシスコのリッチモンド地区のFunston Avenueにある元クリスチャン・サイエンス教会の船で静かに立っているなら、インターネットの呼吸の音が聞こえるでしょう。これは、ダイヤルアップ・モデムの混沌とした叫び声や通知のピンではなく、安定した、産業的なヒューム――数百台の回転するハードドライブとそれらを冷却する高速ファンによって生成された低周波のトルムです。 ここでは、異なる種類の恒久性を崇拝するために建てられた建物の新古典的な柱と木製の柱の間で、「仮想」世界の物理的表現があります。我々はインターネットをエーテル雲、地理や質量のない場所として考える傾向がありますが、この建物では、インターネットには重さがあります。それは熱を持っています。それは電気、保守、および熱力学の第二法則に対する絶え間ない戦いを必要とします。 データは99ペタバイトのユニークなデータを保管しており、バックアップとリードンネーションを考慮すると212ペタバイト以上に拡大します。 ウェイバックマシン ウェイバックマシン 操作の規模は驚異的ですが、エンジニアリングの課題はさらに深いのです。どのようにして、広がり、ダイナミックで変化し続けるワールドワイドウェブをリアルタイムで吸収できるマシンを構築しますか? 平均的なハードドライブが数年しか持たない間に、何世紀にもわたってそのデータをどのように保存しますか?そして、最も重要なのは、著作権法とデジタル保存が高い賭けの衝突に閉じ込められている時代に、電気、帯域幅、および法的防衛資金をどのように支払いますか? このレポートでは、インターネットアーカイブのメカニズムを涙の落とし穴の精度で掘り下げます。私たちは、エアコンなしで建物を暖めるカスタマイズされたPetaBoxサーバーを検査するためにシャーシを切り替えます。我々は、Alexa Internetの初期のテープベースのゴミから2025年の洗練されたブラウザベースのボットまで、ウェブクロッカーの進化を追跡します。我々は、この非営利の巨人の財務帳簿を分析し、シリコンバレーの隣人にとって円滑なミスである予算でどのように生き残るかを探ります。そして最後に、我々は「分散型ウェブ」(DWeb)が、アーカイブを100万枚に破壊することを アーカイブを理解するということは、デジタルメモリの物理的現実を理解することです。これは2万台のハードドライブ、45マイルのケーブル、そして1996年に始まったシンプルで大胆な目標「すべての知識への普遍的なアクセスを」というビジョンの物語です。 Part I: The Thermodynamics of Memory(記憶の熱力学) The PetaBox Architecture: Engineering for Density and Heat(ペタボックス・アーキテクチャー:密度と熱のエンジニアリング) インターネットアーカイブの中心は、PetaBoxであり、アーカイブのスタッフが特定の問題を解決するためにカスタマイズしたストレージサーバーである:大量のデータを最小限の電力消費と熱生産でストレージする。2000年代初頭には、EMCやNetAppのような巨人のオフ・ザ・シェルフのエンタープライズストレージソリューションが非常に高価で電力に飢えていた。 以前スーパーコンピュータ会社「Thinking Machines」を設立したアーカイブの創設者兼コンピュータエンジニアは、異なる哲学で問題に取り組んだ。高性能RAIDの配列の代わりに、アーカイブは、消費者向け部品を使用してPetaBoxを構築した。 ブレイクハウス ブレイクハウス 密度の進化:テラバイトからペタバイトまで PetaBoxの軌道は、磁気ストレージに適用されたムーアの法則の事例研究である。2004年6月に稼働した最初のPetaBoxラックは、ストレージ密度の発見であった。それは100テラバイト(TB)のデータを保有し、当時はわずか6キロワットの電力を消費していた1 2003年に、ウェイバックマシン全体が毎月わずか12テラバイトで成長していました。 PetaBoxのエンジニアリング仕様は、密度の絶え間ない追求を明らかにしています。 \n \n \n \n \n \n \n \n \n \n \n \n \n \n Specification \n Generation 1 (2004) \n Generation 4 (2010) \n Current Generation (2024-2025) \n \n \n \n \n \n Capacity per Rack \n 100 TB \n 480 TB \n ~1.4 PB (1,400 TB) \n \n \n \n \n \n Drive Count \n ~40-80 drives \n 240 drives (2TB each) \n ~360+ drives (8TB+ each) \n \n \n \n \n \n Power per Rack \n 6 kW \n ~6-8 kW \n ~6-8 kW \n \n \n \n \n \n Heat Dissipation \n Utilized for building heat \n Utilized for building heat \n Utilized for building heat \n \n \n \n \n \n Processor Arch \n Low-voltage VIA C3 \n Intel Xeon E7-8870 (10-core) \n Modern High-Efficiency x86 \n \n \n \n \n \n Cooling \n Passive / Fan-assisted \n Passive / Fan-assisted \n Passive / Fan-assisted ラックの容量 100TB 480TB ~1.4 PB (1,400 TB) ドライブカウンター 40～80 ドライブ 240ドライブ(それぞれ2TB) 360+ドライブ(各8TB+) パワー per RACK 6kW 6～8kW 6～8kW 熱分散 建物の温暖化に使用 建物の温暖化に使用 建物の温暖化に使用 プロセッサ Arch 低電圧VIA C3 Intel Xeon E7-8870(10コア) 最新の高効率X86 クール ファン・アシスタント / Fan-Assisted ファン・アシスタント / Fan-Assisted ファン・アシスタント / Fan-Assisted 1 2010年頃に導入された第4世代のPetaBoxは、この密度を例にした。各ラックには2テラバイトの240ディスクが含まれており、それぞれ4Uのハイラックマウントに編成された。これらのユニットは、12ギガバイトのRAMを備えたIntel Xeonプロセッサ(特に後期のアップグレードでE7-8870シリーズ)によって動作した。 2025年までに、ストレージのパラダイムは再び変化しました。現在のPetaBoxのラックはラックごとに 1.4 ペタバイトのストレージを提供しています。このジャンプは、より多くのスロットを追加することではなく、大幅に大きいドライブを使用することによって達成されます―8TB、16TB、および22TBのドライブが現在標準となっています。2016年には、アーカイブは約 20,000 個のディスクドライブを管理しました。注目すべきことに、2012年から 2016年までの間にストレージ容量が3倍になったにもかかわらず、これらの密度の向上により、ドライブの総数は比較的安定していました。11 「ブラックボックス」実験 効率的なストレージを追求するために、アーカイブはまた、モジュールデータセンターで実験した。2007年、アーカイブは、Sun Microsystemsの「ブラックボックス」(後にSun Modular Datacenter)の初期の採用者となりました。これは、Sun Fire X4500「Thumper」ストレージサーバーで詰められた貨物コンテナで、ポータブルで自家用なユニットで膨大な量のデータを収納できるようになりました。 この実験は、コンテナ化されたデータセンターの概念を検証しました - 後でMicrosoftとGoogleによって採用されたモデル - しかし、アーカイブは最終的に彼らの主な内部インフラストラクチャのためのカスタムPetaBoxデザインに戻り、独自のオープンソースハードウェア設計の柔軟性と低コストを有利にしました。 エアコンなしの冷却:The Funston Loop アーカイブのインフラストラクチャの最も発明的な特徴の1つは、その熱管理システムです。データセンターは有名なエネルギー消費量であり、しばしば冷却(HVAC)に電気の消費量を計算に費やします。 解決策は地理と物理だった。アーカイブの主なデータセンターは、恒久的な霧と涼しい海洋気候で知られる、サンフランシスコのリッチモンド地区に位置しています。建物はこの環境空気を冷却に利用しています。ペタボックスの機械室には従来のエアコンがありません。代わりに、サーバーは少し高いオペレーティング温度で動作するように設計されており、回転ディスクによって生成される過剰熱は、サンフランシスコの寒い冬の間に建物を暖めるために捕らえられ、再循環されます。 この「廃棄熱」システムは効率の閉鎖的なループである。ストレージクラスターによって生成される60キロワット以上の熱エネルギーは、排除される副産物ではなく、収穫される資源である。この設計選択は、施設の電力使用効率(PUE)比率を劇的に低下させ、アーカイブが電気料金ではなくハードドライブに限られた資金を費やすことを可能にします。これは、データストレージの熱力学に「削減、再利用、リサイクル」というマントラの文字通りの適用です。 信頼性とメンテナンス:「死んだときに置き換える」モデル 28,000 を超えるスピンディスクが稼働しているため、ドライブの故障は統計的な確実性です.3 従来の企業データセンターでは、故障したドライブは、信頼性の「五九」(99999%)を維持するために、即時で恐ろしい置き換えプロトコルを引き起こします。 PetaBox ソフトウェアは、複数のマシンで、しばしば異なる物理的な場所(レッドウッドシティとリッチモンド、カリフォルニア州のデータセンター、およびヨーロッパおよびカナダのコピーを含む)に反映されます。12 データは、ライブ銀行取引の意味で「ミッションの重要性」ではないため、アーカイブは、物理的なメンテナンスが必要になる前にノード内の特定の数のデッドドライブを許容することができます。 この「低メンテナンス」の設計により、歴史的にデータペタバイトあたりのシステム管理者1人しかいない非常に小さなチームが、主要なテクノロジー企業と競合するストレージ帝国を管理することができます。 Part II: The Crawler's Dilemma シングル 移動するターゲットをキャプチャ PetaBox がアーカイブの脳である場合、ウェブクローバーはその目です. ウェブをアーカイブすることは被動的なプロセスではありません。 アクティブで攻撃的なソフトウェアを必要とし、ワールドワイドウェブのリンクを絶え間なく横断し、見つけるすべてのものをコピーします. このプロセスは、クローリングとして知られ、シンプルなスクリプトベースの検索から複雑なブラウザ自動化に進化しました。 Heritrixの遺産 歴史の大半を経て、アーカイブはクローラーと呼ばれるものに頼りました。 2003年にインターネットアーカイブとノルウェーとアイスランドのノルウェーの国立図書館によって共同開発されたHeritrixは、アーカイブの忠実性のために特別に設計されたJavaベースのオープンソースのクローバーです。 ヘリトリックス ヘリトリックス 検索エンジンクローバー(Googlebotのような)とは異なり、主に検索関連性のためにテキストを抽出することに配慮しているHeritrixは、検索関連性について配慮しています。 それは、その画像、スタイルシート、および埋め込まれたオブジェクトを含むウェブページの正確な状態をキャプチャしようとします. It packs these assets into a standardized container format known as WARC (Web ARChive). アーティファクト WARCファイルはインターネットアーカイブの原子単位で、ページのコンテンツだけでなく、「HTTPヘッダー」 - サーバーとブラウザの間で起こったデジタルハンドシェイク - を保存しています。 ページが収録され、 サーバーが届け、そして、 交渉が行われた19 いつ 何 どう Heritrix は「Frontier」 - 次に訪問する URL を決定する複雑な列の管理システム - を使用して動作します. それは厳格な「礼儀正しい」ポリシーに従い、robots.txt の排除プロトコルを尊重し、ターゲット サーバーの崩壊を避けるためにリクエストの頻度を制限します。 ダイナミック・ウェブの危機 しかし、Heritrixは、静的なHTMLファイルとハイパーリンクのウェブであるより単純なウェブのために構築され、ウェブがダイナミックなアプリケーション(Web 2.0)、ソーシャルメディアフィード、およびJavaScript重いインターフェイスのプラットフォームに進化するにつれて、Heritrixはトラブルを起こし始めました。 Heritrix はサーバーによって提供された初期の HTML をキャプチャします。しかし、Twitter (現在の X) または Facebook のような現代のサイトでは、初期の HTML はしばしば空っぽのセットアップに過ぎません。 Heritrix はバカなダウンロードソフトで、このコードを実行できませんでした. 結果はしばしばページの破損した、空のシェルだった――デジタルゴーストタウン。 後 The Rise of Brozzler and Umbra(ブロッツラーとオムブラの昇格) 「ダイナミックなウェブ」と戦うために、アーカイブはそのツールを進化させなければならなかった。 and Umbra, tools that blur the line between a crawler and a web browser. クローラーとウェブブラウザの間の線を曖昧にするツール。 Brozzler ブロッツ Brozzler(「ブラウザ」と「クローラー」のポートマンテオ)は、Google Chromeブラウザの「ヘッドレス」バージョンを用いて、ユーザーがそれらを見ているようにページを表示します。 これにより、アーカイブはインスタグラムなどの複雑なサイトや、伝統的なクローバーに目に見えないインタラクティブなニュース記事を保存することができます。 前 Umbra はヘルパー ツールとして機能し、ブラウザの自動化を使用して人間の行動を模します. It "scrolls" down a page to trigger infinite loading feeds, hovers over dropdown menus to reveal hidden links, and clicks buttons. These actions expose new URLs that are then fed back to the crawler for capture. 17 この変更は、大幅により多くのコンピューティングパワーを必要とします。Chromeでページを再生するには、単にテキストファイルをダウンロードするよりはるかに多くのCPUサイクルが必要です。これにより、アーカイブは、高い信頼性のクロールでより選択的でターゲット化され、リソース密集したブラウザのクロールを高価値のダイナミックサイトに留保し、静的ウェブのためのより軽いツールを使用しました。 「Save Page Now」革命 たぶん、近年で最も重要な技術的変化は、クロールの民主化です。Save Page Now機能は、ユーザーが特定のURLのクロールを即座に引き起こすことを可能にします。 これらのブラウザベースのテクノロジーによって動作する「Save Page Now」は、ジャーナリスト、研究者、事実検証者にとって重要なツールとなっています。2025年には、ユーザーが削除または変更する前に、ツイートまたはニュース記事の不変なレコードを作成することを可能にするリンク破壊に対する防御の第一線となります。 Alexa インターネット接続 アーカイブとともに1996年にブリュースター・カレによって設立されたアレクサは、トラフィック分析(有名な「アレクサランク」)を提供するためにウェブをクロールした営利企業でした。 約20年間、アレクサはアーカイブのデータの主なソースでした。アレクサは独自の商業目的でウェブをクロールし、その後、禁輸期間の後、クロールデータをインターネットアーカイブに寄付しました。このシンビオティックな関係は、アーカイブに、独自の巨大なクロールインフラストラクチャを実行する必要もなく、膨大なデータの流れを提供しました。しかし、アマゾン(アレクサを1999年に買収した)が2022年5月にアレクササービスを中止したことで、アーカイブは独自のクロールインフラストラクチャとCommon Crawlのようなパートナーにさらに依存しなければなりませんでした。 第3部:生存の経済学 非営利の資金調達 トップレベルのグローバルウェブサイトを実行するには、通常、GoogleまたはMetaの予算が必要です。インターネットアーカイブは、驚くほど謙虚な予算で世界で最も訪問されているウェブサイトの1つとして機能します。 「Financial Ledger」 財務報告書(フォーム990)および年次報告書によると、インターネットアーカイブの年収は2500万ドルから3000万ドルに上ります。7 2024年には、例えば、組織は約26.800万ドルの収益を報告し、支出は2350万ドルに上ります。 主な収入ドライバーは、通常、総収入の60～70%を占める貢献と助成金です。 \n \n \n マイクロ寄付:ユーザーに5ドルまたは10ドルを求める「ウィキペディアモデル」 主要補助金:Mellon Foundation、Kahle/Austin Foundation、Filecoin Foundationなどの慈善団体からの資金調達 第二の主要な収入源はプログラムサービスであり、特にデジタル化およびアーカイブサービスである。 \n \n \n \n Archive-It: このサブスクリプションサービスは、機関(図書館、大学、政府)が独自のクエリされたウェブアーカイブを構築することを可能にします。サブスクリプションは、100GBのストレージで年間約2400ドルから始まり、テラバイトで年間12000ドルまで拡大します。このサービスは何百万もの収益を生み出し、無料のウェイバックマシンを効果的に補助します。 デジタル化サービス: アーカイブは、パートナーのための書籍やその他のメディアをスキャンするデジタル化センターを運営しています。V形のカートルと脚ペダルで動作するカメラを搭載したカスタムマシンである「Scribe」の書籍スキャナは、書籍の非破壊的なスキャンを可能にします。 Vault Services: より新しいオファーであるVaultは、デジタル保存ストレージを一度の料金(例えば、テラバイトあたり1000ドル)で提供します。この「補助金モデル」により、機関は永続的なストレージの支払いを一度に可能にし、ストレージのコストが補助金の利子よりも速く減少すると賭けます。 1ペタバイトのコスト 支出側は、賃金と賃金(予算の約半分)とITインフラストラクチャで支配されていますが、アーカイブの「PetaBox経済」により、商用クラウドプロバイダーのコストのわずかな割合でデータを格納することができます。 Amazon S3 で 100 ペタバイトのストレージのコストを考えてみましょう。標準料金(月あたり GB 当たり 約 0.021 ドル)では、ストレージだけで月あたり 2.1 万ドルを超えるコストがかかります。 スタッフ、建物、法的防衛、およびハードウェアのためのオペレーティング予算は、AWS で 1 年間データを保存するのにかかる金額より少ない。 年間 ハードウェアを所有し、PetaBoxの高密度アーキテクチャを使用し、エアコンコストを回避し、オープンソースのソフトウェアを使用することで、アーカイブは商用クラウドレートよりも規模の高いストレージコスト効率を達成します。 第4部:法的戦場 保護が著作権を満たすとき インターネットアーカイブの使命は「あらゆる知識への普遍的アクセス」であり、この使命は道徳的に説得力があるが、法律的に危険である。アーカイブが単純なウェブページを超えて書籍、音楽、ソフトウェアに拡大するにつれて、ウェブの「暗示的なライセンス」の比較的安全な港から著作権法の強固な領域に移った。 国立緊急図書館および Hachette v. インターネット・アーカイブ Hachette v. インターネット・アーカイブ 物理図書館が閉鎖され、アーカイブは「National Emergency Library」を立ち上げ、デジタル化された書籍コレクションの待機リストを削除しました。この動きは、Hachette、HarperCollins、Wiley、Penguin Random Houseという4つの主要な出版社を訴え、著作権侵害を訴えた。 アーカイブの書籍プログラムの法的コアはコントロールデジタル貸出(CDL)であった。この理論は、図書館が物理的な書籍を所有している場合、その書籍をスキャンして、物理的な書籍が流通から取り除かれ、デジタル書籍が貸出されている限り、一度に1人にデジタルコピーを貸出することを許されるべきであると主張した。 しかし、2023年3月の圧倒的な判決で、連邦裁判官はこの弁護を拒否し、アーカイブのスキャンと貸出は「公正な利用」ではないと判断した。裁判所は、デジタルコピーが出版者の独自の商業電子書籍市場と競争していることを発見した。 The settlement in the この事件は重大な打撃となった。アーカイブは貸出プログラムから約50万冊の書籍を削除しなければならず、特に商業版の電子書籍が存在する書籍を削除しなければならなかった。この「交渉された判断」は、アーカイブの書籍戦略を根本的に変え、商業紛争の可能性が低い古い、印刷されていない、公的領域の作品に戻すことを強要した。 Hachette グレート78プロジェクトとソニーの合意 書物の戦いが激しくなり、オーディオ側に第二の戦線が開かれた。グレート78プロジェクトは、20世紀初頭の78rpmレコードをデジタル化することを目的とした。これらのシェラック・ディスクは脆弱で、時代遅れで、しばしば悪化している。 ソニー・ミュージックとユニバーサル・ミュージック・グループを含む主要レコード・ラベルは、2023年にプロジェクトが「違法レコード・ストア」として機能し、フランク・シナトラやビリー・ホリデイなどのアーティストの数千曲の著作権を侵害したと主張し、600万ドルを超える損害賠償を求めた。 2025年9月には、この訴訟も解決に達したが、条項は機密的である一方で、この決議によりアーカイブは破産を招く可能性のある裁判を回避することができたが、その直後の結果は、著作権の対象となった多くのオーディオレコーディングへのアクセスを削除し、一般の人々ではなく研究者に制限することだった。このパターンは、制限に続く安定が、2025年にインターネットアーカイブの新たな現実を象徴する:より慎重で法的に制限された保存モデルへの「動きを速く破る」というアプローチからの撤退である。 「Federal Depository Shield」 これらの損失の中での大きな戦略的勝利で、インターネットアーカイブは2025年7月に米国上院によって連邦保管図書館(FDL)に指定されました。7 この地位は単なるタイトル以上のものです。 この指定は、アーカイブのコレクションの少なくとも一部のための重要な法的保護の層を提供しますが、著作権のある音楽や商業小説を保護するものではありませんが、国家の情報インフラの不可欠な構成要素としてのアーカイブの役割を強化し、政治的にも法律的にも完全に閉鎖することが困難になります。 Part V: Future-Proofing the Past 過去の証明 分散化と「期限の終わり」 2020年から2025年の法律上の脅威は、集中化という重大な脆弱性を暴露しました。もし裁判所の命令や災害の火災がFunston Avenue本部に当たったら、ウェブの歴史の主要なコピーが失われる可能性があります。 Decentralized Web(DWeb)について 目的は、アーカイブのデータを同僚のグローバルネットワークを介して保存することであり、政府、企業、自然災害であろうと、いかなる単一の組織であろうと、それをオフラインに取り上げることを不可能にすることである。 テクノロジー的には、IPFS(InterPlanetary File System)やFileCoinなどのプロトコルとの統合が必要です。 \n \n \n IPFS: ファイルのサーバーがブロックされている場合、ユーザーはコピーを保有するネットワーク内の他のノードから同じ WARC ファイルを取得できます。 Filecoin: ストレージのための奨励層を提供します。2025年には、アーカイブは、「End of Term」政府のウェブアーカイブなどの重要なコレクションを、冷凍ストレージのためのFilecoinネットワークにアップロードし始めました。 2025年「終末期」Crawl アーカイブは4年ごとに大規模な調査を行い、大統領転換前に(dot)govおよび(dot)milのウェブサイトをクロールする。2024年から2025年までのクロールは、500テラバイトを超える政府データを収集して史上最大のものとなった。45このプロジェクトは、気候データ、人口統計報告、政策文書が新しい政府が就任したときに消え去らないことを保証する歴史の監視者としてのアーカイブの役割を強調する。 「Generative AI and Fair Use」 私はBrewser Kahleに2025とgenerative 