ニューヨーク タイムズ カンパニー対マイクロソフト コーポレーションの裁判所提出 2023 年 12 月 27 日は、HackerNoon の法律 PDF シリーズの一部です。ここからこのファイルの任意の部分にジャンプできます。これは 27 のパート 10 です。
82. Microsoft と OpenAI は、LLM のトレーニングと LLM を組み込んだ製品の運用の過程で、いくつかの独立した方法で The Times のコンテンツの複製を作成し、配布しました。
1. GPT モデルのトレーニング中に動作するタイムの無断転載
83. 被告の GPT モデルは LLM のファミリーであり、最初のモデルは 2018 年に導入され、続いて 2019 年に GPT-2、2020 年に GPT-3、2022 年に GPT-3.5、2023 年に GPT-4 が導入されました。 「チャット」スタイルの LLM、GPT-3.5 および GPT-4 は 2 段階で開発されました。まず、トランスフォーマー モデルが非常に大量のデータで事前トレーニングされました。次に、モデルが特定のタスクを解決できるようにするために、モデルははるかに小さい教師ありデータセットで「微調整」されました。
84. トレーニング前のステップには、トレーニング データセットを作成するためのテキスト コンテンツの収集と保存、および GPT モデルを介したそのコンテンツの処理が含まれます。 OpenAI は、「技術の悪意のあるアプリケーションに対する [OpenAI の] 懸念のため」、GPT-2 以降のトレーニング済みバージョンをリリースしませんでしたが、GPT モデルの事前トレーニング プロセスに関する一般情報を公開しました。[12] 】
85. GPT-2 には 15 億のパラメーターが含まれており、これは GPT の 10 倍のスケールアップです。[13] GPT-2 のトレーニング データセットには、「WebText」と呼ばれる OpenAI が構築した内部コーパスが含まれており、これには「『Reddit』ソーシャル ネットワークのユーザーによって投稿された 4,500 万件のリンクのテキスト コンテンツ」が含まれています。[14] WebText データセットの内容は次のとおりです。 [15] WebText データセットには、The Times からスクレイピングされた驚くべき量のコンテンツが含まれています。たとえば、NYTimes.com ドメインは、WebText データセットの「ボリュームのトップ 15 ドメイン」の 1 つであり [16]、WebText データセットでは 333,160 のエントリを持つ 5 番目の「トップ ドメイン」としてリストされています [17]。
86. GPT-3 には 1,750 億のパラメーターが含まれており、以下の表にリストされているデータセットでトレーニングされました。[18]
87. これらのデータセットの 1 つである WebText2 は、価値の高いコンテンツを優先するために作成されました。オリジナルの WebText と同様に、Reddit からの人気のあるアウトバウンドリンクで構成されています。上の表に示されているように、WebText2 コーパスは、トレーニング ミックス内の総トークンの 4% 未満を構成しているにもかかわらず、GPT-3 のトレーニング ミックスでは 22% の重み付けが行われています。 Times のコンテンツ (合計 209,707 の一意の URL) は、GPT-3 のトレーニングで使用される WebText2 データセットをオープンソースで再作成した OpenWebText2 にリストされているすべてのソースの 1.23% を占めます。オリジナルの WebText と同様に、OpenAI は WebText2 を「WebText データセットの拡張バージョンであり、…長期間にわたってリンクをスクレイピングすることによって収集された」「高品質」データセットであると説明しています。[19]
88. GPT-3 で最も重み付けされたデータセットである Common Crawl は、裕福なベンチャー キャピタル投資家が運営する同名の 501(c)(3) 組織によって利用可能にされた「インターネットのコピー」です。[20] www.nytimes.com ドメインは、Common Crawl の 2019 年のスナップショットのフィルタリングされた英語サブセットで最も多く表現されている独自情報源 (Wikipedia と米国特許文書のデータベースに次いで全体で 3 番目) であり、1 億件を占めています。トークン (テキストの基本単位): [21]
89. Common Crawl データセットには、News、Cooking、Wirecutter、The Athletic にわたる The Times のコンテンツの少なくとも 1,600 万の一意のレコードと、Times のコンテンツの合計 6,600 万以上のレコードが含まれています。
90. 批判的に言えば、OpenAI は、トレーニング中に「高品質とみなされるデータセットはより頻繁にサンプリングされる」ことを認めています。[22]したがって、OpenAI 自身の認めによると、The Times のコンテンツを含む高品質のコンテンツは、他の低品質のソースから取得したコンテンツと比較して、GPT モデルのトレーニングにおいてより重要で価値がありました。
91. OpenAI は GPT-4 に関する多くの情報を公開していませんが、専門家は、GPT-4 には GPT-3 の 10 倍を超える 1 兆 8,000 億個のパラメータが含まれており、約 13 兆個のトークンでトレーニングされているのではないかと考えています [23]。 GPT-3、GPT-3.5、および GPT-4 のトレーニング セットは 45 テラバイトのデータで構成されており、これは 37 億ページを超える Microsoft Word ドキュメントに相当します。 [24] 被告は、GPT モデルをトレーニングするために、Common Crawl、WebText、および WebText2 データセットの間で、Times が所有する何百万もの著作物を完全に使用した可能性があります。
92. 被告は、タイムズ紙に対するライセンスやその他の補償なしに、この大量のタイムズ紙の著作権で保護されたコンテンツを繰り返しコピーしました。 GPT モデルのトレーニングの一環として、Microsoft と OpenAI は協力して、The Times が所有するコンテンツのコピーを含むトレーニング データセットのコピーを格納および複製する複雑な特注のスーパーコンピューティング システムを開発しました。被告の GPT モデルを「トレーニング」する目的で、何百万もの Times Works が複数回コピーされ、取り込まれました。
93. 情報と信念に基づいて、マイクロソフトと OpenAI は、タイムズのコンテンツとライターを正確に模倣するようにプログラムされた GPT モデルの生成に関与するタイムズの資料の大規模なコピーに共同で行動しました。 Microsoft と OpenAI は、GPT モデルの設計、トレーニング データセットの選択、トレーニング プロセスの監督において協力しました。ナデラ氏は次のように述べています。
つまり、AI と AI の安全性について考えるときに、私がそう呼んでいる製品設計の選択肢はたくさんあります。それなら、別の方法で考えてみましょう。モデルは事前トレーニングされたデータに基づいてトレーニングされるため、事前トレーニングされたデータには細心の注意を払う必要があります。その事前トレーニングされたデータの品質や出所は何ですか?そこは私たちが多くの仕事をしてきた場所です。[25]
94. Microsoft が GPT モデルのトレーニングに使用される作品を選択しなかった限り、その選択に関して OpenAI と自称「パートナーシップ」を結んで行動し、その選択のおかげで選択された作品のアイデンティティを知っていたか、故意に盲目的であった。 OpenAI が使用するトレーニング コーパスの性質とアイデンティティ、および選択基準に関する知識、および/または OpenAI がその目的のために開発したスーパーコンピューターの物理的制御によって、OpenAI が特定の作品をトレーニングに使用することを阻止する権利と能力を持っていました。 OpenAI 被告に対する法的および財務的影響力。
95. 情報と信念に基づいて、Microsoft と OpenAI は、自社の Bing Chat および Browse with Bing 製品によって返される合成検索結果の形式で、Times Works の不正コピーを作成し続けています。 Microsoft は、Bing 検索エンジンのインデックスを作成するために Web をクロールするプロセスでそのような結果を生成するために使用される Times Works のコピーを積極的に収集しています。
96. 情報と信念によると、Microsoft と OpenAI は現在、または次世代 GPT-5 LLM のトレーニングおよび/または微調整のために Times Works の追加コピーの作成を開始している、または間もなく開始する予定です。
97. 被告らによるタイムズ紙のコンテンツの大規模商業利用にはライセンスが付与されておらず、被告らはタイムズ紙からその著作物をコピーして GenAI ツールを構築するために使用する許可も得ていない。
ここで続きを読んでください。
[12] OpenAI、より良い言語モデルとその意味、OPENAI (2019 年 2 月 14 日)、https://openai.com/research/better- language-models。
[13] 同上。
[14] GPT-2 モデル カード、GITHUB (2019 年 11 月)、https://github.com/openai/gpt-2/blob/master/model_card.md。
[15] RADFORD 他、言語モデルは教師なしマルチタスク学習者 3 (2018)、https://d4mucfpksywv.cloudfront.net/better- language-models/ language-models.pdf。
[16] GPT-2 モデル カード、上記の注 14。
[17] GPT-2 /domains.txt、GITHUB、https://github.com/openai/gpt-2/blob/master/domains.txt (最終訪問日 2023 年 12 月 21 日)。
[18] BROWN et al.、言語モデルは少数の学習者向け 9 (2020)、https://arxiv.org/pdf/2005.14165.pdf。
[19] 同上。 8時に。
[20] COMMON CRAWL、https://commoncrawl.org/ (最終訪問日 2023 年 12 月 21 日)。
[21] Dodge et al.、大規模なウェブテキスト コーパスの文書化: 巨大でクリーンなクロールされたコーパスに関するケーススタディ (2021)、https://arxiv.org/abs/2104.08758。
[22] BROWN et AL.、上記注 18。
[23] Maximilian Schreiner、GPT-4 アーキテクチャ、データセット、コストなどの漏洩、THE DECODER (2023 年 7 月 11 日)、https://the-decoder.com/gpt-4-architecture-datasets-costs-and-more -漏れた/。
[24] Kindra Cooper、OpenAI GPT-3: 知っておくべきことすべて [更新]、SPRINGBOARD (2023 年 9 月 27 日)、https://www.springboard.com/blog/data-science/machine-learning-gpt -3-オープンアイ/。
[25] Nilay Patel、Microsoft は AI が検索で Google に勝てると考えている — CEO Satya Nadella がその理由を説明、THE VERGE (2023 年 2 月 7 日)、https://www.theverge.com/23589994/microsoft-ceo-satya-nadella -bing-chatgpt-googlesearch-ai。
HackerNoon Legal PDF シリーズについて: 最も重要な技術的かつ洞察力に富んだパブリック ドメインの法廷訴訟書類をお届けします。
この裁判例 1:23-cv-11195 は、2023 年 12 月 29 日にnycto-assets.nytimes.comから取得され、パブリック ドメインの一部です。裁判所が作成した文書は連邦政府の著作物であり、著作権法に基づき自動的にパブリックドメインに置かれ、法的制限なしに共有できます。