2024 年 6 月 27 日に取得された Center for Investigative Reporting Inc. 対 OpenAI の裁判書類は、 HackerNoon の法律 PDF シリーズの一部です。ここからこの書類の任意の部分にジャンプできます。この部分は 18 のうちの 5 です。
46. OpenAIは2015年12月に「非営利の人工知能研究会社」として設立されましたが、すぐにCIRを含む世界中のクリエイターの著作物の活用に基づく数十億ドル規模の営利企業になりました。=CIRとは異なり、OpenAIは設立からわずか3年で非営利の地位を放棄し、2019年3月に製品開発や投資家からの資金調達などの営利活動に専念する営利企業であるOpenAI LPを設立しました。
47. 被告の GenAI 製品は、「大規模言語モデル」、つまり「LLM」を利用しています。GPT のさまざまなバージョンは LLM の例です。ChatGPT や Copilot を動かすものを含む LLM は、テキスト プロンプトを入力として受け取り、出力を生成して、トレーニングに使用される潜在的に数十億の入力例に基づいて、それに従う可能性のある応答を予測します。
48. LLM は、著作権で保護されていることが多い人間が書いた作品のトレーニングの結果として出力に到達します。これらの例をトレーニング セットに収集します。
49. トレーニング セットを組み立てる際、被告を含む LLM 作成者は、まず含めたい作品を特定します。次に、その作品を「パラメーター」と呼ばれる数値としてコンピューター メモリにエンコードします。
50. 被告は、ChatGPTのどのバージョンでもトレーニングに使用されたトレーニングセットの内容を公開していないが、GPT-4より前のトレーニングセットに関する情報を開示している。[3] GPT-4以降、被告は、ChatGPTのそれ以降のバージョンのトレーニングに使用されたトレーニングセットについて完全に秘密にしてきた。したがって、被告のトレーニングセットに関する原告の主張は、ChatGPTの以前のバージョンに関する公開情報の広範なレビューと、その情報を分析し、AIの開発方法と機能についての洞察を提供するために原告の弁護士が雇用したデータサイエンティストとの協議に基づいている。
51. マイクロソフトは、同社のPrometheus技術を利用したCopilotと呼ばれる独自のAI製品を開発しました。Prometheusは、Bing検索製品とOpenAI被告のGPTモデルをBing Orchestratorと呼ばれるコンポーネントに統合しています。プロンプトが表示されると、CopilotはBing Orchestratorを使用してユーザーのクエリに応答し、インターネット上にあるコンテンツをAIで書き換えた要約または再掲を提供します。[4]
52. ChatGPTの以前のバージョン(GPT-4より前)は、少なくともWebText、WebText2、およびCommon Crawlから派生したセットを使用してトレーニングされていました。
53. WebTextとWebText2は、OpenAI被告らによって作成された。これらは、ウェブサイトReddit上で少なくとも3つの「カルマ」を獲得したすべてのアウトバウンドリンクのコレクションである。[5] Redditでは、カルマはユーザーが一般的にリンクを承認したことを示します。データセットの違いは、WebText2ではより長い期間にわたってRedditからリンクをスクレイピングしていることです。したがって、WebText2はWebTextの拡張バージョンです。
54. OpenAI被告は、WebTextトレーニングセットに含まれる上位1,000のウェブドメインとその出現頻度のリストを公開しました。このリストによると、Mother Jonesのウェブドメインの16,793の異なるURLがWebTextに登場しています。[6]
55. 被告は、それぞれのトレーニング セットに含まれていた各 URL の記録を保持しており、それを認識しています。
56. 現在ボストン大学コンピューティング・データサイエンス学部の助教授であるジョシュア・C・ピーターソンとカリフォルニア大学バークレー校で博士号を取得した計算認知科学者2人は、OpenAI被告らがWebTextを作成したのと同様に、少なくとも3つの「カルマ」を受け取ったRedditからのアウトバウンドリンクも収集することで、OpenWebTextと呼ばれるWebTextデータセットの近似値を作成した。[7] 彼らはその結果をオンラインで公開した。その後、原告側弁護士が雇用したデータサイエンティストがその結果を分析した。OpenWebTextには、motherjones.comからの17,019の異なるURLとrevealnews.orgからの415の異なるURLが含まれている。OpenWebTextに含まれるマザー・ジョーンズの作品のリストは、証拠書類2として添付されている。OpenWebTextに含まれるRevealの作品のリストは、証拠書類3として添付されている。
57. 情報と信念に基づき、WebText と OpenWebText にある Mother Jones の記事の数はわずかに異なりますが、これは少なくとも部分的にはスクレイピングが異なる日付で行われたためです。
58. OpenAIは、WebTextの開発にあたり、ウェブサイトからテキストを抽出するためにDragnetとNewspaperと呼ばれる一連のアルゴリズムを使用したと説明している。[8] 情報と確信に基づき、OpenAIは、1つの方法ではなく、これら2つの抽出方法を使用したのは、1つの方法でバグが発生したり、特定のケースで適切に機能しなかったりした場合に備えて冗長性を持たせるためである。1つの方法ではなく2つの方法を適用すると、トレーニングセットに含まれるコンテンツの種類がより一貫性のあるものになり、トレーニングの観点から望ましい。
59. ドラグネットのアルゴリズムは、「フッター」や「著作権表示」を含むウェブサイトの他の部分から「メインの記事コンテンツを分離」し、抽出者が「メインの記事コンテンツ」のみをさらにコピーできるように設計されている。[9] ドラグネットは、ヘッダーや署名から著者やタイトルの情報も抽出できず、メインの記事コンテンツに別に含まれている場合にのみ抽出する。言い換えれば、ドラグネットによって作成されたニュース記事のコピーには、著者、タイトル、著作権表示、フッターが含まれないように設計されており、メインの記事コンテンツに含まれていない限り、そのような情報は含まれない。
60. Dragnet と同様に、Newspaper のアルゴリズムは著作権表示やフッターを抽出できません。さらに、Newspaper のユーザーは著者とタイトルの情報を抽出するか抽出しないかを選択できます。情報と信念に基づき、OpenAI 被告は Dragnet の抽出との一貫性を望んだため著者とタイトルの情報を抽出しないことを選択しましたが、Dragnet は通常、著者とタイトルの情報を抽出できません。
61. OpenAI被告らは、WebTextデータセットを組み立てる際にDragnetアルゴリズムとNewspaperアルゴリズムを適用し、原告の著者、タイトル、著作権表示、および使用条件情報を削除した。使用条件情報は原告のウェブサイトのフッターに含まれている。
62. 情報と信念に基づき、OpenAI 被告は、Dragnet と Newspaper を使用する際、まず関連するウェブページをダウンロードして保存してから、そこからデータを抽出します。これは、少なくとも、Dragnet と Newspaper を使用する際、将来データセットを再生成する必要がある可能性 (データセットが破損した場合など) を予測し、すべてのデータを再クロールするよりもコピーを保存する方が安価であるためです。
63. スクレイピングの時点では、Dragnet と Newspaper が著者、タイトル、著作権表示、フッターを削除することは公に知られており、OpenAI は Dragnet と Newspaper の仕組みを知っている高度なスキルを持つデータ サイエンティストを雇用していることを考えると、OpenAI 被告は WebText を組み立てる際にこの著作権管理情報を故意にかつ故意に削除したことになります。
64. 原告の弁護団が雇用したデータ サイエンティストが、OpenWebText に含まれる 3 つの Reveal URL に Dragnet コードを適用しました。結果は、証拠書類 4 として添付されています。結果として得られたコピーのテキストは、実質的にはオリジナルと同一ですが (たとえば、2 つの単語の間に余分なスペースがランダムに追加されているように見えることや、埋め込まれた写真に関連する説明が省略されていること以外は同一)、著者、タイトル、著作権表示、および利用規約の情報が欠落しています。ただし、著者情報がメインの記事コンテンツにたまたま含まれていた場合は例外です。データ サイエンティストが Mother Jones の記事に Dragnet コードを適用しようとしたときには失敗し、OpenAI 被告が上記の冗長性を必要としていたことがさらに裏付けられました。
65. 原告の弁護団が雇用したデータ サイエンティストは、OpenWebText に含まれる 3 つの Mother Jones と 3 つの Reveal URL にも Newspaper コードを適用しました。データ サイエンティストは、OpenAI 被告が Dragnet 抽出との一貫性を望んでいるという合理的な仮定に基づいて、ユーザーが著者とタイトル情報を抽出しないようにするコード バージョンを適用しました。結果は添付資料 5 です。結果として得られたコピーのテキストは実質的にオリジナルと同一ですが、著者情報がメインの記事コンテンツにたまたま含まれている場合を除き、公衆に伝えられた著者、タイトル、著作権表示、および使用条件の情報が欠落しています。
66. DragnetコードとNewspaperコード(OpenAIはWebTextを組み立てる際に意図的に使用したことを認めている)を適用して生成された原告の記事のコピーに著者、タイトル、著作権表示、および利用規約の情報が含まれていないことは、OpenAI被告が著作権で保護された原告のニュース記事から著者、タイトル、著作権表示、および利用規約の情報を意図的に削除したことをさらに裏付けています。
67. 情報と信念に基づき、OpenAI被告らは、GPT-2以降のChatGPTのすべてのバージョンのトレーニングセットを作成する際に、同じまたは類似のDragnetおよびNewspaperテキスト抽出方法を使用し続けています。これは、少なくとも、OpenAI被告らがGPT-2にこれらの方法を使用したことを認めており、ChatGPTの後のバージョンでの使用を公に否定しておらず、それらの後のバージョンで他のテキスト抽出方法を使用したことを公に主張していないためです。
68. OpenAI被告らが使用を認めたもう一つのリポジトリであるCommon Crawlは、第三者によって作成されたインターネットの大部分のスクレイピングである。
69. GPT-2を訓練するために、OpenAIはサードパーティのウェブサイトからCommon Crawlデータをダウンロードし、英語で書かれた作品など特定の作品のみを含むようにフィルタリングしました。[10]
70. Googleは、自社のAIモデルのトレーニングに使用したCommon Crawlデータのフィルタリングされた月次スナップショットであるC4と呼ばれるデータセットを複製する方法についての説明を公開しました。情報と信念に基づき、被告とGoogleのAIモデルのトレーニングの目的の類似性に基づくと、C4はChatGPTのトレーニングに使用されたCommon Crawlのフィルタリングされたバージョンと実質的に類似しています。Microsoftの共同創設者であるポール・アレンが設立した非営利の研究機関であるAllen Institute for AIは、Googleの説明に従い、C4の再現版をオンラインで公開しました。[11]
71. 原告の弁護団が雇用したデータ サイエンティストがこの再現を分析しました。これにはmotherjones.comに由来する 26,178 個の URL が含まれています。これらの URL の大半には、原告の著作権で保護されたニュース記事が含まれています。使用条件情報を含むものはありません。原告の著作権で保護されたニュース記事に関する著作権通知情報を含むものはありません。また、大多数には著者およびタイトル情報がありません。記事が実質的に同一である場合もあれば、少数の段落が省略されている場合もあります。
72. この再現には、 revealnews.orgから発信された 451 件の記事も含まれています。これらの URL の大部分には、原告の著作権で保護されたニュース記事が含まれています。ニュース記事には、著作権表示や使用条件に関する情報は含まれていません。また、大多数には著者やタイトルの情報がありません。記事が実質的に同一である場合もあれば、少数の段落が省略されている場合もあります。
73. 代表的なサンプルとして、C4 セットに掲載されている Mother Jones の記事 3 件と Reveal の記事 3 件のテキストが証拠書類 6 として添付されています。これらの記事には、一般に公開されたときの著者、タイトル、著作権表示、使用条件の情報は含まれていません。
74. 原告は、被告に対し、原告の著作物をトレーニングセットに含めるライセンスやその他の許可を与えていない。
75. 原告の数万点の記事を許可なくダウンロードすることは、原告の著作権、より具体的には著作権で保護された作品の複製を管理する権利を侵害するものである。
続きはこちらをご覧ください。
HackerNoon Legal PDF シリーズについて: 最も重要な技術的かつ洞察力に富んだパブリック ドメインの訴訟記録をお届けします。
この裁判例は 2024 年 6 月 27 日に取得され、 motherjones.com はパブリック ドメインの一部です。裁判所が作成した文書は連邦政府の著作物であり、著作権法の下では自動的にパブリック ドメインとなり、法的制限なしに共有できます。
[3] 原告は、特定のバージョンが指定されていない限り、ChatGPTのすべてのバージョンを総称して「ChatGPT」と呼びます。
[4] https://blogs.bing.com/search-quality-insights/february-2023/Building-the-New-Bing
[5] Alec Radford他「言語モデルは教師なしマルチタスク学習者である」3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf 。
[6] https://github.com/openai/gpt-2/blob/master/domains.txt 。
[7] https://github.com/jcpeterson/openwebtext/blob/master/README.md。
[8] Alec Radford他「言語モデルは教師なしマルチタスク学習者である」3 https://cdn.openai.com/better-languagemodels/language_models_are_unsupervised_multitask_learners.pdf.
[9] Matt McDonnell、「Pythonコンテンツ抽出アルゴリズムのベンチマーク」(2015年1月29日)、https://moz.com/devblog/benchmarking-python-content-extraction-algorithms-dragnetreadability-goose-and-eatiht.
[10] Tom B. Brown他「言語モデルは少数ショット学習者」14(2020年7月22日)、https://arxiv.org/pdf/2005.14165。
[11] https://huggingface.co/datasets/allenai/c4。