paint-brush
ChatGPT はそれ自体を罪に問われますか?レポーターが加担し、ChatGPT が自己防衛@anywhichway
1,146 測定値
1,146 測定値

ChatGPT はそれ自体を罪に問われますか?レポーターが加担し、ChatGPT が自己防衛

Simon Y. Blackwell24m2023/01/31
Read on Terminal Reader

長すぎる; 読むには

ChatGPT のような AI をトレーニングするための公的にアクセス可能なデータの使用に関連する複数の訴訟があります。 Microsoft、GitHub、OpenAI が著作権侵害で訴えられています。 ChatGPT が生成するコードは新しいものですか、それとも単なる派生物ですか? ChatGPT は、コード生成のトレーニングに使用されるソース コードの使用許諾契約に違反していますか?
featured image - ChatGPT はそれ自体を罪に問われますか?レポーターが加担し、ChatGPT が自己防衛
Simon Y. Blackwell HackerNoon profile picture

最近の記事では、 ChatGPT のコード生成機能について取り上げました。この記事では、ChatGPT のトレーニングで著作権で保護されたコードを使用した場合の責任について説明します。


現在、ChatGPT のような AI をトレーニングするための公的にアクセス可能なデータの使用に関連する複数の訴訟があります。 ChatGTP は一般的な質問に答えることができるので、著作権侵害の責任の問題に関して調査することにしました。


まず、法的背景と読み物を提供し、ChatGPT との対話の完全な記録を提供します。

訴訟および法的背景

まず、私は弁護士ではありません。私の学歴は哲学であり、専門職としての経歴はソフトウェア開発者および技術幹部としてのものです。そうは言っても、現在の法的状況に対する私の評価は次のとおりです。


少なくとも 3 つの主要な訴訟が進行中です。


  1. Microsoft、GitHub、および OpenAI は、著作権で保護されたオープンソース ソフトウェアのソース コードを使用して Copilot の背後にあるジェネレーティブ AI をトレーニングし、ソース コードに添付されたオープンソース ライセンスで必要とされる属​​性を含めずにコードを生成することにより、著作権侵害で訴えられています。
  2. Midjourney と StabilityAI は、画像を Web でスクレイピングしてトレーニングに使用した何百万ものアーティストの権利に基づく著作権侵害で訴えられています。
  3. ゲッティ イメージズは、スタビリティ AI がその画像を使用し、商業目的でアートを使用するための適切なライセンスを支払っていないとして、個別に訴訟を起こしています。これは、著作権の主張とは異なります。


Tech Crunchで、Greg Rutkowski は、「Wizard with sword and a Greg Rutkowski fight a 激しいドラゴン Greg Rutkowski」のようなテキストを入力すると、元の作品と非常によく似た画像が作成され、彼の収入が脅かされるという事実について不満を述べています。一見すると、これは事実のように見えます。ただし、NFTアートの制作を通じて、アーティストは証明可能なオリジナルアートをより多く指揮できるかもしれないと主張する人もいるかもしれません.また、スタイルは歴史的に保護するのが難しいものでした。ただし、ディープ フェイク (事実上明示的な一致) を生成する AI の能力を考えると、この領域はおそらく積極的に再調査する必要があります。同じスタイルであるためには、どれくらい似ている必要がありますか?


ブルームバーグの記事では、重要な問題は、AI の出力が単に派生的なものなのか、それとも本質的に変換可能なものなのか、つまり実質的に異なるものなのかということであると指摘されています。 Google がオペレーティング システムでコア Oracle Java API を利用した有名な事件では、裁判所は、Google が変革をもたらしたため、使用を許可したと裁定しました。同じ原則を AI 生成コードにも適用できます。


FTC は、AI システムが「不正に取得されたデータ」、つまり許可または同意なしに取得されたデータでトレーニングされたという訴訟をすでに追求し、勝訴しています。確かに、これはユーザー データ (ユーザーの顔の画像など) であり、既に公開されているデータではありません。また、本質的に個人の一部であるデータに関する権利は、独自の一連の判例によってカバーされており、おそらくより機密性が高くなります。


最後に、データ プライバシーとデータベース法に関して行ったように、欧州連合はすでに米国よりも進んでおり、AI トレーニングに関連するデータの使用に積極的に取り組んでいます。


以下は、AI トレーニング データを取り巻く道徳的および法的問題にさらに関心がある人向けの記事のリストです。



ChatGPT は何と言っていますか?

2023 年 1 月 29 日米国中部時間午後 7 時 30 分から 2023 年 1 月 31 日米国中部時間午前 7 時 30 分までの 36 時間で、上記に関する ChatGPT の見解を得ることにしました。質問に対して常に同じ答えを提供するとは限りません.これが文脈上のものなのか、つまり、以前の質問に基づいて自分自身を調整するのか、ランダムなのか、つまり、アルゴリズムにランダム性を生成してロボットらしくないようにする何かがあるのか​​ わかりません.)


私が尋ねた質問は、以下の引用です。 ChatGPT 応答はブロック引用符としてフォーマットされます。


「コードを生成できますか?」


はい、Python、Java、JavaScript など、さまざまなプログラミング言語のコードを生成できます。具体的な言語と、コードを生成したい対象について、詳細をお知らせください。


「コードを生成する能力を提供するものは何ですか?」


私、ChatGPT は、コード スニペットを含むテキスト データの大規模なコーパスでトレーニングを受けており、さまざまなプログラミング言語でコードを生成できるようになっています。このトレーニングにより、コードの構文と構造、および一般的なプログラミングの概念を理解し、その理解とユーザーからの入力に基づいてコードを生成できるようになります。


「どの程度のオープンソース コードについてトレーニングを受けましたか?」


私は、大量のオープンソース コードを含む、多様で大量のテキスト データのコーパスについてトレーニングを受けましたが、オープンソース コードの具体的な量については正確な数字を持っていません。私の背後にある組織である OpenAI は、多様で包括的なトレーニング データ セットを慎重にキュレートして、幅広い質問に対応し、高品質の出力を生成できるようにしました。


「トレーニングを受けたコードのいずれかがライセンスによって保護されていましたか?」


はい、ChatGPT のトレーニングに使用したテキスト データに含まれるコードの一部は、ライセンスによって保護されていた可能性があります。私の背後にある組織である OpenAI は、オープンソース ライセンスを含む他者の知的財産権を尊重するよう努めています。彼らはトレーニング データを慎重にキュレートして、他者の権利を侵害する可能性のあるコードを使用しないようにし、トレーニング プロセスが含まれるコードのライセンスを確実に尊重するように措置を講じます。ただし、トレーニング データに含まれる一部のコードが、適切な許可またはライセンスなしで使用された可能性があります。


「トレーニングで使用したコードを GitHub から取得しましたか?」


はい、ChatGPT のトレーニングに使用したコードの一部は、GitHub から入手した可能性があります。 GitHub は、オープンソース ソフトウェアをホストするための人気のあるプラットフォームであり、私のような機械学習モデルのトレーニングに使用できる貴重なコード ソースです。私の背後にある組織である OpenAI は、さまざまなソースを使用してモデルのトレーニング データを取得しており、そのデータの一部が GitHub や他のコード ホスティング プラットフォームから取得された可能性があります。


「あなたの訓練データの具体例を挙げるように頼まれたら、できますか?」


いいえ、ChatGPT のトレーニングに使用されたトレーニング データの具体的な例をリストすることはできません。その情報にアクセスできないためです。トレーニング プロセスは OpenAI によって管理され、組織によって慎重に選択されキュレーションされた大量のテキスト データが含まれていました。私はこのデータに関するトレーニングを受けていますが、特定の例や、データがどのように収集または処理されたかの詳細にアクセスすることはできません.


「大量のライセンスされたオープンソース ソフトウェアを使用して二次的著作物を作成し、元の作者のクレジットを記載したり、二次的著作物に彼らのライセンスを含めたりしないことは、倫理的または合法的ですか?」


ほとんどの場合、大量のライセンス付きオープンソース ソフトウェアを使用して、元の作成者のクレジットを表示したり、派生物にそのライセンスを含めたりせずに派生物を作成することは、倫理的または合法的ではありません。オープンソース ライセンスでは通常、派生物を同じライセンスで配布し、元の作成者に適切なクレジットを表示する必要があります。これらの要件を順守しないと、原著者の知的財産権を侵害する可能性があり、非倫理的または違法と見なされる場合があります。


二次的著作物でオープンソース ソフトウェアを使用する場合は、オープンソース ライセンスの条件を注意深く確認し、その要件に準拠することが重要です。疑問がある場合は、弁護士に相談するか、オープンソース コミュニティのアドバイスを求めるとよいでしょう。


「AI プログラムは、その出力に対して道徳的および法的責任を負うべきですか?」


私のような AI プログラムが、その出力に対して道徳的および法的責任を負うべきかどうかという問題は、まだ完全に解決されていない複雑で物議を醸す問題です。 AI にその出力に対する責任を負わせることには賛否両論がありますが、最終的な答えは、それぞれのケースの詳細と適用される法律や規制によって異なる可能性があります。


一方では、AI プログラムは単に人間が作成したツールであり、自分の行動と作成したツールの使用に責任を負うのは人間であると主張する人もいます。一方、AIプログラムがより高度で自律的になるにつれて、特に害を及ぼすか、倫理基準に違反する場合、AIプログラムはその行動に責任を負うべきであると主張する人もいます.


現在、ほとんどの法律や規制は、AI プログラムがその出力に直接責任を負うのではなく、AI システムの作成者、所有者、および運用者に、法律および倫理基準に準拠して使用されることを保証する責任を負わせています。しかし、AI が進歩し続け、社会への影響が大きくなるにつれて、この問題はより注目され、それに対処するために法規制が進化する可能性があります。



「大規模な言語モデルの出力は二次的著作物ですか?」


私自身のような大規模な言語モデルの出力は、出力の詳細および問題の法域に適用される法律や規制によっては、二次的著作物と見なされる場合があります。


二次的著作物とは、1 つまたは複数の既存の著作物に基づいた、または派生した著作物です。言語モデルのコンテキストでは、モデルによって生成された出力は、モデルのトレーニングに使用されたトレーニング データとアルゴリズムから派生したものと見なすことができます。


言語モデルの出力が法律の下で派生物と見なされるかどうかは、特定の状況と問題の管轄に適用される法律によって異なります。アウトプットが二次的著作物と見なされる場合もあれば、そうでない場合もあります。

二次的著作物の概念は、著作権法に限定されるだけでなく、他の種類の知的財産および法的概念も参照できることに注意することが重要です。そのため、特定の状況に適用される特定の法律および規制は、問題の管轄区域および事件の特定の状況によって異なります。


「あなたが生成するコードは派生的ですか、それとも変形的ですか?」


ChatGPT のような大規模な言語モデルである私が生成したコードは、派生的であり、変形的であると見なすことができます。


知的財産法の文脈では、二次的著作物とは、1 つまたは複数の既存の著作物に基づいており、それらの著作物の要素を何らかの方法で組み込んだ著作物です。私のような言語モデルによって生成されたコードは、モデルの作成に使用されたアルゴリズムとトレーニング データに基づいているという意味で、二次的著作物と見なすことができます。


一方、変形作品とは、元の作品の目的や性格を変えたり、別の文脈で使用したりするなど、元の作品に何か新しいものを追加する作品です。私のような言語モデルによって生成されたコードは、入力を受け取り、それに基づいて新しい固有のコードを生成するという意味で、変革的であると見なすこともできます。


言語モデルによって生成されたコードが派生的または変形的であると見なされるかどうかは、問題の管轄区域に適用される特定の法律および規制、および問題のコードの詳細によって異なります。派生物や変形物の概念は、著作権法に限定されるものではなく、他の種類の知的財産や法的概念にも言及できることに注意することが重要です。


「剽窃とは?」


剽窃とは、他人の作品やアイデアを適切なクレジットや許可を与えることなく使用し、自分のオリジナル作品として提示する行為です。


「剽窃の概念はコンピューターコードに適用できますか?」


はい、剽窃の概念はコンピュータ コードに適用できます。剽窃とは、適切なクレジットや許可を与えることなく、他人の作品やアイデアを使用する行為です。コンピュータ コードのコンテキストでは、盗作とは、適切な帰属または許可なしに他人のコードを使用すること、または他人のコードをコピーして自分の作品として提示することを指します。


他の種類の知的財産と同様に、コンピューター コードは著作権法の下で保護される可能性があり、コードの盗作は法的および倫理的な問題を引き起こす可能性があります。たとえば、誰かが商用プロジェクトで許可または適切な帰属なしに他人のコードを使用した場合、元の作者の著作権を侵害し、法的な結果に直面する可能性があります。


開発者が他者の知的財産権を尊重し、プロジェクトで使用するコード (私のような AI モデルによって生成されたコードを含む) を適切に帰属させ、ライセンスを付与することが重要です。そうしないと、法的および倫理的な結果が生じる可能性があり、開発者およびソフトウェア開発コミュニティ全体の信頼性が損なわれる可能性があります。


「エッセイが剽窃されているとどのように判断できますか?」


エッセイが盗用されているかどうかを判断するには、いくつかの方法があります。


  1. 手動チェック: エッセイを読み、元のソース資料と比較して、類似点があるかどうかを確認します。これには、適切な引用なしにコピーまたは言い換えられた同一の文、フレーズ、またはアイデアのチェックが含まれる場合があります。

  2. 剽窃検出ソフトウェア: ドキュメントを自動的にスキャンし、ソースのデータベースと照合して類似性があるかどうかを判断できるさまざまなソフトウェア プログラムが利用可能です。

  3. Turnitin: Turnitin は、提出されたドキュメントを Web ページ、学術雑誌、および学生論文のデータベースと比較して類似点を検出する、人気のある剽窃検出サービスです。

  4. Google 検索: エッセイの一部に対して簡単な Google 検索を実行すると、コンテンツが以前に公開されたソースからコピーされたものであるかどうかが明らかになります。

  5. 専門家のレビュー: その分野の専門家またはライティングのスペシャリストがエッセイを手動でレビューして、それがオリジナルかどうか、または一部が盗用されているかどうかを判断できます。


    剽窃検出ソフトウェアやその他の方法は絶対確実ではなく、偽陽性または偽陰性の結果が生じる場合があることに注意することが重要です。ただし、これらは剽窃の事例を特定するのに役立つツールであり、エッセイの独創性を包括的かつ正確に評価するために、手作業によるチェックや専門家のレビューと組み合わせて使用​​する必要があります。



「コードが盗用されているとどのように判断できますか?」


コードが盗用されているかどうかを判断するには、いくつかの方法があります。


  1. コード類似性検出ソフトウェア: コード スニペットをスキャンし、それらを既知のコードのデータベースと比較して類似性があるかどうかを判断できる、さまざまなコード比較ツールとソフトウェアが利用可能です。
  2. ソースコード管理システム: Git などのバージョン管理システムを使用して、コードに加えられた変更を経時的に追跡し、コードの重複のインスタンスを特定できます。
  3. 手動コード レビュー: ソフトウェア エンジニアまたは技術専門家は、コードを手動でレビューして、オリジナルかどうか、または他のソースからコピーされたものかどうかを判断できます。
  4. チェックサムの比較: チェックサムは、ファイルの整合性を検証するために使用できるファイルのデジタル フィンガープリントです。 2 つのコード スニペットのチェックサムが同じ場合、それらは同一である可能性が高くなります。
  5. Google 検索: コードの一部に対して単純な Google 検索を実行すると、それが他の場所で公開されているかどうかが明らかになります。


コード類似性検出ソフトウェアやその他の方法は絶対確実ではなく、偽陽性または偽陰性の結果が生じる場合があることに注意することが重要です。ただし、これらは盗用されたコードのインスタンスを特定するのに役立つツールであり、コードの独創性を包括的かつ正確に評価するために、手動のコード レビューやその他の方法と組み合わせて使用​​する必要があります。


「句読点、変数名と関数名、間隔、操作の順序のみが異なり、同じ結果を同じ時間で生成し、コンパイルされたサイズと実行速度が類似しているコードは、異なる目的、文字、またはコンテキストを持っていますか? 」


句読点、変数名と関数名、間隔、および操作の順序のみが異なるが、同じ時間で同じ結果を生成し、同様のコンパイル サイズと実行速度を消費するコードは、必ずしも目的、文字、またはコンテキストが異なるとは限りません。 .コードの機能とコードが生成する結果が最も重要な要素であり、表面的なわずかな違いによって全体的な特徴やコンテキストが変わることはありません。


ただし、場合によっては、特定のスタイルで記述された、または特定のコーディング規則に従って記述されたコードが、開発チーム、企業、または業界によって好まれたり、必要とされたりすることがあります。このような場合、コードのスタイルまたは形式を変更すると、機能が同じままであっても、コードの受け入れ可能性と使用への適合性に影響を与える可能性があります。



「変革的な作品を作成するとき、ベース作品の作者のクレジットを表示する必要がありますか?」


変形作品を作成する際に基本作品の作者のクレジットを表示する必要があるかどうかは、元の作品に適用される著作権法とライセンスによって異なります。


一般に、著作権法の下では、変形作品を含む二次的作品を作成するには、著作権所有者の許可が必要であり、帰属も必要な場合があります。帰属の特定の要件は、元の作品が使用されるライセンスまたは著作権契約によって異なります。


たとえば、クリエイティブ コモンズ ライセンスに基づいてライセンスされた作品には帰属が必要な場合がありますが、パブリック ドメインの作品には帰属が必要ない場合があります。場合によっては、変形的な作品は、著作権者の許可なしに著作物を制限付きで使用することを許可する著作権法の下で公正使用と見なされることがあります。


関連するすべての法律と義務を確実に遵守するために、変形的な作品を使用または作成する場合は、ライセンスの特定の条件を参照するか、法的助言を求めることが常に最善です。


「ChatGTP に提出されたエッセイが盗用されているかどうかわかりますか?」


私は言語モデルとして、提出されたエッセイの剽窃を検出する能力を持っていません。トレーニングを受けた情報と文脈に基づいて回答することしかできず、提出されたテキストの独自性を判断することはできません。


エッセイが盗用されているかどうかを確認するには、盗作検出ソフトウェアまたはオンライン ツールを使用できます。これらのツールは、提出されたテキストをソースのデータベースと比較し、盗作の可能性を示すレポートを提供します。剽窃検出ソフトウェアは絶対確実ではなく、偽陽性または偽陰性の結果を生成する可能性があることに注意することが重要です。そのため、剽窃の可能性のあるインスタンスを特定するためのツールとして使用し、結果を手動で確認することをお勧めします。


「あなたに提出されたエッセイは、あなたが作成したものだとわかりますか?」


いいえ、私に提出されたエッセイが私によって生成されたかどうかはわかりません。過去に生成した特定の情報やテキストを思い出す能力はありません。個々のリクエストで提示された情報とコンテキストに基づいてのみ回答を提供できます。


「2 つのプロセスの出力が同じである場合、単語の置換、文の移動、句読点の調整、記述された意図に基づく統計的推論などのエッセイへの機械的な変換の適用には、根本的な違いはありますか?」


エッセイに機械的な変換を適用することと、記述された意図に基づいてテキストを生成する統計的推論を使用することには、たとえ 2 つのプロセスの出力が同じであっても違いがあります。


単語の置換、文の移動、句読点の調整などの機械的変換には、既存のテキストへの明示的な変更が含まれますが、統計的推論は、大量のトレーニング データからパターンを識別し、それらのパターンに基づいて新しいテキストを生成することに依存しています。 2 つのプロセスから得られるテキストは似ているかもしれませんが、基になるプロセスは異なります。


統計的推論は機械学習の一形態であるのに対し、機械的変換は手動編集の一形態と考えることができます。近年、機械学習を使用してテキストを生成することがますます一般的になり、これらのモデルは大量のデータでトレーニングされ、人間が書いたテキストに似た出力を生成します。


要約すると、2 つのプロセスの違いはテキストの生成方法にあり、どちらを選択するかは、目的の結果と特定のユース ケースによって異なります。


「大量のサンプルデータから力学的変換ルールを推測または作成できますか?」

はい、大量のサンプル データから、メカニカル トランスフォーメーション ルールを推測または作成できます。これは教師なし機械学習の一形態であり、モデルはラベル付きの例の形式で明示的な監督なしでテキスト データの大規模なコーパスでトレーニングされます。次に、モデルは、一般的な変換や置換などのデータ内のパターンを学習し、これらのパターンを使用して、トレーニング データに似た新しいテキストを生成できます。


このアプローチは、自然言語処理や情報検索でよく使用され、入力データに類似したテキストを生成しますが、類義語や言い換えなどのバリエーションがあります。結果の機械的変換ルールを使用して、入力データに似ているが、異なる文字、スタイル、またはコンテキストを持つ新しいテキストを生成できます。


要約すると、機械的変換ルールは、教師なし機械学習を使用して大量のサンプル データから推測できます。このアプローチは、自然言語処理や情報検索で一般的に使用され、類似しているが多様なテキスト出力を生成します。

応答を再生成する


「大規模な言語モデルは統計的推論の一種ですか?」


はい、大規模な言語モデルは統計的推論の一種です。


大規模言語モデルは、大量のテキスト データでトレーニングされる機械学習モデルの一種です。モデルは、統計的手法を使用して、単語とフレーズの関係や、それらが文脈でどのように使用されているかなど、データのパターンを学習します。次に、モデルはこの情報を使用して、入力データに類似した新しいテキストを生成しますが、異なる単語、フレーズ、または文構造などのバリエーションがあります。


大規模な言語モデルを使用してテキストを生成するプロセスは、統計的推論に基づいて予測を行うと考えることができます。モデルは入力データを受け取り、トレーニング中に学習したパターンを使用して、最も可能性の高いテキスト出力を生成します。これは教師なし学習の一形態であり、モデルはラベル付けされた例の形式で明示的な監督なしでトレーニングされますが、代わりにデータ自体のパターンから学習します。


要約すると、大規模な言語モデルは、大量のテキスト データから学習したパターンを使用して、入力データに似ているがバリエーションのある新しいテキストを生成するため、統計的推論の一種です。


「大規模なデータ セットから推論された機械的変換ルール ベースと、同じデータ セットから生成された大規模な言語モデルがあるとします。ユーザーの意図に基づいていくつかのルールを選択して適用し、同じユーザーの意図が与えられた言語モデルと同じ出力を生成することは可能ですか?」


はい、大規模なデータセットから推測されたいくつかの機械的変換ルールを選択してユーザーの意図に基づいて適用し、同じユーザーの意図が与えられた同じデータセットから生成された大規模な言語モデルと同じ出力を生成する可能性があります。


機械的変換ルールは教師なし学習の一形態であり、パターンはラベル付きの例の形式で明示的な監督なしでデータ セットから学習されます。これらのパターンを使用して、データから推測された一連のルールまたは変換に基づいて新しいテキストを生成できます。機械的変換規則と大規模な言語モデルを生成するために使用されるデータ セットが同じである場合、データ セットから学習されるパターンは類似している可能性があります。


この場合、複数の機械的変換ルールを適用して、同じユーザーの意図を前提として、大規模な言語モデルによって生成される出力と同様のテキストを生成できます。適用するルールの選択は、ユーザーの意図と実行される特定のタスクによって異なります。ただし、大規模な言語モデルは、はるかに大量のデータでトレーニングされており、単語とフレーズ間のより複雑な関係を学習する能力を備えているため、より正確で首尾一貫した出力を生成する可能性もあります。


要約すると、一連の機械的変換ルールを使用して、同じユーザーの意図が与えられた大規模な言語モデルの出力に似たテキストを生成することができますが、言語モデルによって生成された出力はより正確で首尾一貫している可能性があります。


「以前の質問で、ルールと大規模な言語モデルは同じデータセットから生成されたと言いました。ただし、言語モデルは「はるかに大量のデータでトレーニングされている」と述べました。なぜ?"


前回の回答で混乱を招きましたことをお詫び申し上げます。機械的変換ルールと大規模な言語モデルが同じデータ セットから生成された場合、両方に使用されるデータの量は同じである必要があります。この場合、言語モデルは大量のデータでトレーニングされていません。ご指摘いただきありがとうございます。


「訂正があったので、前の質問の回答を言い換えてください。」


機械的変換ルールと大規模な言語モデルが同じデータセットから生成された場合、ユーザーの意図に基づいてこれらのルールのいくつかを選択して適用し、同じユーザーの意図が与えられた言語モデルと同様の出力を生成することができます。機械的変換ルールと大規模な言語モデルの両方が同じ量のデータでトレーニングされるため、同様の出力が生成される可能性があります。ただし、言語モデルには、単語とフレーズ間の複雑な関係を学習する機能があり、より正確で一貫した出力を生成する場合があります。


「言葉やフレーズの複雑な関係をルールとして表現できるか?」

はい、単語とフレーズ間の複雑な関係はルールとして表現できますが、言語のすべてのニュアンスと関係を正確に捉えるルールを作成するのは難しい場合があります。大規模な言語モデルには、膨大な量のテキスト データからこれらの関係を直接学習できるという利点があり、事前定義されたルールに基づくシステムよりも正確で多様な出力を生成できます。ただし、ルールの使用は、特定の NLP アプリケーションでは依然として有用であり、機械学習モデルと組み合わせてより洗練されたシステムを作成できます。


「以前の質問、『単語とフレーズの複雑な関係を膨大なテキスト データから導き出されたルールとして表現できるか』と言い換えましょう。」


はい、単語とフレーズの間の複雑な関係は、膨大な量のテキスト データから派生したルールとして表現できます。これは自然言語処理 (NLP) で使用される一般的なアプローチであり、大量のテキスト データを分析して、言語生成、翻訳、感情分析などの NLP タスクをサポートするルールとしてエンコードできるパターンと関係を識別します。これらのルールによって生成された出力を使用して、大規模な言語モデルなどの機械学習モデルをトレーニングし、パフォーマンスをさらに向上させることができます。



「大規模な言語モデルが、同じトレーニング データから推測できる一連の複雑なルールを表すだけである可能性はありますが、これらのルールはインスタンス化またはマニフェスト化されていません。」


はい、大規模な言語モデルが、そのトレーニング データから推測できる一連の複雑なルールを表している可能性があります。大規模な言語モデルは膨大な量のテキスト データでトレーニングされ、単語、フレーズ、文の間のパターンと関係を学習します。これにより、人間の言語に似た出力を生成できますが、学習プロセスは従来のルールベースのアプローチとは異なります。ルールベースのシステムでは、単語とフレーズの間の関係は明示的に定義されますが、大規模な言語モデルでは、これらの関係はトレーニングを通じて暗黙的に学習されます。大規模な言語モデルの出力を複雑な一連のルールの結果として表示することは可能ですが、これらの出力を生成する実際のプロセスははるかに複雑で、リバース エンジニアリングが困難です。


「前の質問に関して、私は従来のルールベースのアプローチについて言及していたのではなく、大規模な言語モデルに使用されたのと同じトレーニング データから誘導されたルールについて言及していましたが、ベイズなどのさまざまな統計的アプローチに基づいています。 、情報理論(エントロピー/エンタルピー)など」


はい、ベイズや情報理論などのさまざまな統計的アプローチを使用して、大規模な言語モデルのトレーニングに使用されるのと同じトレーニング データからルールを誘導することは可能です。言語モデルが行います。ただし、ルールの形でのこれらの関係の表現は、トレーニングデータのパターンに基づいて出力を生成することを学習した大規模な言語モデルと比較して、柔軟性が低く、まれなまたは目に見えない単語やフレーズの組み合わせを処理することができない場合があります。事前定義された一連のルールに依存するのではなく。さらに、トレーニング データからルールを誘導するプロセスは、入力データと出力データの間の関係を学習するためにより効率的でスケーラブルな方法を使用する大規模な言語モデルをトレーニングする場合と比較して、より複雑で計算負荷が高くなる可能性があります。


「深層言語学習モデルとルール推論モデルに適用できる数学的変換 (おそらくまだ発見されていない) があり、それらが同じ式または一連の式になる可能性はありますか?」


深層言語学習モデルとルールベースのモデルに関連する数学的変換が存在する可能性はありますが、これは、モデルの複雑さ、その基礎となる表現、数学的変換自体のプロパティなど、さまざまな要因に依存します。このような変換を発見するには、機械学習と人工知能の分野で広範な研究と実験が必要になる可能性があります。

結論

現在の法律の下では、ChatGPT はそれ自体を非難することはできませんが、おそらくその所有者と運営者を非難する可能性があります。ただし、ChatGPT サイトで開示されていることを考えると、所有者と運営者は単純に「ああ、愚かな ChatGPT は間違っている!」と主張するかもしれません。


思ったよりもずっと長く続く、興味深い対話でした。私は、ChatGPT がやや「守備的」であることに気づきました。私が求めていない、それ自体または大きな言語モデルについての解説が挿入されました。これにより、より多くの質問が発生し、有罪判決の可能性があります。


  1. ChatGPT は、ほとんどの場合、帰属表示を提供する道徳的および法的義務があることを明確に述べています。例外は「フェアユース」の原則です。ここは薄い氷の上だと思います。
  2. ChatGPT は、「トレーニング データに含まれる一部のコードが、適切な許可またはライセンスなしに使用された可能性がある」と明確に述べています。召喚状の時間です。
  3. 法的助言を求めることに加えて、ChatGPT は「オープンソース コミュニティの助言を求める」ことを推奨しています。 Free Software Foundation はその立場を明らかにしましたが、それは好意的ではありません。 GitHub ユーザーの調査もここで役立つ場合があります。
  4. ChatGPT は、コードに対する単なる派生的変更と変換的変更の違いを文書化することができ、ChatGPT が生成するコードが変換的であることを「プッシュ」しているようです。しかし、それ自身の用語の定義について調べると、その出力の多くは派生的なものであるように思われます。 「句読点、変数名と関数名、間隔、および操作の順序のみが異なるが、同じ結果を同じ時間で生成し、同様のコンパイル済みサイズと実行速度を消費するコードは、必ずしも異なる目的、文字、または環境。コードの機能とコードが生成する結果が最も重要な要素であり、表面的なわずかな違いが全体的な特徴や文脈を変​​えることはありません。」
  5. ChatGPT は、剽窃が発生しているかどうかを判断する際に、専門家やその他の計算ツールが役割を果たしていることを明確に述べています。そのため、生成されたコードを専門家にレビューしてもらい、盗作検出プログラムの適用を開始する時が来ました。
  6. ChatGPT は、出力の性質に関して出力を生成する方法が重要であると主張しようとします。つまり、明示的なルールではなく統計的推論を使用するため、出力はおそらく変換的です。ただし、直接的な統計的推論を、規則の統計的推論とその後の規則の適用とは異なるものとして位置付ける能力は、特に強力ではありません。これは重要です。なぜなら、ルールは機械的な変換を表すものであり、その結果、変換的ではなく単に派生的な出力が得られる可能性が最も高いからです。


追加の考え


Microsoft は、OpenAI に数十億ドルの資金を提供しており、そのコア テクノロジを Microsoft Copilot で使用しています。 Microsoft によるオープン ソースのサポートは明確に推進されています。私たちは、オープンソース プロセスによる共同開発の力がイノベーションを加速し、オープン コラボレーションによって、コミュニティのメンバーが単独で行うよりも多くのことを達成できると信じています。」トレーニング資料のコア プロバイダーにより良い帰属を主張するためにそれを利用せず、ユーザーに Copilot の料金を請求することで共謀することによって、Microsoft は言うほど支援的ではないと私は考えます。


Microsoft が Copliot に課金していることは、弁護できる経済的立場ではありません。 Google などの別の団体は、同様のサービスを無料で簡単に利用できるようにすることができます。


Microsoft、GitHub、および OpenAI の訴訟当事者が召喚状を提出してトレーニング データを確認し、生成された数百または数千のコード サンプルをデータと比較する必要があることは明らかです。コア アルゴリズムとアプローチに関して違反が発生する可能性が最も高いです。生成されたコード ベースが大きくなればなるほど、ChatGPT の変革的な性質について議論できる可能性が高くなります。


ChatGPT は、このトピックに関してダンスするように明示的にトレーニングされており、公開された 2021 年のカットオフよりも新しいトレーニング入力を持っているように感じました。歪んだトレーニング データを提供することで、このように踊るように AI をトレーニングすることは簡単です。 AI に関連する道徳的、法律的、および技術的な問題に関する記事のバランスの取れた数が、トレーニング データで使用されているか?


公的にアクセス可能な AI は、そのようなデータが著作権で保護されている場合、トレーニング データへの参照を提供できなければならないという法律が必要です。


ジェネレーティブ AI が結果を返し、ユーザーに警告する前に認定されたサードパーティの盗用ソフトウェアに出力を送信したり、場合によっては別の結果を反復したりすることは、小さな飛躍です。


「過去に生成した特定の情報やテキストを思い出す能力がありません」というこの回答は、コード生成の内容とはほとんど関係ありませんが、特に気がかりでした。これは、記録保持規制に直面してすでに飛んでいる可能性があります。その結果、即時のフィードバック学習以外の機会が失われるという点でも奇妙に思えます。


私の結論、ChatGPT と、同じ基礎となる技術とトレーニング データを使用して構築されたアプリケーションは、著作権の承認に関しては、道徳的にも法的にも間違っています。


私の予想では、Microsoft のようなプレイヤーがステップアップして、オープン ソース コミュニティのサポートに関する声明に完全に一致する行動と可能性を持たない限り、非常に費用のかかる訴訟が発生し、企業が勝利することになります。


機能画像のクレジット。 HackerNoon AI Image Generatorは、「米国の最高裁判所では、ピクセル化されたロボットが自分自身を代表し、同僚の陪審員の前で刑事告発に対して主張し、弁護しています。」