最大のニューラル ネットワークを備えた OpenAI GPT-3 について多くの話題がありました。 AIの問題は解決したということですか?はい、大規模なデータセットがありますが、学習方法はまだわかっていません。
OpenAI Inc は Open.AI LP の非営利部門であり、その目標は人類に利益をもたらす「フレンドリーな AI」を作成することです。
Open.AI には、いくつかの異なるオファリングがあります。
OpenAI GPT-3 は、次のデータセットを使用して 5,000 億語でトレーニングされています。
データセット | トークン | トレーニング中の体重 |
---|---|---|
コモンクロール | 4100億 | 60% |
WebText2 | 190億 | 22% |
本1 | 120億 | 8% |
本2 | 550億 | 8% |
ウィキペディア | 30億 | 3% |
モデルのトレーニングは、次の方法を使用して実行できます。
少数ショット (FS)。これは、モデルに 10 ~ 100 のコンテキストを与え、モデルが次に何が来るかを決定することを期待する場所です。
ワンショット(1S)。これは FS に非常に似ています。ただし、トレーニングなしで例を示します。次に来る単語を決定するために、モデルにコンテキストが与えられます。
ゼロショット (0S)
モデルは与えられた答えを予測します。アイデアは、トレーニング中にモデルが持っているということです
次に来る単語を決定するのに十分なサンプルを見ました。最後のコンテキストのみが許可されるため、この設定は困難です。
モデルのトレーニングには、インターネットから GPT-3 の大量のテキストと DALL•E の画像を取得することが含まれます。ここで問題が発生します。モデルは最良のものと最悪のものに遭遇します。これに対抗するために、OpenAI は InstructGPT を作成しました。InstructGPT のトレーニング中、Open.ai は 40 人を雇って応答を評価し、それに応じてモデルに報酬を与えました。
Open.ai は、現在直面しているリスクと制限について概説しています。
「DALL・E 2 の使用は、ステレオタイプを強化したり、それらを消去または中傷したり、非常に質の低いパフォーマンスを提供したり、侮辱したりすることによって、個人やグループに害を及ぼす可能性があります。」
これは、DALL•E 2 が「CEO」がどのように見えると信じているかです。
これは、DALL•E 2 が「客室乗務員」のように見えると信じているものです。
バイアスを減らすために、OpenAI は外部の専門家を募集してフィードバックを提供してもらいました。
バイアスをテストするために、ジェニー ニコルソンからジェンダー バイアス プロンプトのリストを借りました。 OpenAIプレイグラウンドを使用して、自分でテストできます。結果は非常に興味深いことがわかります。
性別と人種は、過去に研究されてきたバイアスです。ただし、最近の論文では、GPT-3 にも宗教的偏見があることが明らかになりました。以下が見つかりました。
この記事で既に説明したように、CLIP は分類タスクで優れたパフォーマンスを発揮します。モデルをトレーニングするためのデータセットとしてImageNetを使用します。これは、インターネットからスクレイピングしている画像によるものです。ただし、モデルは、年齢、性別、人種、体重などを分類すると崩れます。これは、新しいアートを生成するために使用される AI ツールが、繰り返されるステレオタイプを永続させ続ける可能性があることを意味します。
OpenAI を使用して、コンテンツ生成を改善できます。しかし、データセットが既存のインターネットをスクレイピングしてトレーニングされている限り、年齢、性別、人種などに対するバイアスをテクノロジーに組み込むことになります。
インターネットを使用するときは、注意が必要です。 AI に入る情報はフィルター処理する必要があります。そうしないと、有害な固定観念が消えることはありません。