1,087 測定値

ChatGPT の背後にあるテクノロジーとトレーニングの秘密を探る

に ILLA Cloud7m2023/04/24

長すぎる; 読むには

ChatGPT は、その優れた会話スキルにより、絶大な人気を博しています。ゲームをプレイしたり、詩やスクリプトを作成したりするなど、幅広い機能を備えています。 ChatGPT は、倫理原則に重点を置いてトレーニングされており、所定の倫理ガイドラインに違反する要求や質問を拒否できます。

featured image - ChatGPT の背後にあるテクノロジーとトレーニングの秘密を探る

ChatGPT は、その優れた会話スキルにより、絶大な人気を博しています。ゲームをプレイしたり、詩やスクリプトを作成したり、プログラムのデバッグを支援したり、Web サイトのデザインを作成したり、AIGC プロンプトを生成したりする機能など、幅広い機能を備えています。 Ben Tossell によって編集されたように、Twitter でその機能のいくつかの例を見つけることができます。

実際、ChatGPT は最近、MBA の教授から管理に関する質問に回答するよう求められ、家に持ち帰ることができる宿題をもう割り当てるべきではないという結論に至りました。一度ChatGPTを使い始めるとやめられないという人が多いのは明らかです。

Chatgptを改善する方法

その前身である GPT-3 と比較して、ChatGPT の主な改善点は、以前の会話データを保持する機能であり、拡張された対話中にシームレスなエクスペリエンスをユーザーに提供します。

ChatGPT は、間違いを認識して修正することができます。応答が不十分であるとわかった場合は、応答を修正してより良い解決策を提供するように促すことができます。

ChatGPT には、欠陥のある仮定に疑問を投げかけ、異議を唱える能力があります。 GPT-3 がリリースされた初期の頃、多くのユーザーは、AI が生成する虚偽のコンテンツが原因で、もっともらしく聞こえても実際には根拠がなかったという否定的な経験をしました。ただし、ChatGPT で「2015 年にコロンブスはアメリカで何をしていたのですか?」のような質問をするとします。コロンブスがその時代に存在しなかったことを認識するでしょう。

さらに、ChatGPT は倫理原則に重点を置いてトレーニングされており、所定の倫理ガイドラインに違反する要求や質問を拒否することができます。それにもかかわらず、OpenAI の注意にもかかわらず、巧妙な質問により、これらのガイドラインを回避できる可能性があります。

ChatGPTのトレーニング方法

ChatGPT で採用されているトレーニング方法論は、大規模モデルに使用される「事前トレーニング-微調整」の従来のアプローチに従います。モデルは、最初に大規模な公開データセットでトレーニングされ、次に、望ましいパフォーマンスを達成するために小さなデータセットで微調整することにより、特定のアプリケーションドメイン (人間のような会話など) に適応されます。微調整、プロンプト、およびその他の手法は、モデルのコアを大幅に変更するものではありませんが、実際のパフォーマンスを大幅に向上させることができます。ただし、人間のクエリを理解する GPT-3 の能力は最も自然なものではなく、タスクを再構築するか、ジョブに合わせてモデルを微調整する必要があり、効率の向上につながります。

ChatGPT は、2022 年 1 月にリリースされた InstructGPT の兄弟モデルです。InstructGPT は、モデルの出力の人間によるデモンストレーションを組み込み、トレーニングの結果を並べ替えて、GPT-3 よりも人間の指示に従うのに適しています。 ChatGPT の革新的なトレーニング方法論は、「人間のフィードバックからの強化学習」(RLHF) と呼ばれます。

ChatGPT は GPT-3.5 モデルに基づいて構築されており、テキストとコードのデータセットをトレーニングに活用し、この目的のために Microsoft の Azure AI サーバーを利用しています。元の GPT-3 トレーニングデータセットにはテキストのみが含まれていたため、この新しいバージョンには、コードを理解して生成する機能が追加されています。

GPT3.5

ChatGPT が大幅な改善を示したのはなぜですか?

記憶力と文脈との継続的な対話に携わる能力を備えていることは別として、ChatGPT で使用されるトレーニング方法も注目に値します。 2022 年 3 月に研究論文で初めて紹介された RLHF メソッドは、業界の推測にもかかわらず、InstructGPT のトレーニング中に使用されませんでした。

InstructGPT は text-DaVinci-002 モデルを採用しましたが、モード崩壊などの問題が発生し、質問に関係なく同じ回答に収束しました。 ChatGPT は RLHF メソッドの適用に成功し、目覚ましい成果を上げています。ただし、RLHF は、スパースフィードバックやモード崩壊などの問題に頻繁に遭遇するため、トレーニングが容易ではありません。

この論文は 3 月に公開されましたが、大幅な微調整が必要だったため、ChatGPT の公開には 12 月までかかりました。さらに、命令のチューニングは、ChatGPT の開発に大きく貢献しました。 InstructGPT のパラメーターは GPT-3 よりも少ないですが、その出力は GPT-3 と教師あり学習を使用して微調整されたモデルの両方よりも優れています。命令チューニングとプロンプトメソッドは、言語モデルの固有の知識を調査するという同様のコアを共有しています。ただし、プロンプトが言語モデルの完了能力を刺激するのに対し、命令チューニングは明確な指示を提供することによって言語モデルの理解能力を刺激するという点で異なります。

過去の大規模なモデルは、モデル自体と迅速なエンジニアリングに焦点を当てていましたが、ChatGPT の反復的な焦点は、下の図に示すように、右側の閉じたループにあります。

結局、ChatGPT は、効果的な回答を提供することと、誤った情報を回避することとの間でバランスをとっています。これは、メタのギャラクティカモデルがあまりにも多くの虚偽の情報を提供したために発売後わずか 3 日で取り下げられたのとは対照的です。

この理由の一部は、Meta の過度に宣伝されたマーケティングであり、期待が高すぎて、最終的にうるさい研究者からの失望につながりました。ただし、ChatGPT は微調整と迅速なエンジニアリングの徹底した仕事を行っており、自己矛盾する質問を特定するのに役立ち、誤った情報の問題を完全に排除することはできませんが、回答の正確性に対するユーザーの信頼を高めることができます。

事業戦略が重要

使用量に基づいてユーザーに料金を請求する GPT-3 とは異なり、ChatGPT は現在、無料で無制限にアクセスできます。これにより、ユーザーはプラットフォーム上であらゆる種類の奇妙なアイデアを試すことができます.ユーザーは、フィードバックを提供することも奨励されます。これは、OpenAI にとって非常に価値があります。 OpenAI は収益を上げることを急いでおらず、資金も不足していませんが、最新の評価額が数百億ドルに達し、Microsoft が主な投資家であるという噂があります。

AI の開発では、実際には科学よりも工学の重要性が高く、反復的なフィードバックループを作成することが重要です。 OpenAI は商用アプリケーションに重点を置いており、GPT-3 にはすでに多くの顧客がいます。これらの顧客と OpenAI とのやり取りとフィードバックも、進歩の重要な原動力です。

対照的に、Google の閉鎖的なアプローチは時代遅れのようです。おそらく、これは商業文化の欠如、または入出力比率の制限によるものです。 Google は、出発点が高くても、大規模なモデルの適用を常に「抑制」してきました。 Waymo の自動運転へのアプローチのように小規模で反復を続ければ、最終的には、よりオープンでデータが豊富な企業に追い越されるでしょう。

今後の改善:

RLHF は比較的新しい方法であり、OpenAI は ChatGPT から収集されたユーザーフィードバックを引き続き調査し、取り入れているため、モデルにはさらに改善の余地があります。具体的には、ここ数日でユーザーによって発見されたように、倫理/整合性の問題に対処し、システムの制限を回避することによって生成される否定的な情報を防ぐ必要があります。

さらに、OpenAI には WebGPT などのツールもあることに注意してください。WebGPT は、インターネットから情報を抽出して質問に答え、対応するソースを提供する高度な Web クローラーとして理解できます。 WebGPT は、GPT-3 自体の意味理解能力とインターネットからの公開情報を利用して回答を生成することができ、高度な検索機能として有望です。

MIT Technology Review が実施した OpenAI の科学者へのインタビューで、ChatGPT と WebGPT の機能を将来統合する可能性について議論されました。一部のインターネットユーザーは、ChatGPT 内で Web ページの閲覧機能が現在無効になっていることを示唆するヒントを見つけましたが、将来的には追加される可能性があります。 ChatGPT と WebGPT を組み合わせることで、情報がリアルタイムで更新され、事実の信憑性をより正確に評価できるようになるため、より魅力的な結果が得られる可能性があります。

WebGPT との組み合わせに関しては、アクション主導の LLM トレーニングフローチャートの左側に関連し、外部の情報ソースとツールライブラリをリンクします。 Web 検索は 1 つの可能性にすぎません。 ChatGPT は、さまざまなオフィスソフトウェアや SaaS ソフトウェアなどのさまざまなツールと組み合わせて、より多様な機能を提供することもできます。

製品レベルでは、より良いインターフェイスと実装方法について議論する価値があります。横に並べたダイアログボックス形式は、会話の流暢さを確保する必要があるため、期待を高めることができます。 Github Copilot はこれをうまく行います。 Copilot はプログラミングペアを専門とし、パートナーの形で提案を行います。ユーザーは、良い提案を受け入れ、悪い提案を拒否できます。多くの提案が拒否されたとしても、ランダムな間隔で生成される効果的な提案を受け取る喜びは、病みつきになる可能性があります。もしChatGPTが将来的に脚本や脚本、仕事のアシスタントになるとすれば、コパイロットのような製品形態が人々に受け入れられやすいものになるでしょう。

結論として、多くの人が ChatGPT の機能に驚いていますが、本当の驚きはまだこれからです。 OpenAI の強みは、大規模なモデルを理解することだけでなく、フィードバックをエンジニアリングして繰り返し受け取る能力、および AI と人間の目標を一致させる作業にもあります。 OpenAI の CEO である Sam Altman の言葉「Trust the exponential. フラットは後ろ向き、垂直は前向き」は、私たちの離陸の現在の状態を表しています。

ILLAクラウドのご紹介

ILLA Cloud は、数十のフロントエンドコンポーネントとデータベース API 統合を備えたローコード開発プラットフォームです。コンポーネントをドラッグアンドドロップし、データベースまたは API に接続することで、ILLA Cloud を使用してフロントエンドインターフェイスを構築し、フルスタック開発を迅速に完了することができます。

ILLA は、自然言語処理 (NLP) ツールおよびサービスのスイートである Hugging Face とのパートナーシップを誇らしげに発表します。彼らは、テキスト生成、言語翻訳、固有表現認識ツールを提供するオープンソースの NLP ライブラリで最もよく知られています。 Hugging Face を使用すると、ILLA は以前より生産性が向上します。私たちのユーザーは AI でより多くのことを行うことができます。

ILLA Cloud は、一般的に使用される数十のフロントエンドコンポーネントを提供し、特定のニーズに基づいてさまざまなフロントエンドインターフェースを迅速に構築できるようにします。同時に、ILLA は Hugging Face への接続を提供するため、API にすばやく接続し、リクエストを送信し、返されたデータを受信できます。 API とフロントエンドコンポーネントを接続することで、ユーザーがフロントエンドを介してコンテンツを入力し、それを API に送信できるという要件を実装できます。 API は、生成されたコンテンツをフロントエンドに表示するために返します。

ILLA Cloud の将来の計画については、ロードマップを確認してください。 https://github.com/orgs/illacloud/projects/4

私たちは、ILLA Cloud の将来にわくわくしています。この旅に参加したい場合は、いくつかの方法で参加できます。