paint-brush
OpenAI モデルの対決: GPT-4 対 GPT-3@hacker7014442
5,841 測定値
5,841 測定値

OpenAI モデルの対決: GPT-4 対 GPT-3

Claudia Słowik10m2023/03/20
Read on Terminal Reader

長すぎる; 読むには

この記事では、GPT-4 とその前身である GPT-3 および GPT-3.5 を、モデルの機能、トークン制限、入力タイプ、操縦性、微調整、および価格の 6 つの主要な領域で比較しています。
featured image - OpenAI モデルの対決: GPT-4 対 GPT-3
Claudia Słowik HackerNoon profile picture
0-item


GPT モデルの新しいバージョンである GPT-4 のリリースにより、すでに有名な OpenAI 言語モデルにさらに注目が集まっています。不思議ではありません!


GPT-4 は、その幅広い一般知識と問題解決能力のおかげで、複雑な問題をより正確に解決できる OpenAI の最も高度なシステムとして導入されました。


この記事では、 GPT-3と GPT-4 および GPT-3.5 を比較します。GPT-3.5 は 2 つのモデル グループの中間に位置します。


準備?

OpenAI GPT-3 とは?

GPT-3 は、OpenAI によって開発された言語モデルです。 2020年6月にリリースされ、その優れた言語生成能力で瞬く間に注目を集めました。


GPT-3 には、さまざまな数のパラメーターと必要な計算リソースを持つ複数の基本モデルがあります。最もよく知られているのは、エイダ、バベッジ、キュリー、ダヴィンチです。


出典:OpenAI



2022 年 3 月 15 日、OpenAI は「text-davinci-003」と呼ばれる GPT-3 の新しいバージョンをリリースしました。このモデルは、以前のバージョンの GPT よりも機能が優れていると説明されていました。さらに、2021 年 6 月までのデータでトレーニングされており、モデルの以前のバージョン (2019 年 10 月までのデータでトレーニング) よりもはるかに最新の状態になっています。 8 か月後の 2022 年 11 月、OpenAI はこのモデルを「GPT-3.5」シリーズに属するものとして参照し始めました。しかし、タイムラインをスキップしましょう。


GPT-3.5 とは何ですか?

現在、GPT-3.5 シリーズに属する 5 つの異なるモデル バリエーションがあります。そのうちの 4 つはテキスト補完タスク用に最適化されており、1 つはコード補完タスク用に最適化されています。


出典:OpenAI


GPT-3.5 モデルの最新バージョンであるgpt-3.5-turbo 2023 年 3 月 1 日にリリースされ、すぐに GPT-3.5 への関心が高まりました。 GPT-4のリリース前に聴衆を温めるために。

OpenAI GPT-4 とは?

GPT-4 は、OpenAI 言語モデルの最新かつ最も高度なバージョンです。 2023 年 3 月 14 日に導入され、ディープラーニング開発における新たなマイルストーンと言われています。


GPT-4 は、GPT-3 や GPT-3.5 よりも事実に基づいて正確なステートメントを生成できると言われ、信頼性と信頼性が向上しています。また、マルチモーダルです。つまり、画像を入力として受け入れ、キャプション、分類、および分析を生成できます。


大事なことを言い忘れましたが、それはいくらかの創造性を獲得しました。公式の製品アップデートで読むことができるように、「曲の作成、脚本の作成、ユーザーの執筆スタイルの学習など、創造的および技術的な執筆タスクを生成、編集、およびユーザーと反復処理できます。」


OpenAI GPT-4 の創造性の例: 各単語が A から Z までのアルファベットの次の文字で始まる文でシンデレラのプロットを説明する GPT-4。出典: OpenAI



2023 年 3 月現在、GPT-4 には 2 つのモデル バリエーションがあります。


  • gpt-4-8K

  • gpt-4-32K


コンテキスト ウィンドウのサイズが異なります。 GPT-4 はすでに商業的に使用されていますが、ほとんどのユーザーは、GPT-4 API にアクセスして独自の GPT-4 を利用したアプリケーションとサービスを構築するまで、しばらく待つ必要があります。


待つ価値はありますか?どれどれ!


GPT-4 対 GPT-3 および GPT-3.5 – 主な違い

GPT-4 と GPT-3 を比較するように求められたとき、OpenAI の共同創設者の 1 人で社長の Greg Brockman は、「違う」という 1 つの言葉で答えました。彼がTechcrunchに語ったように:


[モデル]が犯す問題や間違いはまだたくさんあります…しかし、微積分や法律などのスキルが飛躍的に向上し、特定の分野で非常に苦手だったのが、実際には人間と比較して非常に優れていることがわかります.


これについてもう少し詳しく説明してみましょう。特に、OpenAI によって公開された GPT-4 の調査では、新しいモデルに関する驚くほど多くの詳細が明らかにされています。

GPT-4 対 GPT-3 モデルの機能

GPT-3 と GPT-4 の最大の違いの 1 つは、その機能です。 GPT-4 は、GPT-3.5 よりも信頼性が高く、創造的で、協調的であり、より微妙な指示を処理できると言われています。


2 つのモデルの違いを理解するために、OpenAI の開発者は、もともと人間向けに設計された試験をシミュレートするなど、さまざまなベンチマークでそれらをテストしました。


私たちは、公開されている最新のテスト (オリンピアードと AP の自由回答問題の場合) を使用するか、2022 年から 2023 年版の模擬試験を購入して進めました。これらの試験のための特別なトレーニングは行いませんでした。試験の問題のごく一部は、トレーニング中にモデルによって確認されましたが、結果は代表的なものであると考えています。

(出典: OpenAI )



結果は素晴らしいです!


GPT-3 は AP Calculus BC 試験で 5 点中 1 点しか採点しませんでしたが、GPT-4 は 4 点を獲得しました。模擬司法試験では、GPT-4 は受験者の上位 10% 前後のスコアで合格しましたが、GPT-3.5 – GPT-3 シリーズの最新バージョンは、下位 10% でした。


出典:OpenAI



さらに、GPT-4 は… 真のポリグロットです。 GPTの英語能力は、GPT-3およびGPT-3.5バージョンですでに高かったが(ショット精度は70.1%)、最新バージョンでの精度は85%以上に向上した.実際には、祖先が話していた英語よりも 25 の言語を上手に話せます。これには、北京語、ポーランド語、スワヒリ語が含まれます。既存の ML ベンチマークのほとんどが英語で記述されていることを考えると、これは非常に印象的です。


出典:OpenAI



それでも十分でない場合、GPT-4 は 1 回のリクエストではるかに長いテキストを処理できます。これはすべて、より長いコンテキスト長のおかげです。

GPT-3 と GPT-4 のトークン制限

コンテキストの長さは、1 つの API リクエストで使用できるトークンの数を記述するために使用されるパラメーターです。 2020 年にリリースされた元の GPT-3 モデルでは、最大リクエスト値が 2,049 トークンに設定されていました。 GPT-3.5 では、この制限が 4,096 トークン (1 行の英語テキストの最大 3 ページ分) に増えました。 GPT-4 には 2 つのバリエーションがあります。それらの 1 つ (GPT-4-8K) は 8,192 トークンのコンテキスト長を持ち、2 つ目 (GPT-4-32K) は 32,768 トークン (約 50 ページのテキスト) を処理できます。


そうは言っても、GPT-4 のすべての新しいユース ケースについて考えることができます。 50 ページのテキストを処理する能力を備えた新しい OpenAI モデルを使用して、より長いテキストを作成したり、より大きなドキュメントやレポートを分析および要約したり、コンテキストを失うことなく会話を処理したりできます。 Techcrunchのインタビューで Greg Brockman が提示したように:


以前は、モデルはあなたが誰で、何に興味を持っているかなどについて何の知識も持っていませんでした。 [より大きなコンテキスト ウィンドウで] そのような歴史を持つことで、間違いなくより有能になるでしょう…人々ができることをターボチャージするでしょう。


しかし、これで終わりではありません。テキスト入力の処理とは別に、GPT-4 は他の入力タイプも解釈できるからです。

GPT-4 および GPT-3 の入力タイプ

GPT-3 および GPT-3.5 モデルは 1 つの入力タイプ (正確にはテキストまたはコード) に制限されていましたが、GPT-4 は追加の入力タイプである画像を受け入れます。具体的には、テキストと画像で構成される入力からテキスト出力を生成します。


GPT-4 モデルに実行を依頼する内容に応じて、キャプションの生成、可視要素の分類、または画像の分析を行うことができます。 GPT-4 の研究文書に示されている例の中には、モデルがグラフを分析したり、ミームを説明したり、テキストと画像で構成される論文を要約したりするモデルを見ることができます。 GPT-4 の画像理解能力が素晴らしいことは認めざるを得ません。


ちょっと見てください!


出典:OpenAI



より高いトークン制限と組み合わせて画像を処理する機能は、GPT-4 を使用するための新しい可能性を開きます – 学術研究からパーソナル トレーニングまたはショッピング アシスタントまで。ただし、GPT-4 のこの新しいスキルを使用できるようになるまでには時間がかかる場合があるため、あまり興奮しないでください。


OpenAI サイトで読むことができるように、画像入力はまだ研究プレビューであり、公開されていません。

GPT-4 対 GPT-3 会話のコンテキストの定義

GPT-3 と GPT-4 のもう 1 つの大きな違いは、モデルのトーン、スタイル、および動作を決定する方法です。


GPT の最新バージョンでは、いわゆる「システム」メッセージを ( OpenAI の使用ポリシーで詳細に説明されている範囲内で) 含めることにより、モデルに API レベルでの指示を提供することができます。これらの指示は、メッセージのトーンを設定し、モデルがどのように振る舞うべきかを説明します (たとえば、「生徒に答えを与えることはありませんが、常に適切な質問をして、生徒が自分で考えることを学ぶのを助けるようにしてください」)。


さらに、次の例のように、GPT-4 の相互作用の境界を確立し、GPT-4 がユーザーの要求に応じて動作を変更するのを防ぐ「ガードレール」として機能できます。


出典:OpenAI



ご覧のとおり、GPT-4 は、ユーザーの要求にもかかわらず、システム メッセージで定義されたその役割の範囲内にとどまります。


最近リリースされた GPT-3.5-Turboでは、ある程度、すでに同様のモデルの能力を体験できました。システム プロンプトでモデルの役割を定義することで、異なる応答を得ることができます。 GPT モデルが誰のふりをしているかによって、メッセージがどのように異なるかを確認してください。


コンテキスト ロールを定義する GPT-3.5-Turbo システム メッセージ



GPT-3.5-Turbo がリリースされた 2023 年 3 月まで、モデルにシステム メッセージを提供することはできませんでした。コンテキスト情報はプロンプト内で提供する必要があり、会話中に簡単に変更できます。


新しい GPT-4 の機能により、動作の一貫性が向上し、外部仕様 (ブランド コミュニケーション ガイドラインなど) に合わせて調整できるようになります。


GPT-4 と GPT-3 の使用コスト

もちろん、それにはすべて代償が伴います。 GPT-3 モデルのコストは 1,000 トークンごとに $0.0004 から $0.02 で、最新の GPT-3.5-Turbo は最も強力な GPT davinci モデルよりも 10 倍安くなりました (1,000 トークンあたり $0.002)。イリュージョン: 最先端のモデルを使用したい場合は、追加料金を支払う必要があります。


8K のコンテキスト ウィンドウを備えた GPT-4 は、1K のプロンプト トークンごとに 0.03 ドル、1K の完了トークンごとに 0.06 ドルの費用がかかります。一方、32K のコンテキスト ウィンドウを備えた GPT-4 は、1K のプロンプト トークンあたり 0.06 ドル、1K の完了トークンあたり 0.12 ドルの費用がかかります。


1500 個のプロンプト トークンと 500 個の完了トークンの平均長で 100,000 のリクエストを処理すると、 text-davinci-003で 4,000 ドル、 gpt-3.5-turboで 400 ドル、GPT-4 で 400 ドルかかる場合、8K コンテキスト ウィンドウで 7,500 ドル、8K コンテキスト ウィンドウで 15,000 ドルかかります。 32K コンテキスト ウィンドウ。


コストがかかるだけでなく、計算がより複雑になります。これは、プロンプト (入力) トークンのコストが完了 (出力) トークンのコストと異なるためです。GPT-3 の価格設定実験を覚えている場合は、入力と出力の長さの相関関係が非常に低いため、トークンの使用量を見積もることが難しいことは既にご存じでしょう。出力 (完了) トークンのコストが高いため、GPT-4 モデルを使用するコストはさらに予測しにくくなります。

OpenAI モデルの微調整

GPT-4 および GPT-3.5-Turbo のシステム メッセージでコンテキストを定義した方法を覚えていますか?微調整は基本的に、モデルのトーン、スタイル、および動作を定義し、GPT モデルを特定のアプリケーションに合わせてカスタマイズするための回避策です。


モデルを微調整するには、プロンプトが収まりきらないほど多くの例でモデルをトレーニングします。モデルが微調整されたら、プロンプトで例を提供する必要はありません。これにより、コストが節約され (1K トークンごとにカウントされます!)、低レイテンシーのリクエストが可能になります。いいですね。残念ながら、現在微調整できる OpenAI モデルはオリジナルの GPT-3 ベース モデル (ダヴィンチ、キュリー、ADA、キャベツ) だけです


エラーと制限

GPT-4 に関するさまざまな噂 (たとえば、使用するパラメーターの数に関する噂) が出たとき、OpenAI の CEO は次のようにコメントしました。


GPT-4 の噂はばかげています。私はそれがどこから来たのか分かりません。人々はがっかりすることを懇願していますが、そうなるでしょう。 (…) 私たちは実際の AGI を持っていません。


GPT-4 を期待外れと呼ぶのは難しいですが、その創造性と驚くべき機能を考えると、その限界を認識することが重要です。また、製品調査ドキュメントを読むと、以前のバージョンのモデルと比べてそれほど変化していません。


その前任者と同様に、GPT-4 は 2021 年 9 月以降に発生したイベントの知識を欠いています。さらに、ChatGPT がどれほどスマートであるように見えても、GPT-4 で強化されたとしても、まだ完全に信頼できるわけではありません.以前のモデルと比較して幻覚を大幅に減らすと主張されていますが (内部評価で GPT-3.5 よりも 40% 高いスコア)、それでも事実を「幻覚」にし、推論エラーを起こします.それでも有害なアドバイス (回答を拒否する可能性の方がはるかに高いですが)、バグのあるコード、または不正確な情報を生成する可能性があります。そのため、エラー コストが高い領域では使用しないでください。

GPT-3 と GPT-4 – 重要ポイント

OpenAI の最も高度なシステムである GPT-4 は、ほぼすべての比較領域でモデルの古いバージョンを上回っています。 GPT-3 よりも創造的で一貫性があります。より長いテキストや画像さえも処理できます。より正確で、「事実」をでっち上げる可能性が低くなります。その機能のおかげで、ジェネレーティブ AIの新しい可能性のある多くのユース ケースが作成されます。


GPT-4 が GPT-3 と GPT-3.5 を置き換えるということですか?おそらくそうではありません。 GPT は以前のバージョンの OpenAI モデルよりも強力ですが、使用コストもかなり高くなります。複数ページのドキュメントを処理したり、長い会話を「覚える」ためのモデルを必要としない多くのユースケースでは、GPT-3 と GPT-3.5 の機能で十分です。



こちらにも掲載。