TLDR 1: データセットはもはや厳しい要件ではありません
テキストベースの AI を作成するには大量のデータが必要だという考えは、部分的に時代遅れになっています。
非常に小さなデータセットでも価値のある結果を生み出すことができます (1 センテンス ~ 1GB)。
ほぼすべてのスタートアップが座っているか、手作業で作成できるもの。
TLDR 2: 非常に幅広いユースケースがあります
GPT 3.5 は、リモートで有料の「オンデマンド大学インターン」と考えることができます。
インターン生が 100% 正しいとは決して信じられませんが、適切な監督、指導、計画により、彼らは有用な価値を提供できます。
(実際の人間のインターンとは異なり) シームレスに成長およびスケーリングできる価値
TLDR 3: コストと制限
SaaS およびオンライン サービスの従来のユニット エコノミクス モデルは、ほとんどの LLM のランニング コストが非常に高いため、課題となります。
OpenAI はまた、この分野のインフラストラクチャを (一時的に) 効果的に独占しており、パートナーであると同時に意図しない将来の競争相手にもなり得ます。
休暇中で、ChatGPT や LLM (大規模言語モデル) が何であるかわからない場合は、ここでテクノロジに関する概要を確認できます。
それでは、長い形式で何を意味するのでしょうか?
一杯のコーヒーを手に取り、少し落ち着いてください…
注: この記事では、テキストベースのモデルのデータ要件についてのみ説明しており、多くの場合 (コンピューター ビジョンなど) の画像モデルには適用されません。
これまで AI モデルを構築するには、通常、特定のユース ケースに十分な大きさのデータセットを収集する必要がありました。トレーニング プロセスやその計算コストを最適化するために、さまざまな AI モデル トレーニング手法とツールが存在していました。
ただし、データセットのサイズと品質は、依然として AI のトレーニングにおける主要な要因の 1 つでした。
これにより、次のようなグラフが得られます。
すべての数値は大まかな概算値であり、ユース ケース、AI モデル、およびデータの品質に応じて大幅に変化します。軸の目盛りは主観的なものであるため、意図的に曖昧で不正確です。技術的な数値については、特定のユース ケースの引用文献を参照してください。
ただし、小規模なデータセットが効果的にランダムなデータを生成してから、ゆっくりと改善され、最終的に約 500GB の部分である程度有用になるという一般的な考え方は残っています。
これがデータセットの軍拡競争につながり、AI に関連するほぼすべての専門分野 (特にコンピューター ビジョン関連) で発生しました。
これは 2009 年以降、今日に至るまで複数のスタートアップで展開されており、いくつかの注目すべきスタートアップは、貴重なデータセット (および通常は才能) を理由に買収されています。
軍拡競争は常にエスカレートしていたため、新興企業が自社の AI モデル (小規模なデータセット) で既存の企業 (大規模なデータセット) と競争することはますます困難になりました。
たとえば、uilicious.com (ローコード UI テスト自動化スタートアップ) では、限られたデータセットを使用して AI モデル (TAMI v0.1 と呼ばれる) をトレーニングしました。半分の時間でゴミを吐き出していることが判明したため、モデルを脇に置き、データセットを構築しながら AI なしで会社を成長させることにつながりました。
非常に一般化され、非技術的な方法で、この方法でトレーニングされた AI は、以降「特殊化されたモデル」と呼ばれます。
真に普遍的または汎用的な AI を求めて、特に人間の音声インタラクションの分野 (人間はすべての変数の中で最もランダムであるため) を求めて、非常に大規模なデータセット用に新しいタイプのテキストベースの AI をトレーニングする取り組みが行われました。公開データ (Wikipedia、Quora、StackOverflow、およびインターネット テキストの半分を考えてください)。
これらの新しいモデルは、データセットのサイズとモデルのサイズ (脳のサイズを考えてください) の境界を押し広げたため、それらを構築するために使用される方法は、特殊なモデル (精度と効率をより重視する傾向がある) から分岐しました。
この方法でトレーニングされたテキスト AI モデルは、現在、まとめて「Large Language Models (LLM)」と呼ばれています。
このアプローチの欠点は大きく、多くのユースケースで早期に適用できませんでした:
LLM は当初、Google (すでにデータを所有しており、AI アシスタントのためにそうする動機を持っていた) と OpenAI によって支配されていました。その後、Microsoft、Amazon、Apple、Salesforce、Meta、その他数社がレースに参加しました。ただし、そのようなモデルをトレーニングするには膨大なサイズとコストがかかるため、通常、資金力のある主要なテクノロジー企業向けに予約されています。
LLM の最初の数世代は、すべてのタスクでほぼすべての特殊化されたモデルに負けたため、残念な結果をもたらした可能性がありますが、年月が経つにつれて状況が変化し、データセットのサイズとモデルのサイズの両方が拡大しました。
それらの利点がより明確になりました。
これにより、曲線が大幅に変更されました。
それはまた、2019 年に AI に支えられたビジネス モデルの新しい波を引き起こしました。スタートアップは、チャットボットからプレゼンテーション スライド ジェネレーター、コード コパイロット、コピーライティング、さらには D&D ゲームマスターまで、手の届く範囲にあるデータセットを使用して、既存の LLM の上で新しい AI モデルをトレーニングできるようになりました。
これらの AI モデルは、もはや大規模なテクノロジー企業だけの独占的な領域ではありませんでした。 OpenAI と Google は、自社のインフラストラクチャで AI をトレーニングして実行するための少額の料金で、LLM から利益を得る手段として、他の人が構築できるようにモデルを公開し始めました。
これはスタートアップにとっても有益でした。なぜなら、これらの大規模なモデルを社内で構築するために必要な数百万ドルの R&D 投資が不要になり、概念実証によってより早く市場に参入できるようになったからです。
データは、ある意味で依然として王様でした。曲線をよりアクセスしやすくするために移動した可能性がありますが、チームは大規模なデータセットを構築してモデルを調整する必要がありました.
その結果、2019 年のスタートアップの多くは、プロトタイプの構築が大幅に容易になったと感じましたが、多くのスタートアップは、収益が減少する中でデータセットをスケールアップする必要があったため、「有用な」しきい値を超えることが困難であると感じました。
これは、 uilicious.com TAMI v0.2 AI モデルの初期の内部試験と一致しています。GPT はガベージよりも大幅に改善されていましたが、それでも興味深いものと「まあまあ」の間でした。
しかし、それが2022年に物事が本当に変わり始めるときです....
先月 (2022 年 12 月)、GPT3.5 (または、インターネットで知られている chatGPT) のリリースは、AI モデルのトレーニングと微調整の方法に大きな影響を与えました。
非常に小さなデータセットで使用可能な AI を作成する可能性を解き放ちました。これは、ほとんどのスタートアップがアクセスできるか、手動で作成できるものです。これは、AI トレーニングに対する私たちの考え方の根本的な変化です。
uilicious.comでは、100 GB までの大きなデータセットのうち、1 GB 未満の小さなサンプル データセットが、新しいトレーニング手法で変換および最適化されたときに、「有用なしきい値」を超えていることを発見したとき、私たちは唖然としました。 AI はユーザーによって利用され、以前のすべてを凌駕する可能性があります。
大規模なデータセットを使用したその後の実験では、利益の減少が示されました。重要なポイントは、「有用な製品を作る」ために必要なデータがいかに少ないかということでした。この記事を書くよりも、独自のユースケースに合わせて微調整された概念実証 AI を構築するのにかかった時間は短くなりました。
GPT3.5 を基本的なビルディング ブロックとして使用することで、専門のチームや個人を必要とせずに、さまざまなユース ケースに役立つ AI アプリケーションを構築できるようになりました。
ユース ケースに応じて、データセットは 1 つの文または段落から 100MB または 1GB まで小さくすることができます。これは、多くのスタートアップで達成可能なサイズです。
または、chatGPT を自分のスタートアップにとって有用で価値のある方法で動作させることができれば、それを専用の AI サービスとして構築できます。
必要なデータセットを大幅に削減したことで、以前は私たちの規模では「役に立たない」または「不可能」だった、完全なデータセットのほんの一部で「有用な」AI モデルを構築できるようになりました。
多くの点で、データはもはや王様ではなく、有用なアプリケーションを見つけて構築することが、この新しい AI の真の王者です。アイデアを(数年ではなく)数週間で構築してテストできる場所。
スクリーンショットは、インテグレーションの例として、プロンプトから完全な UI テスト スクリプトを生成する動作中の AI のデモです。 (多くの可能性の 1 つ)
適切なチームと適切なデータがあれば、1 週間で実行できるようになりました。
AI および UI テストの将来に関心がある場合は、ぜひご連絡ください。
GPT-3.5 およびその他すべての大規模な言語モデルには、精度と信頼性に限界があります。これは、答えを夢想する性質によるものです。
理論上は(まだ証明されていませんが)、十分に大きな特殊なデータセットがあれば、その精度は特殊なユースケースで大幅に向上する可能性があります。ただし、このような大規模なデータセットがある場合は、「特殊なモデル」を既に構築できる可能性があります。
最終的には、精度と信頼性に対するこの制限は、デリケートな業界 (医療など) では重大な問題にすぎません。ほとんどの場合、それはユースケースを見つける際の邪魔に過ぎません。 AI が「十分な」しきい値を超えると (実際に実行されます)。
この問題に対するより健全で現実的なアプローチは、GPT-3.5 をリモートで有料の「オンデマンドのスマート カレッジ インターン」として想像することです。
現実的には、AI には、リモートでオンラインであることに加えて、このようなユース ケースですべて同じ制限があるためです。
AI モデルが実際のインターンに勝る唯一の真の利点は次のとおりです。
AI が人間に対して持っている欠点は、コーヒーを直接手に入れることができないことです。
これらの用語でフレーム化すると、AI を既存のビジネス プロセスや製品に統合する方法を理解するのが非常に簡単になります。
もう少し技術的なレベルで:
これは、AI におけるこの新しいアプローチの最大の弱点であり、より大きくより優れたモデルに基づいています。残念ながら、フリーランチはありません。
データセットのサイズに関しては、特定のタスクをトレーニングする方が安価で簡単ですが、従来の AI モデルと比較して実行コストが大幅に高くなります。
安くはありません。プロンプトと回答ごとのコストは、プロセスでトレーニングまたは使用するために必要なデータの量に応じて、1 セントから 50 セントの範囲です。これは、1 ドルあたり 100 万件のリクエストを処理できる一般的な API サーバーよりも大幅に高くなります。
簡単に言えば、典型的な中規模の Shopify ウェブサイトで 100 万件のユーザー リクエストを処理するよりも、特定の秒内に 1 人のユーザーの 1 つの AI クエリを処理する方が、サーバー ハードウェアのコストが高くなります。
これは、OpenAI や Azure が単に利益を得ようとしているからではありません。そのような大規模なモデルを実行するために必要な純粋なサーバー ハードウェア インフラストラクチャにかかっています。
結果として、このような大規模言語モデル AI を組み込むことは非常に強力ですが、この制限だけが原因で、すべてのユース ケースに適用できるとは限りません。
最終的な結果として、多くのユース ケースでこのような AI を使用することでメリットが得られますが、すべてのユース ケースで AI を利用できるわけではありません。これは、どの実装においても重要な考慮事項です。
サポート サービス デスクの場合、標準的なサポート スタッフは 1 時間あたり 10 人の顧客を処理でき、各顧客は平均 15 回のプロンプトをやり取りします。プロンプトごとに 5 セントの場合、AI を使用して 1 人のサポート スタッフを模倣した場合、これは 1 時間あたり最大 7.50 ドルになります。
これは、典型的な米国のコール センター スタッフの時給の中央値 15 ドルよりも安いだけでなく、はるかに柔軟です (人件費がかからず、即座にスケールアップおよびスケールダウンできます)。
同様に、このサポート AI が L1 サポートとしてのみ機能し、人間がより複雑なケースを処理できるようにする、同じ「インターン」アプローチを取ることも可能です。このシナリオでは、実行され、プロンプトごと (または時間ごと) に適切にスケーリングされると意味があります。
平均的なオフィス ワーカーは、1 日あたり約 40 通、または 1 か月あたり約 880 通のメールに返信します。電子メール 1 通あたり 5 セントでも、電子メールの返信を処理するだけで、ユーザー 1 人あたり平均月額 44 ドルになります。
さらに悪いことに、そのようなサービスを使用すると、オフィス ワーカーは平均してより多くの電子メールに返信できると期待するのが妥当です。純粋な AI のコストだけで、平均が 2 倍の 2,000 通の電子メール、または 1 か月あたり 100 ドルになることは不合理ではありません。
この場合、SaaS スタートアップが単純な、たとえば月額 10 ドルの価格設定を行った場合、時間の経過とともに大きな損失を被る可能性があります。
この価格設定コストとビジネス モデルは、SaaS で一般的な典型的なユーザーごとの価格設定モデルに反します。これが、そのような統合が、そのような AI の使用を制限する手段および請求の手段として「クレジット」システムを持つことが一般的である理由です。
時間が経つにつれて、より良い微調整、競争、およびコストの最適化により、プロンプトあたりの価格が下がることが予想されます.もう 1 つの注目すべき方法は、ローンチ時に元のより高価な AI を最初に使用してより多くのデータを収集し、それを使用してより専門的で安価なモデルをトレーニングすることです。ただし、これらの方法はすべて、ユースケースごとに固有である可能性があり、一般にかなりの時間と労力を必要とする深い技術的詳細に入ります。
その場合でも、大幅な 10 倍の節約になる可能性がありますが、基本的に従来の SaaS API サービスよりも高価です。
既存のオープンソースの大規模言語モデルは存在しますが、非常に率直に言えば、それらは GPT2 に匹敵するか、GPT3.5 と GPT3.5 の間のどこかにあります。
いくつかの単純なケースでは、合理的なデータセットの構築を開始すると、これらのより小さな (そして安価な) モデルは、コスト削減の手段として移行するのに役立つ場合があります。
ただし、他の複雑なケースでは、AI の複雑さのためにそのような動きが不可能な場合があり、OpenAI に低価格のインセンティブのない効果的な独占を与えます。
ただし、今後 1 ~ 2 年の間に、オープンソース コミュニティが追いつき、そうすることで、より優れた代替インフラストラクチャ プロバイダーによって価格が改善される可能性があると考えられています。
ただし、これは不確実な将来であるため、強調する価値があります。
意図的ではありませんが、このスペース内のスタートアップが、プロンプトからテキストへのボットを超えて防御可能な機能セットを構築することが重要です。
たとえば、名前ジェネレーターやシンプルなインターフェースを備えたアイデア ジェネレーターなど、特定のプロンプトからテキストへのユース ケースを中心に GPT3 ベースのボットまたは SaaS を構築した小規模なスタートアップがいくつかありました。
文字通り一晩で、chatGPT の開始により、これらの小さな単一ユースケースのテキストからテキストへの SaaS は不要になりました。日常の人々は、chatGPT を介して同じ機能を無料で利用できるようになりました.
OpenAI は、その上に構築されたパートナーと競争するつもりはなかったかもしれませんが、モデルと chatGPT を改善し続けているため、そうすることは避けられない性質かもしれません。
そのため、これが繰り返されないようにするために、このテクノロジーに関連するすべてのビジネス モデルにとって、プロンプトからテキストへのプロンプトだけでなく、おそらくより優れたユーザー エクスペリエンスや既存のツールとの統合など、どのような付加価値を提供できるかを理解することが重要です。
インターンモデルを思い出してください、これを明日癌を治すために使用することを期待しないでください.したがって、AI を地球上のすべての製品やスタートアップに詰め込むことは、エンド ユーザーに何の利益ももたらさない場合に行わないでください。
〜また次回まで🖖長生きと繁栄
Eugene Cheah: uilicious.com の CTO
この記事はもともと著者のサブスタックに投稿されたものです
また、swyx は、この急速に混沌として成長している分野で、さまざまな情報を統合しようとする優れた仕事をしています。これは非常に読む価値があります (推奨!!!)。
現在、BLOOM は GPT3 (3.5 ではない) の主要なオープンソース候補です: https://towardsdatascience.com/run-bloom-the-largest-open-access-ai-model-on-your-desktop-computer-f48e1e2a9a32
AI / ML 業界では、LLM が新しい概念をすばやく学習して適用する能力は、「ゼロショット」、「ワンショット」、「少数ショット」学習と呼ばれるテストによって定量化および測定されます。
一般に、これらのテストで AI がうまく機能すればするほど、ユース ケースに合わせて AI をトレーニングするために必要なデータが少なくなります。
私の意見では、これは後から考えると理にかなっています。人間をモデルにしたニューラル ネットワークが人間のように振る舞うと誰が考えたでしょうか。そして、T-Shape 教育モデルを活用してください。一般化された知識の広い範囲は、専門知識の 1 つに専門知識を学習する能力を向上させるのに役立ちます。 (この声明はデータに裏付けられていません)