paint-brush
独自の AI モデルは死んだのか、それとも死んだのか?@datastax
350 測定値
350 測定値

独自の AI モデルは死んだのか、それとも死んだのか?

DataStax4m2023/07/11
Read on Terminal Reader

長すぎる; 読むには

オープンソースの生成 AI モデルが主流になるという考えにもかかわらず、独自の基礎モデルが依然として必要とされる理由があります。
featured image - 独自の AI モデルは死んだのか、それとも死んだのか?
DataStax HackerNoon profile picture
0-item


数か月前に、次のような宣言がありました。 オープンソースの生成人工知能モデルフィールドを支配するでしょう。専門家は次のように述べています。 Googleメモが流出それは、検索大手がオープンソース モデルのせいで生成 AI 分野での競争上の優位性を失ったと述べています。


議論は次のようになります。


  1. オープンソースの機械学習アルゴリズムは、独自のアルゴリズムの能力を超えています。
  2. オープンソースアルゴリズムを使用してトレーニングする場合モデルオープンソース データセットでは、「基礎」モデルのパフォーマンスはベンチマークに関して非常に優れています。
  3. 「ファインチューニング」(データをオープンソース データと組み合わせるプロセス)などの手法を使用してモデルを構築すると、Big Tech 独自のデータ セットを使用する必要がなくなります。
  4. したがって、独自モデルは廃止されました。


それからGoogle I/O 2023起こりました。グーグル吟遊詩人独自のデータセットに基づいて構築された生成 AI 検索エンジンが、 絶賛。最もよく引用される機能は、リアルタイム データをモデルに組み込む機能です。


上記の議論を分析して、独自モデルが将来的になぜ貴重な役割を果たすのかを見てみましょう。


  1. オープンソースの機械学習アルゴリズムは独自のアルゴリズムの能力を超えましたか?はい。 Google の内部メモでは、オープンソース コミュニティによるアルゴリズムのパフォーマンスと革新が、Google 独自の開発ペースをどのように覆い隠しているかについて説明しています。
  2. オープンソース アルゴリズムを使用してオープンソース データ セットでモデルをトレーニングする場合、「基礎」モデルのパフォーマンスはベンチマークに関して良好ですか?ベンチマークには注意してください。モデルの目的が英語を理解することだけであれば、オープンソースのデータ コーパスを使用しても問題ありません。しかし、ユーザーが Bard のリアルタイム データ検索から恩恵を受けるのと同じように、モデルが「リアルタイム」データから恩恵を受けることができるとしたらどうなるでしょうか?その場合、基準となるのは英語を理解し、最近の世界の出来事を理解する能力である必要があります。
  3. モデルを構築するための「微調整」などの手法により、ビッグテック独自のデータセットを使用する必要がなくなるのでしょうか?繰り返しになりますが、ユーザーは何を気にしていますか?独自のデータセットは、必要なリアルタイム コンテキストをすべて提供できるでしょうか?
  4. では、独自の基本モデルは本当に廃止されたのでしょうか?そんなに早くない …

生成 AI の成功のコスト

モデルを構築するためにリアルタイム データにアクセスするには費用がかかることがわかりました。 Google は、生成モデルを構築するためにリアルタイムで Web にインデックスを付けるためのインフラストラクチャの構築に数十億ドルを費やしていますが、それがプロプライエタリになることは間違いありません。


2 つの異なる基本モデルに基づいて構築された 2 つの航空会社の旅行用チャットボットの例を見てみましょう。 1 つのチャットボットはオープンソースであり、もう 1 つはリアルタイム データを備えた独自のチャットボットです。トラベル チャットボットは、どのフライトに乗るかを推奨するために独自のフライト情報データ セットを使用して「微調整」されています。多くの場合、両方のチャットボットが同じ回答を提供します。しかし、大規模な嵐が空港を襲った場合、独自のリアルタイムデータで構築されたチャットボットが、嵐の影響を受けるフライトを回避するフライト情報を提供します。これはユーザーにとって非常に貴重であるため、開発者にとっても価値があります。

基礎的な AI モデルの将来

ということは、あらゆる生成 AI ユースケースには独自のリアルタイム データから構築された基礎モデルが必要ということになるのでしょうか?いいえ、しかし独自の基礎モデルが必要になる理由は他にもあります。

  1. 独自のファーストパーティ データ セット 次の例を考えてみましょう。Google Bard は YouTube 全体を活用して基礎モデルを作成します。生成 AI のユースケースで YouTube にアップロードされている膨大な量の情報と知識から恩恵を受けることができる場合は、Google の基礎モデルを使用するとよいでしょう。
  2. パーソナライゼーション データ セット 基本モデルがパーソナライズされたデータでトレーニングされると、モデル (別名ニューラル ネットワーク) には個人情報の側面が含まれます。これらのモデルを使って推論することは個人情報を漏らさない形で行うことができますが、モデル全体をエクスポートすると、モデルのパラメータを見ることで特定のユーザーの個人情報を抽出することが可能になります。フェデレーション ラーニングの進歩にもかかわらず、プライバシーを危険にさらさずにモデルをエクスポートできる確実な方法はありません。


では、将来の基本モデルはどのようなものになるのでしょうか?おそらく次のようなものでしょう:

  1. アルゴリズムはオープンソースになる
  2. リアルタイム データ セットとパーソナライゼーションの維持にコストがかかるため、データ セットが独自のものになる場合もあれば、オープンソースになる場合もあります。


これが一般的なアーキテクチャであると仮定すると、二次的な影響は何でしょうか?


  1. 生成型 AI の構築を検討している企業は、独自のリアルタイム データ インフラストラクチャを維持するための小切手帳を持つ大企業の基礎モデルと、他のユースケース用のオープンソースの基礎モデルに依存する必要がある可能性があります。
  2. 企業が依存する独自のデータセットもますますリアルタイムになるでしょう。データは Apache Cassandra などの NoSQL リアルタイム データベースに存在し、Apache Pulsar などのテクノロジーを使用して機能ストアにストリーミングされることが期待されます。
  3. 実際の目的では、モデル推論は、AWS、Microsoft、Google などの基本的なモデルプロバイダーが所有するデータセンターで行われる可能性があります。これは、AI の時代にハイパースケーラーの重要性が高まる可能性があることを意味します。基本的なオープンソース モデルに基づくモデル推論は、顧客のデータ センターで実行できます。


DataStax (私の雇用主) への副次的な影響も重大です。データ管理プロバイダーとして、AWS、Microsoft、Google の主要なクラウド上に存在するDataStax Astra DBを介してクラウドでサービスを提供するための当社の投資は、企業内で生成 AI が普及するにつれて増加する可能性があります。


私たちは、次のような企業のオープンソースの基本モデルの使用を奨励しサポートしていますが、ハグ顔、私たちはまた、大手 3 つのクラウド プロバイダーと強力な AI パートナーシップを形成しています。最も重要なことは、企業がリアルタイム AI 用に独自の実際のデータ セットを作成できるようにするために、 ベクトル検索などの Cassandra のアップストリーム機能にコミュニティ コントリビューション プロセスを使用していることです。


データスタックス、アラン・ホー著


ここでも公開されています。