数か月前に、次のような宣言がありました。 フィールドを支配するでしょう。専門家は次のように述べています。 それは、検索大手がオープンソース モデルのせいで生成 AI 分野での競争上の優位性を失ったと述べています。   オープンソースの生成人工知能モデル   Googleメモが流出 議論は次のようになります。 オープンソースの機械学習アルゴリズムは、独自のアルゴリズムの能力を超えています。 オープンソースアルゴリズムを使用してトレーニングする場合 オープンソース データセットでは、「基礎」モデルのパフォーマンスはベンチマークに関して非常に優れています。 モデル  「ファインチューニング」（データをオープンソース データと組み合わせるプロセス）などの手法を使用してモデルを構築すると、Big Tech 独自のデータ セットを使用する必要がなくなります。 したがって、独自モデルは廃止されました。 それから 起こりました。 独自のデータセットに基づいて構築された生成 AI 検索エンジンが、 。最もよく引用される機能は、リアルタイム データをモデルに組み込む機能です。 Google I/O 2023 グーグル吟遊詩人   絶賛 上記の議論を分析して、独自モデルが将来的になぜ貴重な役割を果たすのかを見てみましょう。 はい。 Google の内部メモでは、オープンソース コミュニティによるアルゴリズムのパフォーマンスと革新が、Google 独自の開発ペースをどのように覆い隠しているかについて説明しています。 オープンソースの機械学習アルゴリズムは独自のアルゴリズムの能力を超えましたか? ベンチマークには注意してください。モデルの目的が英語を理解することだけであれば、オープンソースのデータ コーパスを使用しても問題ありません。しかし、ユーザーが Bard のリアルタイム データ検索から恩恵を受けるのと同じように、モデルが「リアルタイム」データから恩恵を受けることができるとしたらどうなるでしょうか?その場合、基準となるのは英語を理解 最近の世界の出来事を理解する能力である必要があります。 オープンソース アルゴリズムを使用してオープンソース データ セットでモデルをトレーニングする場合、「基礎」モデルのパフォーマンスはベンチマークに関して良好ですか? し、 繰り返しになりますが、ユーザーは何を気にしていますか?独自のデータセットは、必要なリアルタイム コンテキストをすべて提供できるでしょうか? モデルを構築するための「微調整」などの手法により、ビッグテック独自のデータセットを使用する必要がなくなるのでしょうか? そんなに早くない … では、独自の基本モデルは本当に廃止されたのでしょうか? 生成 AI の成功のコスト モデルを構築するためにリアルタイム データにアクセスするには費用がかかることがわかりました。 Google は、生成モデルを構築するためにリアルタイムで Web にインデックスを付けるためのインフラストラクチャの構築に数十億ドルを費やしていますが、それがプロプライエタリになることは間違いありません。  2 つの異なる基本モデルに基づいて構築された 2 つの航空会社の旅行用チャットボットの例を見てみましょう。 1 つのチャットボットはオープンソースであり、もう 1 つはリアルタイム データを備えた独自のチャットボットです。トラベル チャットボットは、どのフライトに乗るかを推奨するために独自のフライト情報データ セットを使用して「微調整」されています。多くの場合、両方のチャットボットが同じ回答を提供します。しかし、大規模な嵐が空港を襲った場合、独自のリアルタイムデータで構築されたチャットボットが、嵐の影響を受けるフライトを回避するフライト情報を提供します。これはユーザーにとって非常に貴重であるため、開発者にとっても価値があります。 基礎的な AI モデルの将来 ということは、あらゆる生成 AI ユースケースには独自のリアルタイム データから構築された基礎モデルが必要ということになるのでしょうか?いいえ、しかし独自の基礎モデルが必要になる理由は他にもあります。 独自のファーストパーティ データ セット 次の例を考えてみましょう。Google Bard は YouTube 全体を活用して基礎モデルを作成します。生成 AI のユースケースで YouTube にアップロードされている膨大な量の情報と知識から恩恵を受けることができる場合は、Google の基礎モデルを使用するとよいでしょう。 パーソナライゼーション データ セット 基本モデルがパーソナライズされたデータでトレーニングされると、モデル (別名ニューラル ネットワーク) には個人情報の側面が含まれます。これらのモデルを使って推論することは個人情報を漏らさない形で行うことができますが、モデル全体をエクスポートすると、モデルのパラメータを見ることで特定のユーザーの個人情報を抽出することが可能になります。フェデレーション ラーニングの進歩にもかかわらず、プライバシーを危険にさらさずにモデルをエクスポートできる確実な方法はありません。 では、将来の基本モデルはどのようなものになるのでしょうか?おそらく次のようなものでしょう: アルゴリズムはオープンソースになる リアルタイム データ セットとパーソナライゼーションの維持にコストがかかるため、データ セットが独自のものになる場合もあれば、オープンソースになる場合もあります。 これが一般的なアーキテクチャであると仮定すると、二次的な影響は何でしょうか? 生成型 AI の構築を検討している企業は、独自のリアルタイム データ インフラストラクチャを維持するための小切手帳を持つ大企業の基礎モデルと、他のユースケース用のオープンソースの基礎モデルに依存する必要がある可能性があります。 企業が依存する独自のデータセットもますますリアルタイムになるでしょう。データは Apache Cassandra などの NoSQL リアルタイム データベースに存在し、Apache Pulsar などのテクノロジーを使用して機能ストアにストリーミングされることが期待されます。 実際の目的では、モデル推論は、AWS、Microsoft、Google などの基本的なモデルプロバイダーが所有するデータセンターで行われる可能性があります。これは、AI の時代にハイパースケーラーの重要性が高まる可能性があることを意味します。基本的なオープンソース モデルに基づくモデル推論は、顧客のデータ センターで実行できます。  DataStax (私の雇用主) への副次的な影響も重大です。データ管理プロバイダーとして、AWS、Microsoft、Google の主要なクラウド上に存在する を介してクラウドでサービスを提供するための当社の投資は、企業内で生成 AI が普及するにつれて増加する可能性があります。 DataStax Astra DB 私たちは、次のような企業のオープンソースの基本モデルの使用を奨励しサポートしていますが、 、私たちはまた、大手 3 つのクラウド プロバイダーと強力な AI パートナーシップを形成しています。最も重要なことは、企業がリアルタイム AI 用に独自の実際のデータ セットを作成できるようにするために、  などの Cassandra のアップストリーム機能にコミュニティ コントリビューション プロセスを使用していることです。 ハグ顔 ベクトル検索 データスタックス、アラン・ホー著 でも公開されています。 ここ

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

DataStax Astra DB is the vector database for getting GenAI apps into production, fast. Try it for free today!

DataStax

このオーディオは、ストーリーの元の言語で制作されています。

独自の AI モデルは死んだのか、それとも死んだのか?

About Author

コメント

ラベル

この記事は

Related Stories

State of the Noonion: Green Clock Strikes Noon

フロキのヴァルハラがインドのスリランカツアーのアソシエイトスポンサーに加わる

クラウド移行を成功させるための完全ガイド: 戦略とベストプラクティス

HackerNoon ライティングコンテストで優勝したいですか? #crypto-api コンテスト優勝者のおすすめはこちら

State of the Noonion: Green Clock Strikes Noon

フロキのヴァルハラがインドのスリランカツアーのアソシエイトスポンサーに加わる

クラウド移行を成功させるための完全ガイド: 戦略とベストプラクティス

HackerNoon ライティングコンテストで優勝したいですか? #crypto-api コンテスト優勝者のおすすめはこちら

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps