paint-brush
Vectors、Rag、Llama 3 がファーストパーティ データをどのように変えているのか@danielsvonava
1,000 測定値
1,000 測定値

Vectors、Rag、Llama 3 がファーストパーティ データをどのように変えているのか

Daniel Svonava6m2024/06/27
Read on Terminal Reader

長すぎる; 読むには

ファーストパーティ データを推進する上で、一般的には、企業はデータの取得と管理をより適切に管理する必要があるとされています。消費者は、自分の個人情報を誰が保持しているのか、どのように入手したのか、なぜ保持しているのか、そしてそれがどのように使われているのかをますます知りたいと考えています。データの管理権を取り戻すための推進は不可欠に思えますが、それは現実的でしょうか?
featured image - Vectors、Rag、Llama 3 がファーストパーティ データをどのように変えているのか
Daniel Svonava HackerNoon profile picture
0-item

ファーストパーティ データが仲間たちの助けを借りて復活。Vectors、RAG、LLAMA 3 が大きな変化をもたらす


過去 5 年間、データ インフラストラクチャを取り巻く主流の考え方は、企業がユーザーや顧客に関する情報をできるだけ多く取得し、自社のデータを所有して活用することの重要性を強調してきました。プライバシー規制が厳しくなる中、企業はGoogle、 MetaAmazonなどの広告ネットワークやプラットフォームなどのサードパーティ データ オペレーターに頼るのではなく、自らデータを収集する必要があります。企業はこの考え方に従い、移行を進めてきました。


しかし、最良のデータを求める戦いにおいて、ファーストパーティは本当に優れているのでしょうか? それだけでは十分ではありませんが、ベクター、RAG などのフレームワーク、 Llama 3などのオープンソース基盤モデルの助けを借りれば、ファーストパーティは優れている可能性があります。

ファーストパーティデータの推進

ファーストパーティデータに関する議論は、一般的に次のようになります。データプライバシーを求める声が高まる中、企業はデータの取得と管理をより適切に管理する必要があります。消費者は、自分の個人情報を誰が保持しているのか、どのように入手したのか、なぜ保持しているのか、そしてそれがどのように使われているのかをますます知りたいと思うようになっていますが、一般的には、こうした質問に対する答えは気に入りません。アクセスそして消去リクエストは急増しており、データ プライバシーの状況は急速に変化しています。企業は、自社のプライバシー管理プロセスを把握することさえ難しいことに気づき始めており、第三者のプライバシー管理プロセスについても心配したくないと考えています。


ユーザーは、企業に提供したデータがどうなるかについてますます懸念しており、データプライバシー法は厳格化しています。


しかし、ファーストパーティへの移行はプライバシーだけの問題ではありません。いわゆるクッキーのない未来に向かうにつれて、サードパーティのデータの価値が下がるという考えもあります。企業は以前と同じ詳細な情報を入手できないのに、なぜ以前よりも劣るサービスに予算を割く必要があるのでしょうか。


さらに、大手プラットフォームや広告ネットワークが予期せぬ変更を行うのではないかという懸念も常にあります。たとえば、アルゴリズムを変更したり、特定の種類のデータへのアクセスを制限したり、広告ポリシーをほとんど予告なしに変更して、企業の業績に悪影響を与える可能性があります。他社のやり方に依存していると、脆弱な状態になります。企業は、すでにデータ戦略に多大な時間、資金、リソースを投入しているため、行き詰まりを感じています。この観点から、データのコントロールを取り戻すための取り組みは不可欠であるように思われます。しかし、それは現実的でしょうか?


誰も語らないファーストデータの問題

ファーストパーティデータに賭けた企業の初期の結果は期待に応えられなかった。移行した消費者向け企業が苦戦するケースが次々と見られる。 ファーフェッチ オールバーズ、 そしてスマイルダイレクトクラブこれらはほんの一例です。ファーストパーティ データをより有効かつ戦略的に活用することで、高騰する顧客獲得コストの流れを変えることができるでしょうか?


それでも、ファーストパーティ データへの現在の依存、およびそのデータ抽出方法は、今日厳しい状況にある多くの企業に共通しています。アナリスト、ベンチャー キャピタル、マーケティング担当者自身が、ファーストパーティ データを優先したのは間違いだったのではないかと自問するほど、その傾向は顕著です。


現在取得され、活用されているファーストパーティ データの欠点は、デバイス ID の消失、IP アドレスの変更、消費者による偽メールの採用、広告ブロッカーなどを過小評価していることだとよく考えられています。確かにその通りですが、もっと重大な問題が関係しています。


まず、人材のギャップが極めて大きい。大手テクノロジー企業とプラットフォーム企業は、最高の人材を獲得している。彼らは最も多くの人材を提供できるため、収集・分析される情報を理解するために必要なデータ サイエンティストや ML の人材を獲得するために、新興の消費者向け企業が競争するのは困難だ。本当に優れた人材がいなければ、企業は苦戦を強いられる。


また、ツールの問題も実際に存在します。企業が利用できるサービスは、大手テクノロジー企業が社内で誇るツールとはまったく同等ではありません (これが人材ギャップの要因となる可能性があります)。ツールは違いを生み、ほとんどの企業は現時点では競争できません。


最後に、データの量の課題があります。大手テクノロジー企業や広告ネットワークは、モデルを効果的に実行するために何千億ものデータ ポイントをプールして匿名化しているため、膨大なデータを持っています。対照的に、企業が自社のデータのみを扱う場合、ML が期待どおりに機能するにはデータが足りません。


これらの問題は深刻に思えますが、ファーストパーティ データの可能性と必要性を諦めるべき時なのでしょうか? そんなわけありません!


ベクトルの力

ファーストパーティ データを妨げる最大の問題は、企業がそれにアクセスする方法です。これまでのところ、企業は旧世界のアプローチを採用してきました。企業が必要とするデータから価値を引き出すには、モデルをゼロから構築する必要があります。これには時間、費用、そして何よりも人材が必要です。これは、ML エンジニアとデータ サイエンティストの能力にかかっています。しかし、上で説明したように、このアプローチをサードパーティ データを活用するよりもうまく機能させるには、十分な人材がいません。人材不足がボトルネックを生み出します。


情報をベクトルとして表現することで、より深い理解と意味関係の分析が可能になります。


しかし、これはファーストパーティ データをあきらめる必要があるという意味ではありません。アプローチ方法を変える必要があるだけです。今日実現可能な新しい世界では、ベクトルとベクトル埋め込みが鍵となります。ベクトルは、データ ポイントの特徴や属性を表すことができる一般的な数学的オブジェクトであり、埋め込みモデルはデータ内のパターンを分析して、データから学習した情報満載の有意義な表現を生成します。つまり、意味関係を捉えます。ベクトル埋め込みは、ユーザーまたは顧客について知っているすべての情報をエンコードし、その情報を分析システムで利用できるようにしたり、ユーザー エクスペリエンスをパーソナライズしたり、不正行為を検出したりするために活用したりできる形式です。可能性は無限にあります。ベクトルは、根本的に異なる方法で分析を強化できるため、大きな変化をもたらす準備ができています。


検索拡張生成 (RAG) は、現在、その可能性のすべてで大きな話題を呼んでいますが、RAG を便利なものにしているのはベクトル埋め込みです。ベクトル埋め込みは、コンテキスト、応答、検索の統合、モデルの微調整に役立つフレームワークの中心的なコンポーネントです。高品質のベクトルを生成し、それらを正しくクエリすることは、あらゆる RAG システムを実際に機能させるために不可欠なタスクです。他のフレームワークもありますが、RAG はファースト パーティ データ革命に特に適しています。


素晴らしいですね。ベクトルとベクトル埋め込みの使い方をみんなで考えましょう。これは完全な答えではありません。限られたデータセットやツールなどの問題が残っています。すべてがまだきれいにまとまってはいませんが、すぐに解決すると信じています。Meta の Llama 2 のようなオープンソースの事前トレーニング済み基盤モデルは、7 月にもっと堅牢な Llama 3 に取って代わられるため、公平な競争の場を実現できます。BigTech に比べてデータ量が十分でないという問題は軽減されます。大規模で多様なデータセットで事前トレーニングされたオープンソース モデルを使用することで、そのモデルには一定レベルの知識と理解が組み込まれます。企業は、自社のデータを使用して、特定のドメインまたはタスクで Llama 2 (または Llama 3) を微調整するだけです。多くの場合、モデルをゼロからトレーニングする必要がなくなるため、ボトルネックが緩和されます。


これは、Llama が企業のテキスト処理を支援することを考えると、単純化しすぎのように聞こえるかもしれませんが、企業が使用するデータのほとんどはテキストではありません。企業が使用する構造化データは、このプロセスに統合する必要があります。たとえば、通常、ファーストパーティ データの大部分を占めるユーザー行動イベントは、どの LLM でも処理するのに適していません。これは変化しているため、企業は新しいマルチモーダル ソリューションの登場に備えておく必要があります。同様に、ツールはまだ不足していますが、この分野には多くの注目が集まっており、大きな進歩が遂げられています。順調に進んでいます。


最大の問題が根本的に解決されたことで、ファーストパーティ データの誇大宣伝が復活しました。企業は、サードパーティによるプライバシー侵害を心配する必要も、顧客を知るために大手テクノロジー企業に頼る必要もありません。企業がついにフル活用し、特に Llama 3 が準備完了したことで、今年はファーストパーティ データが爆発的に増加すると予想されます。Llama 3 には多くの期待が寄せられていますが、おそらくその最大の可能性は、ファーストパーティ データの問題を実際に完全に解決することでしょう。