paint-brush
データ サイエンティストが明らかにしたこれらの Google マップの洞察は信じられないほどです@shauryauppal
923 測定値
923 測定値

データ サイエンティストが明らかにしたこれらの Google マップの洞察は信じられないほどです

Shaurya Uppal4m2023/01/11
Read on Terminal Reader

長すぎる; 読むには

データ サイエンティストとして、検索のパーソナライゼーションとランキングは複雑で興味深い課題であると感じています。 Google マップは自分の現在地を認識し、以前に「ei」と入力したことがある人が訪れた、またはクリックした場所の上位 5 位を表示します すべての結果は現在地の近くにあります (図 1 を参照)
featured image - データ サイエンティストが明らかにしたこれらの Google マップの洞察は信じられないほどです
Shaurya Uppal HackerNoon profile picture
0-item


Googleマップは素晴らしい製品であり、人々の生活に多くの価値をもたらします。今日は、このような製品をゼロから構築する方法について、私の見解を共有したいと思います。


検索にはエンジニアリングとデータ サイエンスの両方が関与していることは事実ですが、多くの企業は検索におけるデータ サイエンスの重要性を過小評価している可能性があります。検索は、特定のクエリを処理して結果を返すための技術インフラストラクチャを構築するだけでなく、ユーザーのニーズと好みを理解して予測し、データを使用して個々のユーザーに合わせて検索エクスペリエンスを調整することでもあります。


データ サイエンティストとして、検索のパーソナライゼーションとランキングは複雑で興味深い課題であると感じています。ユーザーの検索クエリ、過去の検索履歴、クリック データを調べることで、ユーザーの関心を捉えます。


このニュースレターは、以下に関するすべての質問にお答えします。


  • どのようなデータが必要ですか?
  • マップでランキングと関連性が必要ですか?
  • 特定の結果が表示されるのはなぜですか?


免責事項: この戦略を他のプラットフォームに再投稿する前に、DM でお知らせください。これは完全に私のオリジナルであり、コピーされたものではありません。私はどのブランドも支持しません。共有されている例は学習用です。この概念を使用して、誰でもゼロから独自のマップを作成できます。

私に相談したい方はこちらまで

この結果の理由と方法

私たちが探しているもの: 私はグルグラムに住んでいて、「パリのエッフェル塔」を探しています

マップに「EI」と入力して分析してみましょう。クエリから、以下にリストされている上位 5 つの結果を取得しました。

図1 検索分析


なぜ5つの結果しかないのですか?検索は、ランキングと関連性がすべてです。このアルゴリズムの目的は、最小限のクエリ長でユーザーが望む結果を得ることです。一方、クエリ「ei」によって返された結果の長いリストをスクロールするよりも、アルゴリズムのコンテキストが多い方が望ましいです。


図1。検索分析


この結果の理由:人気とコンテキスト シグナルがここで発生します。 Google マップは私の場所を認識し、以前に「ei」と入力したユーザーが訪れた、またはクリックした場所の上位 5 つを表示します。すべての結果は私の場所の近くにあります (図 1 を参照)。クエリ「eif」では、人気スコアが高いため、エッフェル塔が 3 位になります。 (図2参照)


図2 人気度と距離検索

ユーザーのロケーションベースの検索を構築する方法は?

私たちは何を持っていますか?


  • ユーザーの場所を知っている
  • 登録されているすべてのエンティティの場所 — ショップ、カフェ、レストラン、ホテルなど

素朴なアプローチ

Haversine 式を使用して、ユーザーの緯度/経度と都市または郵便番号内の他の場所との間の距離を計算します。 (図3参照)


Fig.3 ハバーサイン式


何十億ものエンティティと何百万ものユーザーが存在する GMaps レベルでは、このアプローチはスケーラブルではありません。

DS Intelligence によるよりスマートなアプローチ

  • この検索ビルドアップをバンガロール地域に対してのみ行っているとしましょう。
  • 登録されたすべてのエンティティをクラスター化します — 地域全体をより小さなサブエンティティ クラスターに分割します。たとえば、50 とします (図 4 を参照)。

図 4 バンガロールのサブエンティティ クラスタへの分割


  • ユーザーがオンラインになったら、その緯度経度をチェックし、クラスター内の人気に基づいてエンティティをランク付けします。このアプローチにより、検索結果に距離と人気の両方に基づく要素が追加されます。

PS。 Elastic Search 内でこれを実行できるかどうかを尋ねる人もいるかもしれません。 ジオソートをチェックする

図 5 ES ジオソーティング

検索をより文脈的またはパーソナライズする方法は?

検索をよりコンテキストに応じた、またはパーソナライズしたものにするために、ユーザーの特定のニーズや好みを考慮したデータベースのアプローチを使用することを検討できます。たとえば、ウルフ氏がレストランを検索していて、短期間または同じセッション内で複数のレストラン関連のクエリを実行した場合、ウルフ氏の場所に合わせてパーソナライズされた結果を優先的に表示し、過去の検索履歴も考慮することができます。これには、検索結果で彼の近くのレストランを上位にランク付けし、彼の好みや好み、または別の場所への以前の訪問に合わせて調整されたオプションを提示することが含まれます。


データ ベースのアプローチを使用することで、単に人気のある基準や距離に基づく基準に頼るのではなく、より関連性の高いターゲットを絞った検索結果を Mr. Wolf に提供できます。

Shaurya、検索での人気の側面について話しましたが、場所を人気のある場所として特定する別の方法にはどのようなものがあるのでしょうか。

  • 過去 1 か月のビュー/クリック数
  • 過去 1 か月に場所を訪れた人の数
  • プロキシ クロス プラットフォーム: Google Pay トランザクション分析、トランザクション量が多い場合、マーチャント ショップは人気があると見なされます

過去にキャッシュされた検索からのおすすめ

LFU (Least Frequency Used) または動的エージングを使用した LFU (Dynamic Aging を使用した詳細な LFU の説明については、以下のリンクを確認してください) というキャッシング アルゴリズムを使用した、適切に提示された履歴データ (図 6 を参照) の単純さに勝るデータ サイエンス モデルはありません。


ここで私のブログをチェックしてください: https://shauryauppal.medium.com/thinking-data-strategies-in-fintech-universe-building-payments-recommendation-system-for-google-95c746e3dd0e

図 6 キャッシュされた検索

分析の要約

1. 検索結果リストに 5 件の結果が表示される理由について説明しました

2. 人気度 + 距離スコアによる結果のランキング

3. Elastic Search でのジオソート

4. クエリの過去のカテゴリに基づく検索でのパーソナライゼーション

5. 事業体を人気のある場所としてどのように識別しますか?

6.過去の検索クエリと訪れた場所のキャッシュに基づくレコメンデーション


この賞を私に贈ってくださった皆様、ありがとうございました


ヌーニーズテック2022


この記事が役に立ったと思われる場合はLinkedInで接続、フォロー、または支持してください。私の詳細については、こちらをご覧ください。


興味深いリード / シニア データ サイエンティストの役割を探しています。何かありましたら、 [email protected] までご連絡ください。


ニュースレターから再発行: ここここ