paint-brush
Essas informações do Google Maps descobertas por um cientista de dados são inacreditáveispor@shauryauppal
923 leituras
923 leituras

Essas informações do Google Maps descobertas por um cientista de dados são inacreditáveis

por Shaurya Uppal4m2023/01/11
Read on Terminal Reader

Muito longo; Para ler

Como cientista de dados, considero a personalização e a classificação de pesquisa um desafio complexo e interessante. O Google Maps reconhece minha localização e exibe os cinco locais mais visitados ou clicados por pessoas que já digitaram “ei” Todos os resultados estão perto da minha localização (veja a Fig. 1)
featured image - Essas informações do Google Maps descobertas por um cientista de dados são inacreditáveis
Shaurya Uppal HackerNoon profile picture
0-item


O Google Maps é um produto incrível e agrega muito valor à vida das pessoas. Hoje, pensei em compartilhar minhas opiniões sobre como alguém pode criar um produto como esse do zero.


Embora seja verdade que a pesquisa envolve engenharia e ciência de dados, muitas empresas podem subestimar a importância da ciência de dados na pesquisa. A pesquisa não é apenas construir uma infraestrutura técnica para processar e retornar resultados para uma determinada consulta, mas também entender e antecipar as necessidades e preferências dos usuários e usar dados para adaptar a experiência de pesquisa a usuários individuais.


Como cientista de dados, considero a personalização e a classificação de pesquisa um desafio complexo e interessante. Capturamos o interesse dos usuários examinando: consultas de pesquisa do usuário, histórico de pesquisa anterior e dados de cliques.


Este boletim informativo responderá a todas as suas perguntas sobre:


  • Quais dados são necessários?
  • Necessidade de Ranking e Relevância em Mapas?
  • Por que um resultado particular aparece?


Isenção de responsabilidade: envie DM antes de republicar esta estratégia em outras plataformas, pois é totalmente original para mim e não foi copiada. Não endosso nenhuma marca; os exemplos compartilhados são apenas para aprendizado. Qualquer pessoa pode criar seus próprios mapas do zero usando esse conceito.

Se alguém quiser uma consulta minha, entre em contato AQUI

Por que esse resultado e como?

O que procuramos: moro em Gurugram e procuro a “Torre Eiffel, Paris”

Vamos começar a digitar “EI” no Maps e analisar. Obtivemos os 5 principais resultados listados abaixo da consulta.

Fig.1 Análise de pesquisa


Por que há apenas cinco resultados? A pesquisa tem tudo a ver com classificação e relevância. O objetivo do algoritmo é obter o resultado desejado do usuário com um comprimento mínimo de consulta. Por outro lado, mais contexto para o algoritmo é preferível ao esforço de percorrer uma longa lista de resultados retornados pela consulta “ei”.


Figura 1. Análise de pesquisa


Razão para este resultado: popularidade e sinais contextuais são disparados aqui. O Google Maps reconhece minha localização e exibe os cinco locais mais visitados ou clicados por pessoas que já digitaram “ei”. Todos os resultados estão perto da minha localização (ver Fig. 1). A consulta “eif” coloca a Torre Eiffel na 3ª posição devido à sua maior pontuação de popularidade. (ver Fig.2)


Fig.2 Popularidade e pesquisa com base na distância

Como construir a pesquisa baseada em localização de um usuário?

O que nós temos?


  • Conhecemos a localização do usuário
  • Localizações de todas as Entidades cadastradas — Lojas, Cafés, Restaurantes, Hotéis, etc.

abordagem ingênua

Usando a fórmula de Haversine, calcule a distância entre Lat/Long do usuário e outros locais dentro de uma cidade ou código postal. (ver Fig.3)


Fig.3 Fórmula de Haversine


No nível do GMaps, onde existem bilhões de entidades e milhões de usuários, essa abordagem não é escalável.

Abordagem mais inteligente com DS Intelligence

  • Digamos que estamos fazendo essa pesquisa apenas para a região de Bangalore.
  • Agrupamos todas as entidades registradas — dividindo toda a região em clusters de subentidades menores, digamos 50. (consulte a Fig.4)

Fig.4 Bangalore em clusters de subentidades


  • Quando um usuário fica online, basta verificar seu Lat-Long e classificar as entidades com base na popularidade dentro do cluster. Essa abordagem adiciona elementos baseados em distância e popularidade aos nossos resultados de pesquisa.

PS. Alguns de vocês podem perguntar se isso pode ser feito no Elastic Search. Confira a classificação geográfica

Fig.5 Classificação geográfica ES

Como tornar a pesquisa mais contextual ou personalizada?

Para tornar a pesquisa mais contextual ou personalizada, considere o uso de abordagens baseadas em dados que levem em consideração as necessidades ou preferências específicas do usuário. Por exemplo, se o Sr. Wolf está procurando restaurantes e fez várias consultas relacionadas a restaurantes em um curto período de tempo ou na mesma sessão, você pode priorizar a exibição de resultados personalizados para sua localização e também considerar seu histórico de pesquisa anterior. Isso pode envolver uma classificação mais alta dos restaurantes próximos a ele nos resultados da pesquisa e apresentar a ele opções personalizadas de acordo com seus gostos ou preferências ou visitas anteriores a locais diferentes.


Ao usar abordagens baseadas em dados, você pode fornecer ao Sr. Wolf resultados de pesquisa mais relevantes e direcionados, em vez de simplesmente confiar em critérios populares ou baseados na distância.

Alguém pode perguntar, Shaurya, você falou sobre o aspecto de popularidade na pesquisa, mas quais são algumas maneiras diferentes de identificar um local como popular?

  • Número de visualizações/cliques no último 1 mês
  • Número de pessoas que visitaram um lugar no último 1 mês
  • Plataforma cruzada de proxy: análise de transações do Google Pay, uma loja comercial é considerada popular se o volume de transações for alto

Recomendações de pesquisas anteriores em cache

Nenhum modelo de Ciência de Dados pode superar a simplicidade de dados históricos bem apresentados (consulte a Fig. 6) com algoritmos de cache: LFU (Least Frequently Used) ou LFU com Dynamic Aging (consulte o link abaixo para obter uma explicação detalhada de LFU com Dynamic Aging).


Confira meu blog aqui: https://shauryauppal.medium.com/thinking-data-strategies-in-fintech-universe-building-payments-recommendation-system-for-google-95c746e3dd0e

Fig. 6 Pesquisa em cache

Resumo da nossa análise

1. Discutimos por que 5 resultados são exibidos na lista de resultados de pesquisa

2. Classificação dos resultados com base na pontuação de popularidade + distância

3. Classificação geográfica na pesquisa elástica

4. Personalização na Pesquisa com base na categoria histórica de consultas

5. Como você identifica uma entidade como um local popular?

6. Recomendações baseadas no armazenamento em cache de consultas de pesquisa anteriores e locais visitados


Obrigado a todos por me presentear com este Prêmio


Noonies Tech 2022


Conecte-se, siga-me ou apoie-me no LinkedIn se você achou esta leitura útil. Para saber mais sobre mim visite: Aqui


Estou procurando uma função interessante de líder / cientista de dados sênior: se você tiver algo para mim, vamos nos conectar em [email protected]


Republique da minha Newsletter: Aqui e Aqui