paint-brush
Dominando dados em tempo real: estratégias de Rahul Chaturvedi para construir plataformas de dados confiáveisby@jonstojanmedia

Dominando dados em tempo real: estratégias de Rahul Chaturvedi para construir plataformas de dados confiáveis

Jon Stojan Media5m2024/07/25
Read on Terminal Reader

Rahul Chaturvedi é engenheiro de software da Uber Technologies Inc. Ele tem estado na vanguarda da otimização de uma das maiores implantações Kafka do mundo. Seu trabalho atende às necessidades imediatas de processamento de dados em tempo real e estabelece as bases para ecossistemas robustos de IA.
featured image - Dominando dados em tempo real: estratégias de Rahul Chaturvedi para construir plataformas de dados confiáveis
Jon Stojan Media HackerNoon profile picture
0-item
1-item



A tecnologia é implacável para forçar as indústrias a evoluir. No que diz respeito ao big data, à aprendizagem automática e à inteligência artificial, o processamento e a análise de grandes volumes de dados em tempo real tornaram-se uma vantagem competitiva crítica para todas as empresas. No entanto, construir e manter plataformas de dados confiáveis, capazes de lidar com essa escala, apresenta desafios formidáveis. Agora, mais do que nunca, os engenheiros de software devem ser pensadores criativos e inovadores.


Rahul Chaturvedi , engenheiro de software da Uber Technologies Inc., é um excelente exemplo do solucionador de problemas que esses desafios exigem. Suas abordagens inovadoras para infraestrutura de dados estão atendendo a todos os padrões futuros da indústria de tecnologia atualmente.


Com quase duas décadas de experiência em engenharia de software, Chaturvedi se estabeleceu como autoridade em big data, tecnologias de streaming e infraestrutura em nuvem. Sua experiência, aprimorada por cargos em gigantes da indústria e reforçada por suas conquistas acadêmicas no IIT Kharagpur e na Universidade de Washington, tem sido fundamental para enfrentar alguns dos mais complexos desafios de dados que as empresas de tecnologia modernas enfrentam.


Na Uber, Chaturvedi tem estado na vanguarda da otimização de uma das maiores implantações do Kafka do mundo, um sistema que processa trilhões de mensagens e petabytes de dados diariamente. Seu trabalho atende às necessidades imediatas de processamento de dados em tempo real e estabelece as bases para ecossistemas robustos de IA que podem ser dimensionados com eficiência em ambientes de nuvem.

A escala do desafio: o ecossistema de dados da Uber

Para apreciar verdadeiramente a importância das contribuições de Rahul Chaturvedi, é preciso primeiro compreender a enorme escala do ecossistema de dados da Uber. Como uma das principais plataformas de transporte do mundo, as operações da Uber geram um volume astronómico de dados: biliões de mensagens diariamente, totalizando petabytes de informação que devem ser processadas, analisadas e postas em prática em tempo real.


Este dilúvio de dados provém de várias fontes: pedidos de viagem, localização dos motoristas, condições de trânsito, transações de pagamento e inúmeros outros pontos de dados da rede global de serviços da Uber. Cada fluxo de dados é fundamental para as operações da empresa, alimentando sistemas que alimentam tudo, desde algoritmos de preços dinâmicos até otimização de rotas e detecção de fraudes.


A complexidade do cenário de dados da Uber é ainda agravada por vários fatores, incluindo requisitos de processamento em tempo real, distribuição global de dados, escalabilidade contínua sem comprometer o desempenho ou a fiabilidade, e eficiência de custos. O desafio de Chaturvedi era manter esse sistema e melhorar seu desempenho enquanto o preparava para uma migração significativa para a nuvem. Isto exigiu abordagens inovadoras para problemas de longa data em sistemas distribuídos e engenharia de dados – soluções que precisariam de funcionar numa escala sem precedentes.

Inovando em soluções: estratégias de otimização Kafka

Grande parte do trabalho de Rahul Chaturvedi na Uber foi definido por sua abordagem inovadora para otimizar o Kafka, uma plataforma de streaming distribuída que constitui a espinha dorsal da infraestrutura de processamento de dados em tempo real da Uber. Uma das contribuições mais significativas de Chaturvedi foi liderar o esforço para co-localizar o Kafka com outras tecnologias no mesmo host. Devido à natureza crítica da tecnologia, esta mudança nunca tinha sido tentada antes na Uber. Esta estratégia foi crucial para permitir a migração da Uber para a nuvem e, ao mesmo tempo, otimizar custos.


A co-localização introduziu novos desafios, particularmente o problema do “vizinho barulhento”, onde um serviço poderia impactar potencialmente o desempenho de outros no mesmo host. Outros desafios incluíram restrições de recursos e desafios de versão do kernel, mas Chaturvedi trabalhou com várias equipes para resolver esses problemas.


Os resultados desses esforços de otimização foram significativos. Eles não apenas abriram caminho para uma migração tranquila para a nuvem, mas também levaram a melhorias substanciais na eficiência e confiabilidade do sistema. Estima-se que a estratégia de co-localização por si só economize milhões de dólares anualmente para a Uber em custos de infraestrutura.

Resultados futuros: construção de ecossistemas robustos de IA

O trabalho de Rahul Chaturvedi na Uber vai além da otimização do Kafka e do gerenciamento da migração para a nuvem. Seus esforços foram fundamentais na construção de um ecossistema robusto que apoia as extensas iniciativas de IA e aprendizado de máquina da Uber. A infraestrutura Kafka otimizada permite a ingestão e distribuição de fluxos massivos de dados necessários para treinamento e alimentação de dados ao vivo para modelos de IA, e pode lidar com os requisitos variados e muitas vezes imprevisíveis de volume de dados de diferentes modelos de ML e processos de treinamento.


Além de Kafka, o trabalho de Chaturvedi envolveu a integração do Redis à infraestrutura de dados do Uber. Isso permite que as equipes de ML/IA armazenem em cache dados acessados com frequência ou recursos pré-processados, melhorando significativamente a eficiência dos modelos de IA durante o treinamento e a inferência. Ao usar estrategicamente o Redis junto com o Kafka, a equipe de Chaturvedi criou um sistema que fornece acesso de latência ultrabaixa a dados críticos essenciais para aplicações de IA em tempo real.


A combinação suave do Redis com uma infraestrutura Kafka eficientemente localizada é exatamente o tipo de inovação focada no futuro que os engenheiros deveriam aspirar. O trabalho de Chaturvedi estabelece as bases para avanços futuros nas capacidades de IA da Uber, graças a uma plataforma de dados projetada com flexibilidade para incorporar novas tecnologias e metodologias de IA à medida que surgem.


Chaturvedi desempenhou um papel fundamental na criação de um ecossistema onde a IA e o ML podem florescer na grande escala da Uber através do seu trabalho em Kafka, Redis e na infraestrutura geral de dados.

Impacto na Indústria: A Engenharia do Futuro

Contribuições de Rahul Chaturvedi à infraestrutura de dados da Uber tiveram implicações de longo alcance para a empresa e para a indústria tecnológica em geral. A co-localização do Kafka com outras tecnologias deverá economizar milhões de dólares anualmente para a Uber em custos de infraestrutura. A redução da latência em clusters críticos do Kafka melhorou a capacidade de resposta geral do sistema, impactando diretamente a experiência do usuário. A infraestrutura otimizada pode agora lidar com os enormes volumes diários de dados da Uber – triliões de mensagens – de forma mais eficiente.


O significado de O trabalho de Chaturvedi não passou despercebido. Ele recebeu três cobiçados "Prêmios de Impacto de Dados de Armazenamento de Pesquisa (SSD)" em 2023 na Uber Technologies Inc., e suas abordagens inovadoras atraíram a atenção da comunidade de tecnologia, posicionando-o como um líder inovador em big data e infraestrutura.


O trabalho de Rahul Chaturvedi na Uber é um excelente exemplo do papel crítico que a engenharia de dados inovadora desempenha nas empresas de tecnologia modernas. Suas estratégias para construir plataformas de dados confiáveis, escaláveis e eficientes resolveram desafios imediatos e posicionaram a Uber na vanguarda das tecnologias de big data e IA. Soluções como estas, quer conduzidas em grande escala como a Uber, quer em escalas mais pequenas por startups e pequenas empresas ambiciosas, inspirarão novas tecnologias e novas estratégias nas décadas futuras.


Divulgação de interesse adquirido : Este autor é um colaborador independente que publica por meio de nosso programa de blogs de negócios. HackerNoon revisou a qualidade do relatório, mas as reivindicações aqui contidas pertencem ao autor. #DYOR.