1,202 leituras

Apache Cassandra: o banco de dados que ajuda a Uber e a Apple a reduzir o risco de seus projetos de IA

por DataStax4m2023/08/07

Muito longo; Para ler

Usuários em larga escala do Cassandra, como Uber e Apple, exemplificam como esse sistema de banco de dados pode efetivamente reduzir o risco em projetos de IA/ML.

featured image - Apache Cassandra: o banco de dados que ajuda a Uber e a Apple a reduzir o risco de seus projetos de IA

O recente tsunami de inteligência artificial criou muita pressão para se mover rápido apenas para acompanhar. Alguns podem estar inclinados a sacrificar a estabilidade e a qualidade para rodar rapidamente com as ferramentas mais avançadas. Felizmente, não precisa ser assim.

No mundo da IA e aprendizado de máquina (AI/ML), a escolha de um banco de dados pode afetar significativamente o sucesso do seu projeto. Um dos principais fatores a serem considerados é o risco associado à escalabilidade e confiabilidade do sistema de banco de dados. O Apache Cassandra, um banco de dados distribuído altamente escalável e de alto desempenho, provou ser um líder do setor nesse aspecto. Ele oferece recursos que reduzem significativamente o risco associado a projetos de IA/ML, tornando-o a escolha preferida de muitas organizações.

Usuários em larga escala do Cassandra, como Uber e Apple , exemplificam como esse sistema de banco de dados pode efetivamente reduzir o risco em projetos de IA/ML. Uber usa Cassandra para processamento de dados em tempo real e para retenção a loja de recursos diretamente no Cassandra para previsões. A capacidade de começar pequeno e escalar conforme necessário, juntamente com alta confiabilidade, permite que a Uber gerencie grandes quantidades de dados sem o risco de falha do sistema ou degradação do desempenho. Muitos sistemas mais novos criados para cargas de trabalho de IA estão tentando criar escalabilidade em torno de um recurso específico, mas os usuários que fazem IA em escala usam o Cassandra há anos.

Escalabilidade e desempenho

Os aplicativos AI/ML geralmente lidam com grandes quantidades de dados e exigem processamento de alta velocidade. Planejar quando você precisa de capacidade é uma tarefa difícil. O melhor plano? Apenas evite. Em vez disso, use um banco de dados que possa ser dimensionado rapidamente quando você precisar e nunca deixe você com capacidade superprovisionada.

A capacidade principal do Cassandra de escalar horizontalmente ainda o diferencia de muitos outros bancos de dados. À medida que seus dados crescem, você pode adicionar mais nós ao cluster Cassandra para lidar com o aumento de tráfego e dados. É simples assim. Esse recurso é particularmente crucial para aplicativos AI/ML, que lidam com conjuntos de dados cada vez maiores.

O Uber é um hiperescalador e cada novo produto que introduz continua aumentando seus requisitos de escala. Como um dos maiores usuários do Cassandra, ele aproveita essa escalabilidade para lidar com suas necessidades de dados cada vez maiores e em constante mudança. O alto throughput de gravação e leitura do Cassandra o torna uma excelente escolha para o processamento de dados em tempo real necessário em seus aplicativos de IA e ML.

Processamento em tempo real

O processamento de dados em tempo real é um requisito crítico para qualquer aplicativo moderno. Os milissegundos contam quando os usuários procuram a melhor experiência. Os aplicativos AI/ML geralmente precisam analisar e responder aos dados à medida que chegam, seja para recomendações em tempo real, análise preditiva ou modelos dinâmicos de preços. O Cassandra, com sua alta taxa de transferência de gravação e leitura, é adequado para esses requisitos de processamento em tempo real. A arquitetura do Cassandra permite lidar com grandes volumes de dados em muitos servidores comuns, fornecendo alta disponibilidade sem ponto único de falha. Isso significa que os dados podem ser gravados e lidos no banco de dados quase instantaneamente, tornando-o uma excelente opção para aplicativos que exigem respostas em tempo real.

O Uber Eats é um exemplo prático. O aplicativo precisa processar dados em tempo real para fornecer recomendações de alimentos e prazos de entrega estimados. Esse processamento em tempo real é possível graças ao alto desempenho do Cassandra. Além disso, a replicação padrão torna as falhas de infraestrutura transparentes para os usuários finais, o que os mantém satisfeitos e usando o aplicativo. O fluxo constante de mudança de dados e ciclos selvagens de uso é onde Cassandra brilha. As organizações que usam o Cassandra gastam mais tempo se preocupando com os recursos corretos do aplicativo e muito menos com o banco de dados que os suporta.

Tornando-se global com dados

Com o Cassandra, os dados são replicados automaticamente para vários nós e essas réplicas fornecem redundância. Se um nó falhar, os dados ainda poderão ser acessados das réplicas. Esse recurso garante que seus aplicativos AI/ML permaneçam em funcionamento, mesmo diante de falhas de hardware ou problemas de rede.

Mas a arquitetura distribuída do Cassandra não apenas contribui para sua alta tolerância a falhas, mas também ajuda você a ficar perto de seus usuários. Alguns usuários quase consideram sua replicação de dados global padrão como garantida.

Empresas como Apple e Netflix falaram sobre suas arquiteturas ativo-ativo que abrangem várias geografias ao redor do mundo por tanto tempo que nem é incomum. Além da tolerância a falhas, o aspecto centrado no usuário dessa incrível capacidade é a localidade de dados. Se você tiver usuários na América do Norte, Ásia e Europa, a centralização de dados em um local resultará em latências angustiantes para alguns subconjuntos de seus usuários. A solução é apenas replicar os dados em cada local e dar a todos uma pequena janela de latência para os dados.

Reduzindo o risco do seu projeto

Escolher a pilha de tecnologia certa é uma parte significativa da eliminação de riscos de qualquer projeto. Com o Cassandra, você pode começar pequeno e escalar conforme necessário, fornecendo uma solução econômica para o seu projeto. O Cassandra provou sua confiabilidade ao longo do tempo, com algumas empresas executando seus clusters Cassandra por mais de 10 anos sem desligá-los. Tecnologia mais recente com recursos desenvolvidos especificamente para IA está sendo adicionado, mas algumas das cargas de trabalho AI/ML mais pesadas foram gerenciadas silenciosamente e consistentemente com o Cassandra por algum tempo. Dito isso, está se tornando uma escolha ainda mais relevante para cargas de trabalho de IA/ML atualmente.

A escalabilidade, o desempenho, os recursos de processamento em tempo real e a longevidade do Cassandra o tornaram uma excelente escolha para aplicativos AI/ML. À medida que os aplicativos de IA continuam evoluindo e se tornando cada vez mais integrados às operações de negócios, a necessidade de bancos de dados robustos, confiáveis e eficientes como o Cassandra só aumenta. Ao escolher o Cassandra, você não está apenas selecionando um banco de dados; você está preparando seus aplicativos de IA/ML para o futuro.

Saiba como bancos de dados vetoriais como Cassandra e DataStax Astra DB possibilitam projetos de IA generativos em larga escala

Por Patrick McFadin, DataStax .