Você se depara com um intrigante vídeo do YouTube que o orienta na criação de seu próprio chatbot. Após uma hora de experimentação no Visual Studio, você tem um pequeno projeto fantástico para mostrar aos seus colegas.
No entanto, quando seu chefe exige a implementação de IA em toda a empresa, você percebe que essa prova de conceito é adequada apenas para um laptop; não é prático para a produção.
Nesta inflexão da tecnologia de inteligência artificial, apenas uma pequena porcentagem de empresas fez algo em escala com IA generativa. Um laptop POC pode se safar com uma escala de gigabyte
Mas isso mudará rapidamente e, quando isso acontecer, meus colegas e eu da DataStax e do projeto Apache Cassandra® já estaremos nele — usando tecnologia comprovada para ultrapassar os limites muito além de um gigabyte de dados vetoriais em um data center.
Para tanto,
As lojas de vetores serão a chave para satisfazer essa fome voraz de memória.
Quanto mais dados vetoriais usamos, mais evidente se torna que a escala será inevitavelmente o fator limitante. Mas é aqui que Cassandra realmente brilha. Estamos confiantes na alegação de que um armazenamento de vetor atinge um petabyte porque é construído em Cassandra.
Sim, o mesmo Cassandra que nossos usuários já estão executando com clusters do tamanho de petabytes. Nos últimos 12 anos, nós, como um projeto de código aberto, construímos e otimizamos um sistema para as maiores cargas de trabalho de dados transacionais do mundo.
Armazenar e pesquisar vetores é apenas mais um recurso a ser adicionado a uma tecnologia já incrível.
Como bônus, uma das vantagens mais significativas de usar o Cassandra como armazenamento de vetores é seu mecanismo de replicação integrado. Isso permite a replicação ativo-ativo globalmente, o que significa que seus dados podem existir e ser atualizados em tempo real em vários lugares. Na era do big data, esse era um superpoder para muitas organizações.
Na era da IA generativa, será uma questão de sobrevivência, pois os agentes agem de forma independente e global. Armazenamento de dados consistente em qualquer lugar necessário, com a elasticidade necessária para torná-lo acessível em escala.
Agora, você pode perguntar: "Quem realmente precisa de um armazenamento de vetores que possa armazenar um petabyte?" Se a história nos ensinou alguma coisa, a necessidade de capacidade de armazenamento de dados cresce muito mais rápido do que se imagina.
O uso de vetores tornou-se rapidamente a forma predominante de incorporar dados corporativos em modelos de fundação. Embora o ajuste fino possa teoricamente atingir o mesmo resultado, muitas empresas descobriram que a incorporação de vetores oferece vantagens significativas.
Ele fornece proveniência de dados, o que é particularmente importante em áreas regulamentadas, como saúde e direito, e ajuda a evitar as complexidades do ajuste do modelo.
Geração Aumentada de Recuperação (
Se você está procurando os melhores resultados, combinar LLMs com pesquisa vetorial é o caminho certo.
Os LLMs aprimorados não diminuíram a necessidade de vetores. Com o consumo de recursos de computação, rede e armazenamento, os LLMs estão se tornando líderes em gastos com infraestrutura. Eles deixarão de lado o atual líder do que alguns chamam de infraestrutura de "petacusto": o data lake corporativo.
No entanto, combinar LLMs com pesquisa vetorial pode fornecer desempenho e qualidade ideais a um custo razoável.
É apenas uma questão de tempo até precisarmos de armazenamentos de vetores do tamanho de petabytes com base na variedade de coisas que precisaremos incorporar. Um fator crítico na eficácia da pesquisa de similaridade é a qualidade do algoritmo de incorporação usado, juntamente com armazenamento e recuperação eficientes.
Não é que o sistema seja eficiente até que haja muitos dados. O sistema deve ser eficiente muito além do ponto em que você fica sem dados para fornecê-lo.
O ChatGPT capturou a atenção de todos e criou uma enorme quantidade de especulações do tipo “e se”, mas, no final, é um produto que demonstra uma nova classe de arquitetura de dados. Os LLMs continuarão a melhorar, mas o que você faz com o LLM é o que cria valor.
Especialistas no campo que estão ansiosos foram
Inteligência geral artificial (AGI)
Agentes de IA autônomos distribuídos
Qualquer um deles causará enormes tensões de recursos e, combinados, podem significar muitos problemas para organizações que se deparam com limites. Os agentes são semelhantes aos humanos: quanto mais sabem, melhores podem ser as decisões tomadas.
Se você tivesse um simples agente de reservas de voos, considere todas as coisas relevantes que precisam ser lembradas imediatamente. Não apenas a mudança de horários e coisas como as condições climáticas, mas a experiência adquirida após a reserva de muitos voos. Espere — experiência?
Os agentes de viagens humanos têm uma experiência profunda em trabalhar com um sistema caótico, e essa experiência pode ser caracterizada como uma coisa: memória. Os agentes de IA se tornarão mais valiosos à medida que obtiverem informações sobre suas tarefas, e essas memórias serão armazenadas como incorporações.
Não queremos que nossos agentes sofram os mesmos problemas vistos no filme
Então, meu conselho? Comece a pensar nos agentes de IA e como você os escalará hoje. Não espere pelo amanhã, pela próxima semana ou quando você atingir aquele obstáculo inevitável. Prepare-se para o sucesso agora.
Planeje o crescimento e a escalabilidade. Não se coloque em uma posição em que seja forçado a realizar uma migração massiva posteriormente. Estive envolvido em alguns grandes projetos de migração de dados que sempre começam com: “Bem, não achamos que precisaríamos de mais escala”.
O Cassandra é de código aberto e de uso gratuito. Se você não quer o trabalho de executar um grande cluster,
E para aqueles que procuram linhas de tendência e tentam planejar o próximo passo, os agentes de IA são o que você precisa considerar. O futuro da IA é vasto e empolgante. Mas para estarmos prontos para isso, precisamos nos preparar hoje.
Aprenda sobre frameworks como
Vamos inaugurar o futuro da IA juntos, um armazenamento de vetores em escala de petabytes por vez.
Por Patrick McFadin, DataStax