Muitas questões estão surgindo sobre o estado da IA generativa no momento. Até que ponto estão as empresas com seus esforços personalizados de GenAI? As organizações estão realmente construindo aplicativos de IA usando seus próprios dados proprietários de maneiras que movem o ponteiro? Que tipo de arquitetura é necessária?
Essas questões não são surpreendentes – há uma enorme variedade de opiniões sobre IA por aí, desde o otimismo descarado até o cinismo cansado, misturado com muito exagero.
Descobri que isso ajuda a esclarecer a situação no mercado GenAI em três áreas: o que o mercado quer ver, os medos sobre o que pode acontecer e o que acontecerá (e como) em 2024.
GenAI explodiu em cena no final de 2022, quando OpenAI lançou ChatGPT e mostrou quão poderoso e acessível esse tipo de tecnologia poderia ser. A empolgação com o potencial positivo da IA estava em toda parte. Em pouco tempo, a GenAI seria infundida em todas as aplicações de todas as empresas. Os investidores imaginaram uma curva de crescimento semelhante à de um taco de hóquei para as empresas que fornecem a infraestrutura para apoiar a GenAI.
Os pessimistas, por outro lado, imaginaram um futuro distópico de IA que é um cruzamento entre “Westworld” e “Black Mirror”. Outros alertam sobre uma bolha de IA. Do ponto de vista do investimento, alguns dizem que é como a criptografia de novo – muita excitação e entusiasmo, e depois uma cratera fumegante.
Acho que ambos os medos são infundados. Claro, a cada nova onda tecnológica, haverá maus atores usando GenAI pelos motivos errados. E a empolgação com as possibilidades do GenAI está em toda parte; tem uma sensação “borbulhante” e pode até ser mais estridente do que o burburinho da criptografia.
Mas a grande diferença entre GenAI e criptografia é o fato de que existem muitos, muitos casos de uso reais para o primeiro, em organizações e setores. Na criptografia, havia um caso de uso forte: transações financeiras entre partes não confiáveis (também conhecidas como lavagem de dinheiro). Isso é algo em que o mainstream não está tão interessado.
Neste momento, a situação das aplicações GenAI faz-me lembrar o comércio eletrónico no final da década de 1990 , quando as empresas tentavam descobrir como tornar seguro o uso de cartões de crédito na Internet. Demorou um pouco para que as organizações descobrissem como fazer isso com segurança, mas, quando o fizeram, de repente todos tinham um site de comércio eletrônico.
O paralelo que vejo no GenAI agora: como garantir que os modelos de linguagem não retornem respostas imprecisas por meio de alucinações . As boas notícias? Isso foi descoberto (graças à geração aumentada de recuperação , ou RAG; mais sobre isso abaixo).
Muito do que vimos no ano passado foram projetos GenAI de prova de conceito: aplicativos para demonstrar à liderança de uma empresa o que é possível. Mas muito poucas empresas foram além disso para criar aplicações que estejam em plena produção. Por “produção”, quero dizer que uma organização possui um aplicativo de IA que está sendo usado por clientes ou funcionários de uma forma não prototípica.
Em outras palavras, está disponível como parte rotineira das atividades de alguns segmentos de operações comerciais. Pode ser o front office, pode ser o que está por trás de uma ligação para o atendimento ao cliente, mas está em algum lugar próximo à parte principal do negócio.
O Walmart é um bom exemplo disso. O varejista anunciou em janeiro que adicionou a pesquisa baseada em GenAI ao seu aplicativo de compras. A Apple está testando uma ferramenta GenAI para ajudar seus funcionários a fornecer suporte técnico mais rápido. Até começarmos a ver mais exemplos como este, a GenAI permanecerá um pouco mais no estágio inicial do que o Gartner chama de “ ciclo de hype ”.
A Volkswagen acaba de anunciar um laboratório interno para desenvolver aplicativos GenAI para aplicações de navegação e infoentretenimento para seus automóveis.
Dito isto, não estamos tão longe de atingir o “platô de produtividade” como alguns poderiam pensar. Como mencionei anteriormente, a confiança na produção de modelos tem sido um obstáculo para as organizações que ainda estão lutando para produzir respostas relevantes e precisas de modelos de linguagem grande (LLM), reduzindo as alucinações.
O RAG, que fornece modelos com dados ou contexto adicionais em tempo real de outras fontes – na maioria das vezes, um banco de dados que pode armazenar vetores – está sendo empregado agora para ajudar a resolver esse problema. Este avanço tecnológico é a chave para o desenvolvimento de aplicações GenAI personalizadas e específicas de domínio, baseadas no ativo mais valioso das organizações: seus próprios dados.
Embora o RAG tenha surgido como o método de fato para inserir o contexto empresarial em aplicativos GenAI, o ajuste fino – quando um modelo pré-treinado é treinado posteriormente em um subconjunto de dados – também é frequentemente mencionado. Há momentos em que esse método pode ser útil , mas o RAG é a escolha certa se houver alguma preocupação com privacidade, segurança ou velocidade.
Independentemente de como o contexto é adicionado ao aplicativo, a grande pergunta que recebo frequentemente dos investidores com quem tenho conversado é quando as empresas começarão a ganhar dinheiro com os aplicativos GenAI?
Minha resposta: a maioria das empresas que você acompanha são empresas baseadas no consumo. Muitos agora estão apoiando experimentos, provas de conceito (POCs) e aplicativos de nicho que seus clientes criaram; aqueles não fazem muito em termos de consumo.
Mas isso está começando a mudar à medida que as principais aplicações de IA começam a passar do POC para a verdadeira produção. Prevejo que isso acontecerá de forma significativa até o final de 2024. Se concretizará no segundo semestre de 2024, começando em dois lugares.
Primeiro, está se consolidando no varejo (veja o exemplo do Walmart mencionado anteriormente). Você também verá uma adoção generalizada no que chamo de área de “intranet de IA”: bate-papo com PDF, bases de conhecimento e centrais de atendimento internas.
Com o consumo que esses tipos de aplicativos geram, empresas como Microsoft , Google e até Oracle estão começando a relatar resultados de IA. Fora do domínio dos hiperescaladores, outras empresas de infraestrutura de IA provavelmente começarão a destacar aumentos nos relatórios de lucros que divulgarão em janeiro, fevereiro e março do próximo ano.
As bases já foram lançadas para empresas de infraestrutura de IA baseadas no consumo. Já vimos fortes provas comerciais que mostram o que é possível para uma grande base de aplicações personalizadas e específicas de domínio. Desde aplicativos criativos de IA – Midjourney, Adobe Firefly e outros geradores de imagens, por exemplo – até aplicativos de conhecimento como GitHub Copilot ( mais de 1 milhão de desenvolvedores o utilizam ), Glean e outros, esses aplicativos tiveram grande adoção e geraram produtividade significativa. ganhos.
O progresso em aplicativos personalizados é mais avançado em setores e casos de uso que precisam facilitar a entrega de conhecimento até o ponto de interação. O conhecimento virá de seus próprios dados, usando modelos prontos para uso (sejam de código aberto ou proprietários), RAG e o provedor de nuvem de sua escolha.
Três elementos são necessários para que as empresas criem aplicativos GenAI personalizados e prontos para os rigores do funcionamento em escala de produção: contexto inteligente, relevância e escalabilidade.
Vamos dar uma olhada rápida em como os dados proprietários são usados para gerar respostas úteis, relevantes e precisas em aplicativos GenAI.
Os aplicativos pegam a entrada do usuário na forma de todos os tipos de dados e alimentam tudo em um mecanismo de incorporação, que essencialmente deriva significado dos dados, recupera informações de um banco de dados vetorial usando RAG e constrói o “contexto inteligente” que o LLM pode usar para gerar uma resposta contextualizada e livre de alucinações que é apresentada ao usuário em tempo real.
Este não é um tópico sobre o qual você ouve muito falar em empresas de bancos de dados operacionais. Mas no campo da IA e dos bancos de dados vetoriais, a relevância é uma mistura de recordação e precisão que é crítica para produzir respostas úteis, precisas e não alucinatórias.
Ao contrário das operações tradicionais de banco de dados, os bancos de dados vetoriais permitem pesquisa semântica ou de similaridade, que é de natureza não determinística. Por isso, os resultados retornados para a mesma consulta podem ser diferentes dependendo do contexto e de como o processo de busca é executado. É aqui que a precisão e a relevância desempenham um papel fundamental na forma como o banco de dados vetorial opera em aplicações do mundo real. A interação natural exige que os resultados retornados em uma pesquisa por similaridade sejam precisos E relevantes para a consulta solicitada.
Os aplicativos GenAI que vão além dos POCs e vão para a produção exigem alto rendimento. A taxa de transferência é essencialmente a quantidade de dados que podem ser armazenados, acessados ou recuperados em um determinado período de tempo. O alto rendimento é fundamental para fornecer recursos interativos, em tempo real e com uso intensivo de dados em escala; as gravações geralmente envolvem bilhões de vetores de múltiplas fontes, e os aplicativos GenAI podem gerar grandes quantidades de solicitações por segundo.
Tal como aconteceu com as vagas anteriores de inovação tecnológica, a GenAI está a seguir um padrão estabelecido e todos os sinais apontam para que se mova ainda mais rapidamente do que as revoluções tecnológicas anteriores. Se você eliminar todo o entusiasmo negativo e positivo sobre isso, fica claro que um progresso promissor está sendo feito por empresas que trabalham para mover seus aplicativos POC GenAI para produção.
E empresas como meu empregador, a DataStax, que fornece bases escalonáveis e fáceis de construir para esses aplicativos, começarão a ver os benefícios do consumo de seus clientes mais cedo do que alguns imaginam.
Por Ed Anuff, DataStax
Saiba mais sobre como o DataStax permite que os clientes coloquem seus aplicativos GenAI em produção .