Os dados primários estão de volta... com uma ajudinha de seus amigos. Como Vectors, RAG e LLAMA 3 estão provocando uma mudança radical
Nos últimos cinco anos, a narrativa dominante em torno da infraestrutura de dados enfatizou a importância de as empresas possuírem e aproveitarem os seus dados à medida que adquirem o máximo de informação possível sobre os seus utilizadores e clientes. Devido às crescentes regulamentações de privacidade, eles próprios precisam coletar os dados, em vez de depender de operadores de dados terceirizados, como redes de anúncios ou plataformas como Google, Meta e Amazon . As empresas alinharam-se com esta narrativa e fizeram a mudança.
Mas, na batalha pelos melhores dados, o first-party é realmente melhor? Não por si só, mas poderia ser com uma pequena ajuda de vetores, estruturas como RAG e modelos básicos de código aberto como Llama 3 .
O argumento a favor dos dados próprios geralmente é o seguinte: as empresas precisam de se tornar melhores administradores da aquisição e gestão de dados no meio dos crescentes apelos à privacidade dos dados . Os consumidores querem cada vez mais saber quem está guardando as suas informações pessoais, como as obtiveram, por que as possuem e o que está sendo feito com elas – e geralmente não gostam das respostas a essas perguntas.
Mas a mudança para o first-party não envolve apenas privacidade. Há também a noção de que os dados de terceiros perderão valor à medida que avançamos em direção ao proverbial futuro sem cookies. As empresas não conseguem obter os mesmos detalhes granulares de antes, então por que deveriam dedicar orçamento a um serviço que oferece menos do que antes?
E há também a preocupação constante de que as grandes plataformas e redes de publicidade façam mudanças inesperadas. Por exemplo, podem alterar os seus algoritmos, restringir o acesso a determinados tipos de dados ou alterar as políticas de publicidade de uma forma que possa prejudicar o desempenho de uma empresa com pouco ou nenhum aviso prévio. Ser dependente das práticas de outra empresa deixa a pessoa vulnerável. As empresas se sentem estagnadas porque já investiram muito tempo, dinheiro e recursos em sua estratégia de dados. Nesta perspectiva, o impulso para retomar o controlo dos dados parece essencial. Mas é prático?
Os primeiros resultados para empresas que apostam em dados próprios não atenderam às expectativas. Estamos vendo caso após caso de empresas de consumo que fizeram a mudança sofrendo.
Ainda assim, a atual dependência de dados próprios – e das práticas para extrair esses dados – é um ponto comum a várias empresas que hoje atravessam tempos mais difíceis. É perceptível o suficiente para fazer os próprios analistas, VCs e profissionais de marketing perguntarem se eles estavam errados ao priorizar dados próprios.
As desvantagens dos dados próprios, tal como são atualmente adquiridos e aproveitados, são muitas vezes consideradas como a subestimação do desaparecimento de IDs de dispositivos, alteração de endereços IP, adoção de e-mails falsos pelos consumidores e bloqueadores de anúncios. Embora seja verdade, estão em jogo questões muito mais significativas.
Primeiro, existe uma enorme lacuna de talentos. A Big Tech e as empresas de plataforma atraem os melhores. Eles têm mais a oferecer, tornando difícil para as empresas de consumo emergentes competir pelos cientistas de dados e pelos talentos de ML necessários para dar sentido às informações que estão sendo coletadas e analisadas. Sem pessoas verdadeiramente excepcionais, as empresas têm enfrentado dificuldades.
Há também um problema real de ferramentas. As ofertas disponíveis para as empresas não são nem de longe equivalentes às ferramentas que as grandes empresas de tecnologia possuem internamente (o que pode ser um fator na lacuna de talentos). As ferramentas fazem a diferença e a maioria das empresas simplesmente não consegue competir neste momento.
Finalmente, há um desafio de volume. A Big Tech e as redes de publicidade têm montanhas de dados, à medida que estas empresas agrupam e anonimizam centenas de milhares de milhões de pontos de dados para fazer com que os seus modelos funcionem de forma eficaz. Por outro lado, se uma empresa tiver apenas os seus dados para trabalhar, simplesmente não há dados suficientes para que o ML funcione conforme prometido.
Embora esses problemas pareçam sérios, será que é hora de desistir do potencial – e da necessidade – de dados próprios? Sem chance!
O maior problema que impede os dados próprios é como as empresas estão tentando acessá-los. Até este ponto, as empresas adotaram uma abordagem do Velho Mundo. Os modelos devem ser construídos do zero para extrair o valor dos dados que as empresas necessitam. Isto exige tempo, dinheiro e, acima de tudo, talento; depende de quão bons são seus engenheiros de ML e cientistas de dados. No entanto, conforme discutido acima, não há talento suficiente disponível para fazer esta abordagem funcionar melhor do que aproveitar dados de terceiros. A falta de talento cria o gargalo.
No entanto, isso não significa que precisamos desistir dos dados próprios. Só precisamos mudar a forma como abordamos isso. No Novo Mundo que é possível hoje, os vetores e as incorporações de vetores são a chave. Vetores são objetos matemáticos genéricos que podem representar características ou atributos de pontos de dados enquanto modelos incorporados analisam padrões em dados para gerar essas representações significativas e repletas de informações aprendidas a partir dos dados; eles capturam as relações semânticas. Incorporações vetoriais são o formato que pode codificar tudo o que você sabe sobre um usuário ou cliente e tornar essas informações acessíveis a um sistema analítico ou aproveitáveis para personalizar a experiência do usuário ou até mesmo para detectar fraudes. Existem tantas possibilidades. Os vetores estão preparados para impulsionar uma mudança radical porque podem potencializar a análise de uma maneira fundamentalmente diferente.
A geração aumentada de recuperação (RAG) está gerando muita agitação no momento por tudo que pode permitir, mas os embeddings de vetores são o que tornam o RAG útil. Eles são um componente central da estrutura que ajuda no contexto, nas respostas, na integração de recuperação e no ajuste fino de modelos. Gerar vetores de alta qualidade e consultá-los corretamente é uma tarefa crítica que permite que qualquer sistema RAG realmente funcione. Existem outras estruturas, mas o RAG é particularmente adequado para uma revolução de dados primários.
Parece bom. Vamos todos descobrir como usar vetores e incorporações de vetores. Esta não é a resposta total. As questões como conjuntos de dados e ferramentas limitados permanecem. Ainda não está tudo embrulhado num lindo laço, mas acredito que em breve estará. Porque modelos básicos pré-treinados e de código aberto, como o Llama 2 da Meta, que dará lugar ao Llama 3 mais robusto em julho, podem nivelar o campo de jogo. A questão de não ter volume de dados suficiente em comparação com a BigTech é atenuada. Ao usar um modelo de código aberto pré-treinado em conjuntos de dados grandes e diversos, esse modelo tem um certo nível de conhecimento e compreensão integrado. As empresas simplesmente precisam ajustar o Llama 2 (ou Llama 3) em seu domínio ou tarefa específica com seus dados. Isso alivia o gargalo porque, em muitos casos, você não precisa mais treinar um modelo do zero.
Isso pode parecer uma simplificação exagerada, visto que o Llama ajuda as empresas a lidar com texto, mas a maioria dos dados que as empresas utilizam não é texto. Os dados estruturados que as empresas operam precisam ser integrados a esse processo. Por exemplo, os eventos comportamentais do usuário que normalmente formam uma grande porcentagem de dados primários não são adequados para serem processados por qualquer LLM. Isto está a mudar, pelo que as empresas devem estar preparadas à medida que surgem novas soluções multimodais. Da mesma forma, ainda faltam ferramentas, mas há muita atenção ao espaço, então grandes avanços estão sendo dados. Está chegando!
Com os maiores problemas resolvidos fundamentalmente, o hype dos dados primários está de volta, querido! As empresas não precisam se preocupar com a violação da privacidade por terceiros, nem precisam depender da Big Tech para ajudá-las a conhecer seus clientes. Espere ver os dados próprios explodirem este ano, à medida que as empresas finalmente aproveitarem ao máximo – especialmente com o Llama 3 pronto. Apesar de todas as suas promessas, talvez o maior potencial do Llama 3 seja realmente resolver o problema de dados primários de uma vez por todas.