paint-brush
Você fala vetor? Compreendendo a linguagem dos LLMs e IA generativapor@datastax
1,665 leituras
1,665 leituras

Você fala vetor? Compreendendo a linguagem dos LLMs e IA generativa

por DataStax4m2023/07/24
Read on Terminal Reader

Muito longo; Para ler

Leia isto para obter uma compreensão mais clara de vetores, pesquisa de vetores e os tipos de bancos de dados que podem armazenar e consultar vetores.
featured image - Você fala vetor? Compreendendo a linguagem dos LLMs e IA generativa
DataStax HackerNoon profile picture

Gostamos de dizer que não existe inteligência artificial sem dados. Mas não pode ser qualquer tipo de dado. Pegue modelos de linguagem grandes, ou LLMs – modelos de aprendizado profundo, como o GPT-4 da OpenAI, que pode gerar texto bastante semelhante ao que um humano escreveria.


Para que os LLMs “entendam” as palavras, elas precisam ser armazenadas como “vetores” de texto – uma forma de capturar os significados das palavras e os padrões de uso com números. Os vetores são, pode-se dizer, a língua franca da IA.


Os vetores já existem há algum tempo, mas com a popularidade e acessibilidade da interface de IA generativa ChatGPT, eles se tornaram um tópico importante, principalmente porque os aplicativos mais populares que as organizações criarão com essas tecnologias aproveitarão seus próprios dados privados para LLMs compondo seus próprios vetores.


Mas como eles funcionam, como são armazenados, como os aplicativos os procuram e como eles ajudam a tornar a IA possível? Vamos nos aprofundar em vetores, pesquisa de vetores e nos tipos de bancos de dados que podem armazenar e consultar vetores.

vetores

Um vetor refere-se a uma representação numérica dos atributos de um dado. Cada ponto de dados é representado como um vetor com vários valores numéricos, onde cada valor corresponde a uma característica ou atributo específico dos dados.


Quando você transforma dados como uma imagem ou texto em uma representação vetorial, isso é conhecido como “incorporação”.


A escolha de incorporações de imagens para pesquisa vetorial, por exemplo, depende de vários fatores, como o caso de uso específico, os recursos disponíveis e as características do conjunto de dados da imagem.


Em aplicativos de comércio eletrônico ou de pesquisa de imagens de produtos, pode ser benéfico usar incorporações especificamente treinadas em imagens de produtos; a chamada recuperação de instância, por outro lado, envolve a busca de instâncias de objetos dentro de uma cena ou imagens maiores.


O armazenamento de dados como representações vetoriais permite que você execute várias operações e cálculos nos dados, principalmente a pesquisa. Selecionar os atributos do vetor é importante para os tipos de perguntas que você gostaria de fazer mais tarde.


Por exemplo, se você armazenar apenas informações sobre as cores em uma imagem com plantas, não poderá perguntar sobre os requisitos de cuidado. Você só conseguirá encontrar plantas visualmente semelhantes.

Pesquisa de vetores

Ao representar dados como vetores, você pode aproveitar as técnicas matemáticas para pesquisar e comparar com eficiência grandes conjuntos de dados sem ter uma correspondência exata.


Milhões de perfis de clientes, ou imagens, ou artigos que são representados como vetores – uma lista de números que capturam as principais características de cada item – podem ser vasculhados muito rapidamente com a pesquisa de similaridade vetorial (ou “pesquisa de vizinho mais próximo”).


Ao contrário da pesquisa tradicional baseada em palavras-chave, que corresponde a documentos com base na ocorrência de termos específicos, a pesquisa vetorial se concentra na similaridade das consultas; por exemplo, seus significados semânticos são semelhantes?


Esse recurso permite localizar itens semelhantes com base em suas representações vetoriais. Algoritmos de busca por similaridade podem medir a “distância” ou similaridade entre vetores para determinar quão próximos eles estão.


Em sistemas de recomendação, a busca vetorial pode ser usada para encontrar os itens ou usuários mais semelhantes e diferentes com base em suas preferências. No processamento de imagens, permite tarefas como reconhecimento de objetos e recuperação de imagens.


Por exemplo, o Google, o maior mecanismo de pesquisa do mundo, depende da pesquisa vetorial para alimentar o back-end da Pesquisa de imagens do Google, YouTube e outros serviços de recuperação de informações. (Saiba mais sobre pesquisa de vetores aqui .)

Vetores e Bancos de Dados

Existem tecnologias de pesquisa de vetor independentes, incluindo o Elasticsearch. Mas os vetores precisam ser armazenados e recuperados de bancos de dados escaláveis e rápidos para fornecer a capacidade de resposta e a escala exigidas pelos aplicativos de IA.


Há um punhado de bancos de dados hoje que oferecem pesquisa vetorial como um recurso.


A principal vantagem de um banco de dados que permite a busca vetorial é a rapidez. Os bancos de dados tradicionais precisam comparar uma consulta a cada item no banco de dados.


Por outro lado, a pesquisa vetorial integrada permite uma forma de indexação e inclui algoritmos de pesquisa que aceleram enormemente o processo, tornando possível pesquisar grandes quantidades de dados em uma fração do tempo que levaria em um banco de dados padrão.


Em um contexto de negócios, isso é extremamente valioso ao usar aplicativos de IA para recomendar produtos semelhantes a compras anteriores ou identificar transações fraudulentas que se assemelham a padrões conhecidos ou anomalias que parecem diferentes da norma.


Um exemplo de banco de dados que oferece pesquisa vetorial é o DataStax's Astra DB , que é construído no Apache Cassandra altamente escalável, de alto rendimento e de código aberto. Cassandra já foi comprovada em escala para potencializar a IA por empresas como Netflix, Uber e Apple para aplicativos de IA.


A adição de pesquisa vetorial torna o Astra DB um balcão único para operações de banco de dados de alta escala.


A integração da pesquisa vetorial com um armazenamento de dados escalável como o Astra DB permite cálculos e classificação diretamente no banco de dados, eliminando a necessidade de transferir grandes quantidades de dados para sistemas externos.


Isso reduz a latência e melhora o desempenho geral da consulta. A pesquisa vetorial pode ser combinada com outros índices no Astra DB para consultas ainda mais poderosas. (Saiba mais sobre bancos de dados vetoriais aqui .)

A crescente importância da pesquisa de vetores

Os vetores e os bancos de dados que os armazenam desempenham um papel importante ao permitir pesquisas eficientes, cálculos de similaridade e exploração de dados no campo da IA.


À medida que as organizações dimensionam seus esforços de IA generativa e procuram personalizar a experiência do usuário final com seus dados, as representações vetoriais e a capacidade de trabalhar com bancos de dados escaláveis e rápidos habilitados para pesquisa vetorial se tornarão cada vez mais críticas.


Por Dra. Charna Parkey, DataStax