paint-brush
Compreendendo a pesquisa de IAby@algolia
4,553
4,553

Compreendendo a pesquisa de IA

Algolia5m2023/04/23
Read on Terminal Reader

Algolia explica como a pesquisa e a IA funcionam. O Bing adicionou o ChatGPT, que usa modelos de linguagem grandes (LLMs). O Google anunciou recentemente novos recursos de pesquisa de imagens e seu próprio serviço LLM. Na Algolia, também estamos prestes a apresentar nossa própria tecnologia baseada em IA que usa hashing neural para dimensionar a pesquisa inteligente para qualquer aplicativo.
featured image - Compreendendo a pesquisa de IA
Algolia HackerNoon profile picture


Pode ser confuso ouvir as empresas de pesquisa explicando como a pesquisa e a IA funcionam. O Bing adicionou o ChatGPT, que usa modelos de linguagem grandes (LLMs), mas mesmo antes disso eles tinham recursos de aprendizado profundo. O Google anunciou recentemente novos recursos de pesquisa de imagens e seu próprio serviço LLM. Na Algolia, também estamos prestes a apresentar nossa própria tecnologia baseada em IA que usa hashing neural para dimensionar a pesquisa inteligente para qualquer aplicativo. Todos esses termos podem ser confusos.


Vamos corrigir isso desmembrando as tecnologias envolvidas na pesquisa.

Vamos começar do começo… o que é pesquisa por palavra-chave?

Os mecanismos de pesquisa de palavras-chave existem há décadas. O projeto Apache Lucene é um dos mecanismos de pesquisa de código aberto mais conhecidos que oferece funcionalidade de pesquisa por palavra-chave. Esse tipo de mecanismo de pesquisa usa técnicas estatísticas para corresponder consultas a itens no índice. Eles funcionam como o índice na parte de trás de um livro, apontando para todos os lugares no livro onde as informações estão localizadas. As tecnologias de processamento de consultas, como tolerância a erros de digitação, segmentação de palavras e lematização, também são usadas para ajudar os mecanismos de pesquisa a digerir e entender a ortografia e a compreensão da consulta.


A pesquisa de palavras-chave tende a ser muito rápida e funciona bem para correspondências exatas de palavras-chave de consulta. No entanto, eles geralmente lutam com consultas de cauda longa, pesquisas de conceito, pesquisas de estilo de pergunta, sinônimos e outras frases em que a consulta não corresponde exatamente ao conteúdo do índice. Por esse motivo, muitas empresas adicionaram recursos adicionais, como a geração de sinônimos de IA para ajudar.

O que é Pesquisa Semântica?

A pesquisa semântica envolve entender o significado de palavras e frases em uma consulta de pesquisa e retornar resultados semanticamente relacionados à consulta. Os mecanismos de pesquisa semântica usam técnicas de processamento de linguagem natural (NLP) para entender o significado de palavras e frases e encontrar conceitos, sinônimos e outras informações relacionadas que possam ser relevantes para a consulta de pesquisa.

Como isso é diferente da pesquisa de IA? A pesquisa semântica e a pesquisa de IA são a mesma coisa?

Pesquisa de IA é um termo geral e mais amplo que inclui pesquisa semântica, bem como outras técnicas de aprendizado de máquina para fornecer resultados de pesquisa. A pesquisa de IA normalmente envolve várias etapas, incluindo processamento de consulta, recuperação e classificação.


  • Processamento de consulta : esta etapa envolve a análise da consulta do usuário para entender sua intenção, escopo e restrições. O processamento da consulta pode incluir tarefas como analisar a consulta em suas partes constituintes, compreensão semântica de palavras-chave e frases, normalizar a consulta para um formato padrão e muito mais.


  • Recuperação : Depois que a consulta é processada, o sistema recupera um conjunto de documentos ou itens de dados que correspondem aos critérios da consulta. A pesquisa de IA normalmente usa algoritmos de aprendizado de máquina para determinar a similaridade e medir a relação entre os termos para fornecer resultados relevantes.


  • Classificação : Após a recuperação dos documentos ou itens de dados, o sistema os classifica com base em sua relevância e importância para a consulta do usuário. Modelos de aprender a classificar, como aprendizado por reforço, são usados para otimizar continuamente os resultados.

A IA do mecanismo de pesquisa é diferente da IA generativa?

O ChatGPT da OpenAI, o Bard, o Midjourney do Google e outras tecnologias semelhantes de IA são chamadas de IA generativa . Essas soluções de uso geral tentam prever os resultados com base na entrada e, na verdade, geram uma nova resposta. Eles usam texto pré-existente e conteúdo visual para gerar algo novo.


Por outro lado, os mecanismos de pesquisa podem usar IA para melhorar os resultados da pesquisa. Assim como a IA generativa, a IA de pesquisa pode ser usada para entender entradas de linguagem natural. Ao contrário da IA generativa, os mecanismos de pesquisa não estão criando nenhum conteúdo novo e inovador. Ambas as tecnologias podem ser usadas juntas ou independentemente. As tecnologias generativas de IA podem ser usadas para ajudar na produção criativa, e a pesquisa é usada para filtrar e classificar os resultados da ordem. Alguém à procura de novas ideias de moda pode perguntar a um bot de bate-papo quais são as últimas tendências, obter resultados e, em seguida, usar a pesquisa para encontrar resultados. Ou você pode usar a pesquisa para encontrar produtos e, em seguida, pedir ao chat para explicar os prós e os contras de cada resultado.


Tanto a IA de bate-papo generativa quanto a IA de pesquisa geralmente fornecem uma melhor experiência do usuário por meio da compreensão da linguagem natural.

A pesquisa de IA também usa LLMs?

Os modelos de linguagem grande (LLMs) já existem há algum tempo, mas o GPT os colocou no centro das atenções. LLMs são modelos de inteligência artificial treinados para processar e gerar texto em linguagem natural. Esses modelos são normalmente construídos usando técnicas de aprendizado profundo e requerem grandes quantidades de dados e recursos computacionais para treinamento. Na Algolia, também usamos LLMs, mas para ajudar no entendimento da máquina. Usamos LLMs para criar vetores que podemos usar para comparar consultas com resultados.

O que é Pesquisa Vetorial?

A vetorização é o processo de conversão de palavras em vetores (números) que permite que seu significado seja codificado e processado matematicamente. Você pode pensar em vetores como grupos de números que representam algo. Na prática, os vetores são usados para automatizar sinônimos, agrupar documentos, detectar significados e intenções específicos em consultas e classificar resultados. As incorporações são muito versáteis e outros objetos - como documentos inteiros, imagens, vídeo, áudio e muito mais - também podem ser incorporados.


A pesquisa vetorial é uma maneira de usar a incorporação de palavras (ou imagens, vídeos, documentos etc.)


Imagem mostrando as dimensões do espaço vetorial. A similaridade geralmente é medida usando a distância euclidiana ou similaridade de cosseno.


Existem muitos algoritmos de vizinho mais próximo aproximado (ANN) diferentes para calcular a similaridade de vetores. Técnicas como HNSW (Hierarchical Navigable Small World), IVF (Inverted File) ou PQ (Product Quantization, uma técnica para reduzir o número de dimensões de um vetor) são alguns dos métodos ANN mais populares para encontrar similaridade entre vetores. Cada técnica se concentra em melhorar uma determinada propriedade de desempenho, como redução de memória com PQ ou tempos de pesquisa rápidos, mas precisos, com HNSW e IVF. É uma prática comum misturar vários componentes para produzir um índice 'composto' para obter o desempenho ideal para um determinado caso de uso.


Um dos desafios para trabalhar com vetores é o seu tamanho. Eles tendem a ser strings muito grandes que requerem bancos de dados especializados e gerenciamento de GPU. O hashing neural é um novo processo que usa redes neurais para compactar vetores para que possam ser processados até 500 vezes mais rápido do que cálculos vetoriais padrão e executados em hardware comum.

Palavras-chave + Vetores… O que é Pesquisa Híbrida?

A pesquisa híbrida é a combinação da pesquisa vetorial com a pesquisa por palavra-chave. A pesquisa vetorial é ótima para pesquisas difusas ou amplas, mas a pesquisa por palavra-chave ainda é a melhor opção para consultas precisas. Por exemplo, quando você consulta “Adidas” em um mecanismo de palavra-chave, por padrão, você verá apenas a marca Adidas. O comportamento padrão em um mecanismo vetorial é retornar resultados semelhantes — Nike, Puma, Adidas, etc., porque estão todos no mesmo espaço conceitual. A pesquisa por palavra-chave ainda fornece melhores resultados para consultas curtas com intenção específica.


A pesquisa híbrida oferece o melhor de ambas as palavras, fornecendo velocidade e precisão para correspondências exatas e frases simples, enquanto os vetores melhoram as consultas de cauda longa e abrem as portas para novas soluções de pesquisa. Na Algolia, nossa solução híbrida de IA — Algolia NeuralSearch — será lançada em breve. Saiba mais .


Publicado também aqui .