paint-brush
As alucinações de IA podem ser interrompidas? Uma olhada em três maneiras de fazer issoby@datastax
2,966
2,966

As alucinações de IA podem ser interrompidas? Uma olhada em três maneiras de fazer isso

DataStax6m2023/10/19
Read on Terminal Reader

Um exame de três métodos para impedir que LLMs tenham alucinações: geração aumentada de recuperação (RAG), raciocínio e consulta iterativa.
featured image - As alucinações de IA podem ser interrompidas? Uma olhada em três maneiras de fazer isso
DataStax HackerNoon profile picture


Grandes modelos de linguagem tornaram-se extremamente poderosos hoje; eles podem ajudar a fornecer respostas para algumas de nossas perguntas mais difíceis. Mas também podem nos desencaminhar: tendem a ter alucinações, o que significa que dão respostas que parecem certas, mas não são.


LLMs têm alucinações quando encontram consultas que não fazem parte de seu conjunto de dados de treinamento – ou quando seu conjunto de dados de treinamento contém informações erradas (isso pode acontecer quando LLMs são treinados em dados da Internet, que, como todos sabemos, nem sempre são confiáveis ). LLMs também não têm memória. Finalmente, o “ajuste fino” é frequentemente considerado uma forma de reduzir as alucinações através do retreinamento de um modelo com novos dados – mas tem as suas desvantagens.


Aqui, veremos três métodos para impedir que LLMs tenham alucinações: geração aumentada de recuperação (RAG), raciocínio e consulta iterativa.

Geração aumentada de recuperação

Com pano , uma consulta chega à base de conhecimento (que, neste caso, é um banco de dados vetorial ) como um vetor semântico – uma sequência de números. O modelo então recupera documentos semelhantes do banco de dados usando pesquisa vetorial , procurando documentos cujos vetores sejam próximos ao vetor da consulta.


Uma vez recuperados os documentos relevantes, a consulta, juntamente com esses documentos, é usada pelo LLM para resumir uma resposta para o usuário. Dessa forma, o modelo não precisa depender apenas de seu conhecimento interno, mas pode acessar quaisquer dados que você fornecer no momento certo. De certa forma, fornece ao LLM uma “memória de longo prazo” que ele não possui por si só. O modelo pode fornecer respostas mais precisas e contextualmente apropriadas ao incluir dados proprietários armazenados no banco de dados vetorial.


Geração de consulta de conhecimento


Uma abordagem RAG alternativa incorpora a verificação de fatos. O LLM é solicitado a fornecer uma resposta, que é então verificada e revisada em relação aos dados do banco de dados vetorial. Uma resposta à consulta é produzida a partir do banco de dados vetorial e, em seguida, o LLM, por sua vez, usa essa resposta como um prompt para discernir se ela está relacionada a um fato.


Incorporando verificação de fatos

Raciocínio

LLMs são muito bons em muitas coisas. Eles podem prever a próxima palavra de uma frase, graças aos avanços nos “transformadores”, que transformam a forma como as máquinas entendem a linguagem humana, prestando vários graus de atenção a diferentes partes dos dados de entrada. LLMs também são bons para resumir muitas informações em uma resposta muito concisa e encontrar e extrair algo que você procura de uma grande quantidade de texto. Surpreendentemente, o LLMS também pode planejar – eles podem literalmente coletar dados e planejar uma viagem para você.


E talvez ainda mais surpreendente, os LLMs podem usar o raciocínio para produzir uma resposta, de uma forma quase humana. Como as pessoas podem raciocinar, elas não precisam de toneladas de dados para fazer previsões ou tomar decisões. O raciocínio também ajuda os LLMs a evitar alucinações. Um exemplo disso é “ estímulo de cadeia de pensamento .”


Este método ajuda os modelos a dividir problemas de múltiplas etapas em etapas intermediárias. Com a solicitação de cadeia de pensamento, os LLMs podem resolver problemas de raciocínio complexos que os métodos de solicitação padrão não conseguem (para uma análise aprofundada, confira a postagem do blog Modelos de linguagem realizam raciocínio por meio de cadeia de pensamento do Google).


Se você der a um LLM um problema matemático complicado, ele pode errar. Mas se você fornecer ao LLM o problema, bem como o método para resolvê-lo, ele poderá produzir uma resposta precisa – e compartilhar a razão por trás da resposta. Um banco de dados vetorial é uma parte fundamental deste método, pois fornece exemplos de perguntas semelhantes a esta e preenche o prompt com o exemplo.


Melhor ainda, depois de ter a pergunta e a resposta, você pode armazená-las novamente no banco de dados vetorial para melhorar ainda mais a precisão e a utilidade de seus aplicativos generativos de IA.


Armazenando resposta no banco de dados vetorial


Há uma série de outros avanços de raciocínio que você pode aprender, incluindo árvore do pensamento , menos para a maioria , autoconsistência , e ajuste de instrução .

Consulta iterativa

O terceiro método para ajudar a reduzir as alucinações do LLM é a consulta interativa. Nesse caso, um agente de IA medeia chamadas que vão e voltam entre um LLM e um banco de dados vetorial. Isso pode acontecer várias vezes de forma iterativa, para chegar à melhor resposta. Um exemplo desta geração de recuperação ativa voltada para o futuro, também conhecida como FLARE.


Você responde a uma pergunta e consulta sua base de conhecimento para obter mais perguntas semelhantes. Você receberia uma série de perguntas semelhantes. Em seguida, você consulta o banco de dados vetorial com todas as perguntas, resume a resposta e verifica se a resposta parece boa e razoável. Caso contrário, repita as etapas até que isso aconteça.


Geração de recuperação ativa direta


Outros métodos avançados de consulta interativa incluem AutoGPT , Microsoft Jarvis , e Solicitação de desempenho solo .


Existem muitas ferramentas que podem ajudá-lo na orquestração de agentes. LangChain é um ótimo exemplo que ajuda a orquestrar chamadas entre um LLM e um banco de dados vetorial. Essencialmente, ele automatiza a maioria das tarefas de gerenciamento e interações com LLMs e fornece suporte para memória, pesquisa de similaridade baseada em vetores, abstração avançada de modelos de prompt e uma variedade de outros recursos. Também ajuda e oferece suporte a técnicas avançadas de prompts, como cadeia de pensamento e FLARE.


Outra ferramenta desse tipo é CassIO , que foi desenvolvido pela DataStax como uma abstração sobre nosso banco de dados vetorial Astra DB, com a ideia de tornar os dados e a memória cidadãos de primeira classe em IA generativa . CassIO é uma biblioteca Python que torna perfeita a integração do Cassandra com inteligência artificial generativa e outras cargas de trabalho de aprendizado de máquina, abstraindo o processo de acesso ao banco de dados, incluindo seu pesquisa vetorial recursos e oferecendo um conjunto de ferramentas prontas para uso que minimizam a necessidade de código adicional.

Juntando tudo: SkyPoint AI

SkyPoint IA é um provedor de SaaS especializado em dados, análises e serviços de IA para o setor de assistência a idosos e residências. A empresa aproveita a IA generativa para permitir interações naturais e intuitivas entre idosos, cuidadores e sistemas de software. Ao simplificar aplicações complexas e agilizar a experiência do usuário, SkyPoint AI capacita idosos e cuidadores para acessar informações e insights sem esforço, o que ajuda a melhorar o atendimento.


A empresa utiliza uma ampla variedade de dados estruturados e não estruturados para fornecer respostas geradas por IA a perguntas como “Quantos residentes estão atualmente no Medicare?” O CEO da SkyPoint, Tisson Mathew, me contou recentemente. Isto ajuda os prestadores de cuidados de saúde a tomar decisões informadas rapidamente, com base em dados precisos, disse ele.


Chegar a esse ponto, no entanto, foi um processo, disse Mathew. Sua equipe começou pegando um LLM padrão e ajustando-o com dados do SkyPoint. “Ele teve resultados desastrosos – até palavras aleatórias”, disse ele. Compreender e criar prompts era algo que o SkyPoint conseguia lidar, mas precisava de uma pilha de tecnologia de IA para gerar respostas precisas em grande escala.


A SkyPoint acabou construindo um sistema que ingeria dados estruturados de operadoras e provedores, incluindo registros eletrônicos de saúde e dados de folha de pagamento, por exemplo. Isto é armazenado em um banco de dados colunar; RAG é usado para consultá-lo. Dados não estruturados, como políticas e procedimentos e regulamentações estaduais, são armazenados em um banco de dados vetorial: Banco de dados DataStax Astra .


Tisson fez uma pergunta como exemplo: E se um residente se tornar abusivo? O Astra DB fornece uma resposta que é montada com base nas regulamentações estaduais e no contexto dos usuários e em uma variedade de diferentes documentos e incorporações de vetores , em linguagem natural que seja fácil de entender para um funcionário de uma instituição de cuidados a idosos,


“Essas são respostas específicas que precisam estar certas”, disse Tisson. “Essas são informações nas quais uma organização se baseia para tomar decisões informadas para sua comunidade e seus negócios.”

Conclusão

SkyPoint AI ilustra a importância de mitigar o risco de alucinações de IA; as consequências poderiam ser potencialmente terríveis sem os métodos e ferramentas disponíveis para garantir respostas precisas.


Com o RAG, o raciocínio e as abordagens de consulta iterativa, como o FLARE, a IA generativa – especialmente quando alimentada por dados proprietários – está a tornar-se uma ferramenta cada vez mais poderosa para ajudar as empresas a servir os seus clientes de forma eficiente e eficaz.


Por Alan Ho, DataStax

Saiba mais sobre como o DataStax ajuda você crie aplicativos de IA generativos e em tempo real .


Também publicado aqui .