Grandes modelos de linguagem não apenas ficam errados - eles apresentam erros como fatos. Mesmo com novos lançamentos, o problema não desapareceu. coloca a taxa de erro baseada do GPT-5 em 1,4% - menor do que o 1,8% do GPT-4 e apenas 0,09% melhor do que o 1,49% do GPT-4o. LLM Hallucinação Leaderboard Uma pequena melhora, mas o problema permanece. O público já viu o quão ruim isso pode ser. Em meados de 2024, as Revisões de IA do Google disseram às pessoas para comer rochas por minerais - o Google mais tarde reconheceu o problema. No início de 2023, a demonstração Bard do Google confundiu um fato do Telescópio Espacial James Webb. Adicione a dica de "guia em pizza" e o caso de 2023 Avianca, onde dois advogados foram sancionados depois de citar seis casos feitos do ChatGPT. Estes podem parecer manchetes engraçados, mas é diferente quando as pessoas realmente dependem dessas ferramentas. pequenos erros são apenas irritantes, mas em áreas como saúde, direito ou terapia, eles podem ser perigosos. What causes hallucinations in LLMs O que causa alucinações em LLMs LLMs, incluindo ChatGPT, são treinados para prever a próxima palavra em uma sequência, não para verificar fatos. Eles não têm um banco de dados embutido de verdades garantidas; em vez disso, eles geram texto sintetizando padrões de dados de treinamento. Os dados de treinamento vieram de raspadinhas gigantes da web - blogs, fóruns, wikis.Hoje, muita da web é escrita por IA, então os modelos começam a aprender a partir de suas próprias saídas. No more free data Não há mais dados gratuitos Em meados de 2023, as plataformas de conteúdo gerado pelo usuário (UGC) começaram a bloquear o acesso. o Reddit limitou sua API gratuita; os subreddits ficaram escuros. o Twitter/X encerrou o acesso à API gratuita. o LinkedIn reprimiu o rascunho em massa. o Stack Overflow disse que cobraria por acesso de treinamento a seu Q&A. O Quora mudou mais conteúdo para o seu aplicativo Poe. o Meta apertou os limites de taxa e avisos legais no Facebook e no Instagram. As grandes empresas de IA mudaram-se para licenciamento pago, e os modelos públicos foram deixados com dados web mais antigos e confusos - tornando mais provável que eles treinassem em seu próprio texto escrito por IA. Paying for access Pagando pelo acesso OpenAI assinou um acordo com a Associated Press em 2023, seguido por acordos de vários anos com Axel Springer e News Corp. Até 2025, mais de vinte editores - incluindo The Guardian e The Washington Post - haviam se juntado.Alguns acordos dão aos modelos de IA acesso a arquivos, outros cobrem links e atribuição dentro dos produtos.O Google também assinou com a AP no início de 2025, enquanto a Microsoft ligou o Copilot à Westlaw da Thomson Reuters para pesquisas legais (para usuários, não para treinamento). O próprio mercado de dados de treinamento de IA é avaliado em cerca de US $ 3,2 bilhões em 2024 e espera-se que cresça para US $ 16,3 bilhões em 2034. Where the clean data lives Onde os dados limpos vivem Os dados licenciados e limpos estão formando reservatórios específicos do setor: Notícias e publicação (2023-25): AP, Axel Springer, News Corp, Dotdash Meredith; mais The Guardian, The Washington Post, Vox Media, e The Atlantic (mistura de acesso a arquivos e ligação / atribuição dentro do produto). Acadêmico e cultural (2024-25): livros de domínio público de Harvard; trabalho do MIT sobre a proveniência de dados; repositórios abertos como arXiv e Semantic Scholar. Medicina e confiabilidade (2025): repositórios de pesquisa como ScaleMAI (imagem médica curada) e DR-AIR (conjuntos de dados de confiabilidade de IA); os resumos do PubMed estão abertos, enquanto muitos textos completos permanecem restritos. Comércio e empresa (2023-25): BloombergGPT treinado em dados financeiros proprietários; conteúdo da Thomson Reuters disponível através de integrações; fornecedores de grandes dados / anotações (Appen, Scale AI); além de sensores / telemetria industrial usada dentro das empresas. Especializada (2025): grandes investimentos para garantir dados e infraestruturas de treinamento licenciados (por exemplo, Meta-Scale AI); certificação “Fairly Trained” para treinamento baseado em consentimento. O New York Times processou a OpenAI e a Microsoft em dezembro de 2023, deixando claro que não licenciaria seus arquivos. O Financial Times assinou um acordo com a OpenAI em abril de 2024. Elsevier e Wiley mantêm arquivos científicos fechados. Paid, specialised data is next Pago, dados especializados é o próximo Nós provavelmente estamos indo para uma divisão: a web aberta é boa para tarefas simples como pesquisas rápidas, redação de texto ou responder a perguntas cotidianas; pesquisas sérias, análises e construções de IA mudam para reservatórios limpos de dados - testados, filtrados, verificados - muitas vezes atrás de assinaturas. Essa configuração precisa de acesso baseado em papéis - HR vê RH, finanças vê finanças, jurídico vê legal. acesso baseado em papéis significa que o modelo só tira do que a pessoa está limpa para ver. Isso mantém os dados privados fora de respostas e reduz o risco de o modelo puxar "fatos" do pool errado. A maioria dos chatbots não faz isso hoje.Se essa lacuna permanecer, as equipes que criam pesquisas conscientes de papéis e bases de conhecimento bloqueadas ganharão confiança - e os contratos. What to do with only public AI access O que fazer com apenas acesso público à IA A engenharia de prompt é muitas vezes a primeira linha de defesa contra respostas feitas - é barata e imediata. Se a prompt for incerta, a resposta será incerta. Os profissionais da indústria enfatizam o mesmo ponto: sem contexto suficiente, a saída provavelmente será pobre e o modelo é mais propenso a alucinar. Regras claras e fontes limpas mantêm as respostas no caminho. As melhores práticas incluem: Inclua: seja cauteloso; se não tiver certeza, diga “desconhecido”; use apenas as fontes abaixo; não invente citações. Se a navegação estiver desativada, colar as passagens-chave sozinho e marcá-las com delimitadores claros (por exemplo, <data>...</data>), em seguida, instruir o modelo a responder apenas a partir desse texto. Estado objetivo, público, duração e qualquer janela de tempo (por exemplo, preferir fontes dos últimos 12 meses para tópicos sensíveis ao tempo). Proibir reivindicações adicionais.Proibir declarações não suportadas pelo material fornecido. Requer recibos (seguro).Depois de reivindicações, requer citações inline apenas das fontes fornecidas com data de publicação e uma breve citação de apoio (≤25 palavras). Escolha o modo correto. escolha preciso / analítico sobre criativo; temperatura mais baixa / top-p onde possível. Comece com um esboço ou um esboço curto; refinar com seguimentos focados. Verifique nomes, números, datas, citações; exclua qualquer linha sem uma fonte real. As reivindicações de saúde, legais ou monetárias devem ser confirmadas em um site oficial ou uma segunda fonte confiável antes de agir. Transformar prompts efetivos em modelos reutilizáveis; ajustar quando aparecerem erros repetitivos. Mantenha um pequeno conjunto de links confiáveis / extratos de texto prontos para ancorar respostas. The bottom line A linha de fundo Até 2025, a divisão é clara: Public AI: Rápido, acessível, treinado em ampla Internet scrapes. bom para uso casual, não confiável para conformidade. Enterprise AI: pago, curado e auditado. Construído em reservatórios licenciados, combinado com governança e logs. Ambos continuarão.A diferença é que um prioriza a velocidade, o outro a responsabilidade.Saber qual pista você está usando importa. Glue em molho de pizza faz um título engraçado quando se trata de uma pesquisa de consumidores. Em um gráfico de hospital ou um arquivo de tribunal, é catastrófico.É por isso que reservatórios e guardas curados estão se tornando as bases da IA séria.