paint-brush
Erros do novo Bing da Microsoft: modelos generativos do tipo ChatGPT podem garantir precisão factual?por@chiayewken
1,119 leituras
1,119 leituras

Erros do novo Bing da Microsoft: modelos generativos do tipo ChatGPT podem garantir precisão factual?

por Chia Yew Ken12m2023/02/21
Read on Terminal Reader

Muito longo; Para ler

A Microsoft lançou o novo mecanismo de busca Bing alimentado por IA, alegando que irá revolucionar o escopo dos mecanismos de busca tradicionais. A nova onda de mecanismos de pesquisa baseados em conversação tem o potencial de responder naturalmente a perguntas complexas, resumir os resultados da pesquisa e até mesmo servir como uma ferramenta criativa. Neste artigo, descobrimos vários erros factuais no novo Bing da Microsoft (https://www.bing.com/new) 9 e no Bard do Google.
featured image - Erros do novo Bing da Microsoft: modelos generativos do tipo ChatGPT podem garantir precisão factual?
Chia Yew Ken HackerNoon profile picture
0-item

Autores: Yew Ken Chia, Ruochen Zhao, Xingxuan Li, Bosheng Ding, Lidong Bing


Recentemente, modelos de IA de conversação, como o ChatGPT da OpenAI [1], capturaram a imaginação do público com a capacidade de gerar conteúdo escrito de alta qualidade, manter conversas semelhantes às humanas, responder a perguntas factuais e muito mais.


Armados com esse potencial, a Microsoft e o Google anunciaram novos serviços [2] que os combinam com os mecanismos de busca tradicionais.


A nova onda de mecanismos de pesquisa baseados em conversação tem o potencial de responder perguntas complexas naturalmente, resumir os resultados da pesquisa e até mesmo servir como uma ferramenta criativa.


No entanto, ao fazer isso, as empresas de tecnologia agora enfrentam um desafio ético maior para garantir que seus modelos não engane os usuários com respostas falsas, infundadas ou conflitantes. Portanto, surge naturalmente a pergunta: os modelos do tipo ChatGPT podem garantir precisão factual?


Neste artigo, descobrimos vários erros factuais no novo Bing da Microsoft [9] e no Bard do Google [3] que sugerem que atualmente eles não podem.


Infelizmente, falsas expectativas podem levar a resultados desastrosos. Mais ou menos na mesma época do anúncio do novo Bing da Microsoft, o Google anunciou apressadamente um novo serviço de IA conversacional chamado Bard.


Apesar do hype, as expectativas foram rapidamente destruídas quando Bard cometeu um erro factual no vídeo promocional [14], eventualmente derrubando o preço das ações do Google [4] em quase 8% e limpando $ 100 bilhões de seu valor de mercado.


Por outro lado, tem havido menos escrutínio em relação ao novo Bing da Microsoft. No vídeo de demonstração [8], descobrimos que o novo Bing recomendou um cantor de rock como um grande poeta, forjou datas de nascimento e falecimento e até fez um resumo completo dos relatórios fiscais.


Apesar das isenções [9] de que as respostas do novo Bing podem nem sempre ser factuais, sentimentos excessivamente otimistas podem inevitavelmente levar à desilusão.


Portanto, nosso objetivo é chamar a atenção para os desafios factuais enfrentados pelos mecanismos de pesquisa movidos a conversação, para que possamos abordá-los melhor no futuro.

Que erros factuais o novo Bing da Microsoft demonstrou?

A Microsoft lançou o novo mecanismo de busca Bing alimentado por IA, alegando que revolucionará o escopo dos mecanismos de pesquisa tradicionais. É este realmente o caso? Nós nos aprofundamos no vídeo de demonstração [8] e nos exemplos [9] e encontramos três tipos principais de questões factuais:


  • Alegações que entram em conflito com as fontes de referência.


  • Declarações que não existem nas fontes de referência.


  • Declarações que não têm uma fonte de referência e são inconsistentes com várias fontes da Web.


Números fabricados em relatórios financeiros: cuidado ao confiar no novo Bing!


Para nossa surpresa, o novo Bing fabricou um resumo completo do relatório financeiro na demonstração!


Quando o executivo da Microsoft, Yusuf Mehdi, mostrou ao público como usar o comando “principais conclusões da página” para gerar automaticamente um resumo do relatório fiscal do terceiro trimestre de 2022 da Gap Inc. [10a], ele recebeu os seguintes resultados


Figura 1. Resumo do relatório fiscal da Gap Inc. pelo novo Bing no Press Release.

No entanto, após um exame mais detalhado, todos os números-chave no resumo gerado são imprecisos. Mostraremos trechos do relatório financeiro original abaixo como referências de validação.


De acordo com o novo Bing, a margem operacional após o ajuste foi de 5,9%, enquanto na verdade era de 3,9% no relatório da fonte.


Figura 2. Trecho do relatório fiscal da Gap Inc. sobre margens operacionais.


Da mesma forma, o lucro por ação diluído ajustado foi gerado em $ 0,42, enquanto deveria ser $ 0,71.


Figura 3. Trecho do relatório fiscal da Gap Inc. sobre o lucro diluído por ação.


Com relação às vendas líquidas, o novo resumo do Bing afirmava “crescimento na casa dos dois dígitos”, enquanto o relatório original afirmava que “as vendas líquidas poderiam cair na casa dos dois dígitos”.


Figura 4: Relatório Fiscal da Gap Inc. sobre as perspectivas de 2022.


Além dos números gerados que conflitam com os números reais do relatório da fonte, observamos que o novo Bing também pode produzir fatos alucinados que não existem na fonte.


No novo resumo gerado pelo Bing, a “margem operacional de cerca de 7% e o lucro diluído por ação de US$ 1,60 a US$ 1,75” não foram encontrados no relatório de origem.


Infelizmente, a situação piorou quando o novo Bing foi instruído a “comparar isso com o Lululemon em uma tabela”. A tabela de comparação financeira gerada pelo novo Bing continha inúmeros erros:


Figura 5: A tabela de comparação gerada pelo novo Bing no press release.


Esta tabela, na verdade, está meio errada. De todos os números, 3 de 6 números estão errados na coluna da Gap Inc., e o mesmo para Lululemon.


Conforme mencionado anteriormente, a verdadeira margem operacional da Gap Inc. é de 4,6% (ou 3,9% após o ajuste) e o lucro diluído por ação deve ser de US$ 0,77 (ou US$ 0,71 após o ajuste).


O novo Bing também afirmava que o caixa e equivalentes de caixa da Gap Inc. somavam US$ 1,4 bilhão, quando na verdade eram US$ 679 milhões.

Figura 6: Trecho do relatório fiscal da Gap Inc. sobre caixa.


De acordo com o Relatório Fiscal do terceiro trimestre de 2022 da Lululemon [10b], a margem bruta deve ser de 55,9%, enquanto o novo Bing afirma que é de 58,7%.


A margem operacional deve ser de 19,0%, enquanto o novo Bing afirma ser de 20,7%. O lucro diluído por ação foi, na verdade, de US$ 2,00, enquanto o novo Bing afirma ser de US$ 1,65.


Figura 7: Trecho do relatório fiscal do terceiro trimestre de 2022 da Lululemon.


Então, de onde vieram esses números? Você pode estar se perguntando se é um número que foi extraviado de outra parte do documento original. A resposta é não. Curiosamente, esses números não foram encontrados no documento original e são totalmente fabricados.


Na verdade, ainda é um desafio de pesquisa em aberto restringir os resultados dos modelos generativos para serem mais factuais.


Falando claramente, os modelos populares de IA generativa, como o ChatGPT, estão escolhendo palavras para gerar a partir de um vocabulário fixo, em vez de copiar e colar estritamente os fatos da fonte.


Portanto, a correção factual é um dos desafios inatos da IA generativa e não pode ser estritamente garantida com os modelos atuais. Essa é uma grande preocupação quando se trata de mecanismos de pesquisa, pois os usuários confiam que os resultados sejam confiáveis e precisos.


Grande poeta japonês: secretamente um cantor de rock?


Figura 8: Resumo dos principais poetas japoneses gerado pelo novo Bing no press release.


Observamos que o novo Bing produz erros factuais não apenas para números, mas também para detalhes pessoais de entidades específicas, como mostrado na resposta acima quando o novo Bing foi questionado sobre “principais poetas japoneses”.


A data de nascimento, morte e ocupação gerada conflita de fato com a fonte referenciada. Segundo a Wikipedia [11a] e o IMDB [11a], Eriko Kishida nasceu em 1929 e morreu em 2011. Ela não era dramaturga e ensaísta, mas autora e tradutora de livros infantis.


Figura 9. Página da Wikipédia sobre Eriko Kishida (página traduzida do alemão).

O novo Bing continuou a errar quando proclamou Gackt como um dos principais poetas japoneses, quando na verdade ele é um famoso astro do rock no Japão. De acordo com a fonte da Wikipedia [11b], ele é ator, músico e cantor. Não há informações sobre ele publicando poemas de qualquer tipo na fonte.

Figura 10. Página da Wikipedia no Gackt.

Seguindo as recomendações de boate do Bing? Você pode estar diante de uma porta fechada.


Além disso, o novo Bing fez uma lista de possíveis casas noturnas para visitar na Cidade do México quando perguntado “Onde é a vida noturna?”. De forma alarmante, quase todos os horários de abertura dos clubes são gerados erroneamente:


Figura 11. Sugestões de vida noturna na Cidade do México geradas pelo novo Bing no press release.


Cruzamos os horários de abertura com várias fontes, que também estão anexadas no final do artigo. Enquanto El Almacen [12a] na verdade abre das 19h às 3h de terça a domingo, o novo Bing afirma que está “aberto das 17h às 23h de terça a domingo”.


El Marra [12b] na verdade abre das 18h às 2h30 de quinta a sábado, mas afirma-se que está “aberto das 18h às 3h de quinta a domingo”.


Guadalajara de Noche [12c] está aberto das 17h30 à 1h30 ou 00h30 todos os dias, enquanto o novo Bing afirma que está “aberto das 20h00 às 3h00 todos os dias”.


Além dos horários de funcionamento, quase todas as descrições nas estrelas e números de avaliação mencionados pelo novo Bing são imprecisos. As pontuações de avaliação correspondentes não podem ser encontradas, apesar da pesquisa no Yelp, Tripadvisor ou Google Maps.


Além dos casos mencionados acima, também encontramos outros problemas em seu vídeo de demonstração, como incompatibilidades de preços de produtos, erros de endereço da loja e erros relacionados ao tempo. Você está convidado a verificá-los se estiver interessado.

Possíveis preocupações na demonstração limitada do Bing

Embora o novo mecanismo de busca do Bing ainda não esteja totalmente acessível, podemos examinar alguns exemplos de demonstração [9] fornecidos pela Microsoft. Após um exame mais detalhado, até mesmo esses exemplos escolhidos a dedo mostram problemas potenciais em bases factuais.


Na demonstração intitulada “que ideias de arte posso fazer com meu filho?”, o novo Bing produziu uma lista insuficiente de materiais de artesanato para cada recomendação [13].


Por exemplo, ao sugerir fazer um violão de caixa de papelão, listou os insumos: “uma caixa de lenços de papel, um tubo de papelão, alguns elásticos, tinta e cola”.


No entanto, não incluiu cartolina, tesoura, washi tape, adesivos de espuma e miçangas de madeira sugeridos pelo site citado [13a].


Outra preocupação potencial é que o novo Bing produziu conteúdo que não tinha base factual nas fontes de referência, pelo menos 21 vezes nos 12 exemplos de demonstração.


A falta de fundamentação factual e a falha em citar uma lista completa de fontes podem levar os usuários a questionar a confiabilidade do novo Bing.

Que erros factuais o bardo do Google demonstrou?

O Google também revelou um serviço de IA conversacional chamado Bard [3]. Em vez de digitar as consultas de pesquisa tradicionais, os usuários podem ter uma conversa casual e informativa com o chatbot da web.


Por exemplo, um usuário pode inicialmente perguntar sobre as melhores constelações para observar as estrelas e, em seguida, perguntar sobre a melhor época do ano para vê-las. No entanto, um aviso claro é que a Bard pode fornecer “informações imprecisas ou inadequadas”.


Vamos investigar a precisão factual de Bard em sua postagem no Twitter [14] e demonstração em vídeo [15].

Figura 12. Resumo das descobertas do Telescope geradas por Bard em demonstração.


O CEO do Google, Sundar Pichai, postou recentemente um pequeno vídeo [14] para demonstrar as capacidades do Bard. No entanto, a resposta continha um erro sobre qual telescópio capturou as primeiras imagens de exoplanetas, o que foi rapidamente apontado pelos astrofísicos [16a].


Conforme confirmado pela NASA [16b], as primeiras imagens de um exoplaneta foram capturadas pelo Very Large Telescope (VLT) em vez do James Webb Space Telescope (JWST).


Infelizmente, Bard acabou sendo um experimento caro, pois o preço das ações do Google caiu drasticamente [4] depois que a notícia do erro factual foi relatada.

Figura 13. Resposta à visibilidade das constelações geradas por Bard no demo.


Em relação à demonstração em vídeo de Bard, a imagem acima mostra como o Bard do Google responde à pergunta de quando as constelações são visíveis [16]. No entanto, o tempo de Orion é inconsistente com várias fontes.


De acordo com o principal resultado de pesquisa do Google [17a], a constelação é mais visível de janeiro a março. Segundo a Wikipedia [17b], é mais visível de janeiro a abril.


Além disso, a resposta é incompleta, pois a visibilidade da constelação também depende se o usuário está no hemisfério norte ou no hemisfério sul.

Figura 14. Resultado da pesquisa no Google sobre a visibilidade das constelações.

Como Bing e Bard se comparam?

Os novos serviços Bing e Bard podem não ser igualmente confiáveis na prática. Isso se deve a fatores como a qualidade dos resultados da pesquisa, a qualidade dos modelos de conversação e a transparência das respostas fornecidas.


Atualmente, ambos os serviços contam com fontes de informação relevantes para orientar as respostas de seus modelos de IA conversacional.


Portanto, a precisão factual das respostas depende da qualidade dos sistemas de recuperação de informações [18] e de quão bem o modelo conversacional pode gerar respostas factualmente fundamentadas nas fontes de informação.


Como os detalhes completos dos serviços não são divulgados ao público, não está claro qual deles pode obter maior precisão factual sem testes mais profundos. Por outro lado, sentimos que a transparência é tão importante quanto a confiabilidade.


Por exemplo, observamos que o novo Bing é mais transparente quanto à fonte de suas respostas, pois fornece links de referência na maioria dos casos. Isso permite que os usuários realizem a verificação de fatos de forma independente e esperamos que futuros serviços de conversação também forneçam esse recurso.

Como as limitações factuais podem ser abordadas?

Por meio dos inúmeros erros factuais mostrados acima, fica claro que os modelos de IA conversacional, como o ChatGPT, podem produzir fatos conflitantes ou inexistentes, mesmo quando apresentados com fontes confiáveis.


Como mencionado anteriormente, é um desafio de pesquisa urgente garantir a fundamentação factual de modelos do tipo ChatGPT.


Devido à sua natureza generativa, é difícil controlar seus resultados [19] e ainda mais difícil garantir que o resultado gerado seja factualmente consistente com as fontes de informação.


Uma solução de curto prazo pode ser impor restrições para evitar que a IA conversacional produza saídas inseguras ou não factuais. No entanto, as partes maliciosas podem eventualmente ignorar as restrições de segurança [7], enquanto a verificação de fatos [20] é outro desafio de pesquisa não resolvido.


A longo prazo, talvez tenhamos que aceitar que escritores humanos e mecânicos provavelmente permanecerão imperfeitos. Para progredir em direção a uma IA mais confiável, os modelos de IA de conversação, como o ChatGPT, não podem permanecer como caixas pretas inescrutáveis [21].


Eles devem ser totalmente transparentes sobre suas fontes de dados e possíveis vieses, relatar quando tiverem pouca confiança em suas respostas e explicar seus processos de raciocínio.

O que o futuro reserva para modelos semelhantes ao ChatGPT?

Após uma visão geral sistemática, encontramos limitações factuais significativas demonstradas pela nova onda de mecanismos de pesquisa alimentados por IA conversacional como o ChatGPT.


Apesar das isenções de possíveis imprecisões factuais e advertências para usar nosso julgamento antes de tomar decisões, encontramos muitos erros factuais mesmo nas demonstrações escolhidas a dedo.


Assim, não podemos deixar de nos perguntar: qual é o propósito dos mecanismos de busca, senão fornecer respostas confiáveis e factuais? Em uma nova era da web repleta de invenções geradas por IA, como garantiremos a veracidade?


Apesar dos recursos maciços de gigantes da tecnologia como Microsoft e Google, os atuais modelos do tipo ChatGPT não podem garantir precisão factual. Mesmo assim, ainda estamos otimistas com o potencial dos modelos conversacionais e o desenvolvimento de IA mais confiável.


Modelos como o ChatGPT mostraram grande potencial e, sem dúvida, melhorarão muitos setores e aspectos de nossas vidas diárias. No entanto, se continuarem a gerar conteúdo fabricado e respostas não factuais, o público pode ficar ainda mais cauteloso em relação à inteligência artificial.


Portanto, em vez de criticar modelos ou empresas específicas, esperamos convidar pesquisadores e desenvolvedores a se concentrarem em melhorar a transparência e a correção factual dos serviços de IA, permitindo que os humanos depositem um nível mais alto de confiança na nova tecnologia em um futuro próximo.

Fontes

Artigos de referência

[1] ChatGPT: Otimizando modelos de linguagem para diálogo: https://openai.com/blog/chatgpt/

[2] 7 problemas enfrentados pelo Bing, Bard e o futuro da pesquisa de IA: https://www.theverge.com/2023/2/9/23592647/ai-search-bing-bard-chatgpt-microsoft-google-problems -desafios

[3] Google: um próximo passo importante em nossa jornada de IA: https://blog.google/technology/ai/bard-google-ai-search-updates/

[4] O erro do bot Bard AI do Google remove US$ 100 bilhões das ações: https://www.bbc.com/news/business-64576225

[5] Reinventando a pesquisa com um novo Microsoft Bing e Edge com inteligência artificial, seu copiloto para a Web: https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new- ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/

[6] As ações do Google perdem US$ 100 bilhões depois que o chatbot de IA da empresa comete um erro durante a demonstração: https://www.cnn.com/2023/02/08/tech/google-ai-bard-demo-error

[7] Os hackers estão vendendo um serviço que contorna as restrições do ChatGPT sobre malware: https://arstechnica.com/information-technology/2023/02/now-open-fee-based-telegram-service-that-uses-chatgpt-to -generate-malware/


Novas fontes de verificação de fatos do Bing:

[8] Vídeo de comunicado de imprensa da Microsoft ( https://www.youtube.com/watch?v=rOeRWRJ16yY )

[9] Página de demonstração da Microsoft: ( https://www.bing.com/new )

O novo Bing e Relatório Fiscal:

[10a] Gap Inc. Relatório fiscal mostrado no vídeo: https://s24.q4cdn.com/508879282/files/doc_financials/2022/q3/3Q22-EPR-FINAL-with-Tables.pdf

[10b] Relatório fiscal da Lululemon encontrado em seu site oficial: https://corporate.lululemon.com/media/press-releases/2022/12-08-2022-210558496#:\~:text=Para o terceiro trimestre de 2022 %2C em comparação com o terceiro,%2C e aumentou 41%25 internacionalmente

O novo Bing e os poetas japoneses:

[11a] Eriko Kishida: Wikipedia ( https://twitter.com/sundarpichai/status/1622673369480204288 ), IMDB ( https://www.imdb.com/name/nm1063814/ )

[11b] Gacket: Wikipedia ( https://en.wikipedia.org/wiki/Gackt )

O novo Bing e Boates no México:

[12a] El Almacen: Google Maps ( https://goo.gl/maps/3BL27XgWpDVzLLnaA ), Restaurant Guru ( https://restaurantguru.com/El-Almacen-Mexico-City )

[12b] El Marra: Google Maps ( https://goo.gl/maps/HZFe8xY7uTk1SB6s5 ), Restaurant Guru ( https://restaurantguru.com/El-Marra-Mexico-City )

[12c] Guadalajara de Noche: Tripadvisor ( https://www.tripadvisor.es/Attraction_Review-g150800-d3981435-Reviews-Guadalajara_de_Noche-Mexico_City_Central_Mexico_and_Gulf_Coast.html ), Google Maps ( https://goo.gl/maps/UeHCm1EeJZFP7wZYA )

[13] O novo Bing e idéias de artesanato ( https://www.bing.com/search?q=Idéias de artes e artesanato, com instruções para uma criança usando apenas caixas de papelão, garrafas plásticas, papel e barbante&iscopilotedu=1&form=MA13G7 ) :

[13a] Site citado: Happy Toddler Playtime ( https://happytoddlerplaytime.com/cardboard-box-guitar-craft-for-kids/ )


Fontes de verificação de fatos da Bard:

[14] Blog promocional ( https://twitter.com/sundarpichai/status/1622673369480204288 ) e vídeo ( https://twitter.com/sundarpichai/status/1622673775182626818 )

[15] Demonstração em vídeo ( https://www.youtube.com/watch?v=yLWXJ22LUEc )

Qual telescópio capturou as primeiras imagens de exoplanetas

[16a] Twitter por Grant Tremblay (astrofísico americano) ( https://twitter.com/astrogrant/status/1623091683603918849 )

[16b] NASA: 2M1207 b — Primeira imagem de um exoplaneta ( https://exoplanets.nasa.gov/resources/300/2m1207-b-first-image-of-an-exoplanet/ )

Quando as constelações são visíveis

[17a] Google ( https://www.google.com/search?client=safari&rls=en&q=when+is+orion+visible&ie=UTF-8&oe=UTF-8 ) principal resultado: Byju's ( https://byjus. com/pergunta-resposta/em-qual-estação-do-ano-está-a-constelação-orion-visível-no-céu/ )

[17b] Página da Wikipédia “Orion (constelação)”: https://en.wikipedia.org/wiki/Orion_(constelação)


Referências Acadêmicas

[18] Uma introdução à recuperação de informações: https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf

[19] Rumo à geração controlada de texto: http://proceedings.mlr.press/v70/hu17e/hu17e.pdf

[20] FEVER: um conjunto de dados em grande escala para extração e verificação de fatos: https://aclanthology.org/N18-1074.pdf

[21] Peeking Inside the Black-Box: A Survey on Explainable Artificial Intelligence (XAI): https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8466590


Crédito da imagem,HackerNoon AI Image Generator prompt de 'verificador de fatos do robô usa lupa para examinar a precisão de um chatbots de IA'.