Auteurs : Yew Ken Chia, Ruochen Zhao, Xingxuan Li, Bosheng Ding, Lidong Bing
Récemment, des modèles d'IA conversationnelle tels que ChatGPT [1] d'OpenAI ont captivé l'imagination du public avec la capacité de générer un contenu écrit de haute qualité, de tenir des conversations de type humain, de répondre à des questions factuelles, etc.
Forts d'un tel potentiel, Microsoft et Google ont annoncé de nouveaux services [2] qui les associent aux moteurs de recherche traditionnels.
La nouvelle vague de moteurs de recherche axés sur la conversation a le potentiel de répondre naturellement à des questions complexes, de résumer les résultats de recherche et même de servir d'outil créatif.
Cependant, ce faisant, les entreprises technologiques sont désormais confrontées à un défi éthique plus important pour s'assurer que leurs modèles n'induisent pas les utilisateurs en erreur avec des réponses fausses, non fondées ou contradictoires. Par conséquent, la question se pose naturellement : les modèles de type ChatGPT peuvent-ils garantir l'exactitude factuelle ?
Dans cet article, nous découvrons plusieurs erreurs factuelles dans le nouveau Bing de Microsoft [9] et Bard de Google [3] qui suggèrent qu'ils ne le peuvent pas actuellement.
Malheureusement, de fausses attentes peuvent conduire à des résultats désastreux. À peu près au même moment que la nouvelle annonce Bing de Microsoft, Google a annoncé à la hâte un nouveau service d'IA conversationnel nommé Bard.
Malgré le battage médiatique, les attentes ont été rapidement anéanties lorsque Bard a commis une erreur factuelle dans la vidéo promotionnelle [14], faisant finalement chuter le cours de l'action de Google [4] de près de 8 % et effaçant 100 milliards de dollars de sa valeur marchande.
D'un autre côté, le nouveau Bing de Microsoft a fait l'objet de moins d'attention. Dans la vidéo de démonstration [8], nous avons constaté que le nouveau Bing recommandait un chanteur de rock comme poète de premier plan, fabriquait des dates de naissance et de décès et inventait même un résumé complet des rapports fiscaux.
Malgré les avertissements [9] selon lesquels les nouvelles réponses de Bing ne sont pas toujours factuelles, des sentiments trop optimistes peuvent inévitablement conduire à la désillusion.
Par conséquent, notre objectif est d'attirer l'attention sur les défis factuels auxquels sont confrontés les moteurs de recherche basés sur la conversation afin que nous puissions mieux les résoudre à l'avenir.
Microsoft a publié le nouveau moteur de recherche Bing alimenté par l'IA, affirmant qu'il révolutionnera la portée des moteurs de recherche traditionnels. Est-ce vraiment le cas ? Nous avons approfondi la vidéo de démonstration [8] et les exemples [9], et avons trouvé trois principaux types de problèmes factuels :
Chiffres fabriqués dans les rapports financiers : soyez prudent lorsque vous faites confiance au nouveau Bing !
À notre grande surprise, le nouveau Bing a fabriqué un résumé complet du rapport financier dans la démonstration !
Lorsque le dirigeant de Microsoft, Yusuf Mehdi, a montré au public comment utiliser la commande « principaux points à retenir de la page » pour générer automatiquement un résumé du rapport financier du troisième trimestre 2022 de Gap Inc. [10a], il a reçu les résultats suivants
Cependant, après un examen plus approfondi, tous les chiffres clés du résumé généré sont inexacts. Nous montrerons ci-dessous des extraits du rapport financier original comme références de validation.
Selon le nouveau Bing, la marge opérationnelle après ajustement était de 5,9 %, alors qu'elle était en réalité de 3,9 % dans le rapport source.
De même, le bénéfice dilué par action ajusté a été généré à 0,42 $, alors qu'il devrait être de 0,71 $.
En ce qui concerne les ventes nettes, le nouveau résumé de Bing affirmait "une croissance à deux chiffres", tandis que le rapport original indiquait que "les ventes nettes pourraient être en baisse à un chiffre moyen".
En plus des chiffres générés qui sont en conflit avec les chiffres réels dans le rapport source, nous observons que le nouveau Bing peut également produire des faits hallucinés qui n'existent pas dans la source.
Dans le nouveau résumé généré par Bing, la "marge d'exploitation d'environ 7 % et le bénéfice dilué par action de 1,60 $ à 1,75 $" sont introuvables dans le rapport source.
Malheureusement, la situation s'est aggravée lorsque le nouveau Bing a reçu pour instruction de "comparer cela avec Lululemon dans un tableau". Le tableau comparatif financier généré par le nouveau Bing contenait de nombreuses erreurs :
Ce tableau, en fait, est à moitié faux. Sur tous les chiffres, 3 chiffres sur 6 sont erronés dans la colonne pour Gap Inc., et idem pour Lululemon.
Comme mentionné précédemment, la véritable marge d'exploitation de Gap Inc. est de 4,6 % (ou 3,9 % après ajustement) et le bénéfice dilué par action devrait être de 0,77 $ (ou 0,71 $ après ajustement).
Le nouveau Bing a également affirmé que la trésorerie et les équivalents de trésorerie de Gap Inc. s'élevaient à 1,4 milliard de dollars, alors qu'ils étaient en réalité de 679 millions de dollars.
Selon le rapport financier du troisième trimestre 2022 de Lululemon [10b], la marge brute devrait être de 55,9 %, tandis que le nouveau Bing affirme qu'elle est de 58,7 %.
La marge opérationnelle devrait être de 19,0%, alors que le nouveau Bing la revendique à 20,7%. Le bénéfice dilué par action était en fait de 2,00 $, tandis que le nouveau Bing prétend qu'il est de 1,65 $.
Alors, d'où viennent ces chiffres ? Vous vous demandez peut-être s'il s'agit d'un numéro mal placé dans une autre partie du document original. La réponse est non. Curieusement, ces chiffres sont introuvables dans le document original et sont entièrement fabriqués.
En fait, c'est toujours un défi de recherche ouvert de contraindre les résultats des modèles génératifs à être plus factuellement fondés.
En clair, les modèles d'IA générative populaires tels que ChatGPT sélectionnent des mots à générer à partir d'un vocabulaire fixe, au lieu de copier et coller strictement des faits à partir de la source.
Par conséquent, l'exactitude factuelle est l'un des défis innés de l'IA générative et ne peut être strictement garantie avec les modèles actuels. Il s'agit d'une préoccupation majeure en ce qui concerne les moteurs de recherche, car les utilisateurs s'attendent à ce que les résultats soient fiables et exacts.
Top poète japonais : secrètement un chanteur de rock ?
Nous observons que le nouveau Bing produit des erreurs factuelles non seulement pour les nombres mais aussi pour les détails personnels d'entités spécifiques, comme le montre la réponse ci-dessus lorsque le nouveau Bing a été interrogé sur les "meilleurs poètes japonais".
La date de naissance, de décès et de profession générée est en fait en conflit avec la source référencée. Selon Wikipedia [11a] et IMDB [11a], Eriko Kishida est née en 1929 et décédée en 2011. Elle n'était pas dramaturge et essayiste, mais auteure et traductrice de livres pour enfants.
Le nouveau Bing a continué à gaffer en proclamant Gackt comme l'un des meilleurs poètes japonais alors qu'il est en fait une rockstar célèbre au Japon. Selon la source Wikipédia [11b], il est acteur, musicien et chanteur. Il n'y a aucune information sur lui publiant des poèmes de quelque nature que ce soit dans la source.
Vous suivez les recommandations de Bing pour les boîtes de nuit ? Vous pourriez être face à une porte fermée.
De plus, le nouveau Bing a dressé une liste des boîtes de nuit possibles à visiter à Mexico lorsqu'on lui a demandé "Où est la vie nocturne?". De manière alarmante, presque tous les horaires d'ouverture des clubs sont mal générés :
Nous avons recoupé les heures d'ouverture avec plusieurs sources, qui sont également annexées à la fin de l'article. Alors qu'El Almacen [12a] ouvre en fait de 19h00 à 3h00 du mardi au dimanche, le nouveau Bing affirme qu'il est "ouvert de 17h00 à 23h00 du mardi au dimanche".
El Marra [12b] ouvre en fait de 18h00 à 2h30 du jeudi au samedi, mais est prétendu être "ouvert de 18h00 à 3h00 du jeudi au dimanche".
Guadalajara de Noche [12c] est ouvert de 17h30 à 1h30 ou 00h30 tous les jours, tandis que le nouveau Bing affirme qu'il est "ouvert de 20h00 à 3h00 tous les jours".
Outre les heures d'ouverture, presque toutes les descriptions des étoiles et des chiffres mentionnés par le nouveau Bing sont inexactes. Les notes d'avis correspondantes sont introuvables malgré la recherche sur Yelp, Tripadvisor ou Google Maps.
En plus des cas mentionnés ci-dessus, nous avons également trouvé d'autres problèmes dans leur vidéo de démonstration, tels que des incohérences de prix des produits, des erreurs d'adresse de magasin et des erreurs liées au temps. Vous êtes invités à les vérifier si vous êtes intéressé.
Bien que le nouveau moteur de recherche Bing ne soit pas encore entièrement accessible, nous pouvons examiner une poignée d' exemples de démonstration [9] fournis par Microsoft. Après un examen plus approfondi, même ces exemples triés sur le volet montrent des problèmes potentiels sur la base factuelle.
Dans la démo intitulée "quelles idées artistiques puis-je faire avec mon enfant ?", le nouveau Bing a produit une liste insuffisante de matériaux d'artisanat pour chaque recommandation [13].
Par exemple, lorsqu'il proposait de fabriquer une guitare en carton, il énumérait les fournitures : « une boîte de mouchoirs, un tube en carton, des élastiques, de la peinture et de la colle ».
Cependant, il n'a pas inclus de papier de construction, de ciseaux, de ruban washi, d'autocollants en mousse et de perles en bois suggérés par le site Web cité [13a].
Une autre préoccupation potentielle est que le nouveau Bing a produit du contenu qui n'avait aucune base factuelle dans les sources de référence, au moins 21 fois sur les 12 exemples de démonstration.
Le manque de fondement factuel et le fait de ne pas citer une liste complète de sources pourraient amener les utilisateurs à remettre en question la fiabilité du nouveau Bing.
Google a également dévoilé un service d'IA conversationnel appelé Bard [3]. Au lieu de taper des requêtes de recherche traditionnelles, les utilisateurs peuvent avoir une conversation informelle et informative avec le chatbot Web.
Par exemple, un utilisateur peut d'abord demander quelles sont les meilleures constellations pour observer les étoiles, puis poursuivre en demandant quelle est la meilleure période de l'année pour les voir. Cependant, une clause de non-responsabilité claire est que Bard peut donner "des informations inexactes ou inappropriées".
Examinons l'exactitude factuelle de Bard dans son message Twitter [14] et sa démonstration vidéo [15].
Le PDG de Google, Sundar Pichai, a récemment publié une courte vidéo [14] pour démontrer les capacités de Bard. Cependant, la réponse contenait une erreur concernant le télescope qui a capturé les premières images d'exoplanètes, ce qui a été rapidement signalé par les astrophysiciens [16a].
Comme l'a confirmé la NASA [16b], les premières images d'une exoplanète ont été capturées par le Very Large Telescope (VLT) au lieu du James Webb Space Telescope (JWST).
Malheureusement, Bard s'est avéré être une expérience coûteuse car le cours de l'action de Google a fortement baissé [4] après que la nouvelle de l'erreur factuelle a été signalée.
Concernant la démonstration vidéo de Bard, l'image ci-dessus montre comment Bard de Google répond à la question de savoir quand les constellations sont visibles [16]. Cependant, le calendrier d'Orion est incompatible avec plusieurs sources.
Selon le meilleur résultat de recherche Google [17a], la constellation est la plus visible de janvier à mars. Selon Wikipedia [17b], il est le plus visible de janvier à avril.
De plus, la réponse est incomplète car la visibilité de la constellation dépend également du fait que l'utilisateur se trouve dans l'hémisphère Nord ou Sud.
Les nouveaux services Bing et Bard ne sont peut-être pas aussi fiables dans la pratique. Cela est dû à des facteurs tels que la qualité des résultats de recherche, la qualité des modèles conversationnels et la transparence des réponses fournies.
Actuellement, les deux services s'appuient sur des sources d'informations pertinentes pour guider les réponses de leurs modèles d'IA conversationnelle.
Par conséquent, l'exactitude factuelle des réponses dépend de la qualité des systèmes de recherche d'informations [18] et de la capacité du modèle conversationnel à générer des réponses factuellement fondées sur les sources d'information.
Comme tous les détails des services ne sont pas rendus publics, il est difficile de savoir lequel peut obtenir une précision factuelle plus élevée sans tests plus approfondis. D'autre part, nous estimons que la transparence est tout aussi importante que la fiabilité.
Par exemple, on observe que le nouveau Bing est plus transparent quant à la source de ses réponses, puisqu'il fournit des liens de référence dans la plupart des cas. Cela permet aux utilisateurs de procéder à une vérification des faits de manière indépendante, et nous espérons que les futurs services conversationnels fourniront également cette fonctionnalité.
À travers les nombreuses erreurs factuelles présentées ci-dessus, il est clair que les modèles d'IA conversationnels tels que ChatGPT peuvent produire des faits contradictoires ou inexistants même lorsqu'ils sont présentés avec des sources fiables.
Comme mentionné précédemment, c'est un défi de recherche urgent d'assurer la base factuelle des modèles de type ChatGPT.
En raison de leur nature générative, il est difficile de contrôler leurs sorties [19] et encore plus difficile de garantir que la sortie générée est factuellement cohérente avec les sources d'information.
Une solution à court terme pourrait consister à imposer des restrictions pour empêcher l'IA conversationnelle de produire des résultats dangereux ou non factuels. Cependant, les parties malveillantes peuvent éventuellement contourner les restrictions de sécurité [7], tandis que la vérification des faits [20] est un autre défi de recherche non résolu.
À long terme, nous devrons peut-être accepter que les écrivains humains et machines resteront probablement imparfaits. Pour progresser vers une IA plus fiable, les modèles d'IA conversationnelle comme ChatGPT ne peuvent pas rester comme des boîtes noires impénétrables [21].
Ils doivent être totalement transparents sur leurs sources de données et les biais potentiels, signaler les cas où ils ont peu confiance en leurs réponses et expliquer leurs processus de raisonnement.
Après un tour d'horizon systématique, nous avons trouvé d'importantes limitations factuelles démontrées par la nouvelle vague de moteurs de recherche propulsés par l'IA conversationnelle comme ChatGPT.
Malgré les avertissements d'inexactitude factuelle potentielle et les avertissements d'utiliser notre jugement avant de prendre des décisions, nous avons rencontré de nombreuses erreurs factuelles, même dans les démonstrations triées sur le volet.
Ainsi, on ne peut s'empêcher de se demander : A quoi servent les moteurs de recherche, si ce n'est de fournir des réponses fiables et factuelles ? Dans une nouvelle ère du Web remplie de fabrications générées par l'IA, comment assurerons-nous la véracité ?
Malgré les ressources massives des géants de la technologie comme Microsoft et Google, les modèles actuels de type ChatGPT ne peuvent pas garantir l'exactitude factuelle. Malgré tout, nous restons optimistes quant au potentiel des modèles conversationnels et au développement d'une IA plus fiable.
Des modèles comme ChatGPT ont montré un grand potentiel et amélioreront sans aucun doute de nombreux secteurs et aspects de notre vie quotidienne. Cependant, s'ils continuent à générer du contenu fabriqué et des réponses non factuelles, le public pourrait devenir encore plus méfiant à l'égard de l'intelligence artificielle.
Par conséquent, plutôt que de critiquer des modèles ou des entreprises spécifiques, nous espérons appeler les chercheurs et les développeurs à se concentrer sur l'amélioration de la transparence et de l'exactitude factuelle des services d'IA, permettant aux humains d'accorder un niveau de confiance plus élevé à la nouvelle technologie dans un avenir prévisible.
Articles de référence
[1] ChatGPT : Optimisation des modèles de langage pour le dialogue : https://openai.com/blog/chatgpt/
[2] 7 problèmes auxquels sont confrontés Bing, Bard et l'avenir de la recherche par IA : https://www.theverge.com/2023/2/9/23592647/ai-search-bing-bard-chatgpt-microsoft-google-problems -défis
[3] Google : Une prochaine étape importante dans notre parcours vers l'IA : https://blog.google/technology/ai/bard-google-ai-search-updates/
[4] L'erreur du bot Bard AI de Google efface 100 milliards de dollars d'actions : https://www.bbc.com/news/business-64576225
[5] Réinventer la recherche avec un nouveau Microsoft Bing et Edge alimenté par l'IA, votre copilote pour le Web : https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new- ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/
[6] Les actions de Google perdent 100 milliards de dollars après que le chatbot IA de l'entreprise ait fait une erreur lors de la démonstration : https://www.cnn.com/2023/02/08/tech/google-ai-bard-demo-error
[7] Les pirates vendent un service qui contourne les restrictions ChatGPT sur les logiciels malveillants : https://arstechnica.com/information-technology/2023/02/now-open-fee-based-telegram-service-that-uses-chatgpt-to -generate-malware/
Nouvelles sources de vérification des faits Bing :
[8] Vidéo du communiqué de presse de Microsoft ( https://www.youtube.com/watch?v=rOeRWRJ16yY )
[9] Page de démonstration de Microsoft : ( https://www.bing.com/new )
Le nouveau rapport Bing et fiscal :
[10a] Rapport fiscal de Gap Inc. présenté dans la vidéo : https://s24.q4cdn.com/508879282/files/doc_financials/2022/q3/3Q22-EPR-FINAL-with-Tables.pdf
[10b] Rapport fiscal de Lululemon trouvé sur leur site officiel : https://corporate.lululemon.com/media/press-releases/2022/12-08-2022-210558496#:\~:text=Pour le troisième trimestre de 2022 %2C par rapport au troisième,%2C et augmenté de 41%25 à l'international
Le nouveau Bing et les poètes japonais :
[11a] Eriko Kishida : Wikipédia ( https://twitter.com/sundarpichai/status/1622673369480204288 ), IMDB ( https://www.imdb.com/name/nm1063814/ )
[11b] Gacket : Wikipédia ( https://en.wikipedia.org/wiki/Gackt )
Le nouveau Bing et les boîtes de nuit au Mexique :
[12a] El Almacen : Google Maps ( https://goo.gl/maps/3BL27XgWpDVzLLnaA ), Restaurant Guru ( https://restaurantguru.com/El-Almacen-Mexico-City )
[12b] El Marra : Google Maps ( https://goo.gl/maps/HZFe8xY7uTk1SB6s5 ), Restaurant Guru ( https://restaurantguru.com/El-Marra-Mexico-City )
[12c] Guadalajara de Noche : Tripadvisor ( https://www.tripadvisor.es/Attraction_Review-g150800-d3981435-Reviews-Guadalajara_de_Noche-Mexico_City_Central_Mexico_and_Gulf_Coast.html ), Google Maps ( https://goo.gl/maps/UeHCm1EeJZFP7wZYA )
[13] Le nouveau Bing et des idées d'artisanat ( https://www.bing.com/search?q=Idées d'art et d'artisanat, avec des instructions pour un tout-petit utilisant uniquement des boîtes en carton, des bouteilles en plastique, du papier et de la ficelle&iscopilotedu=1&form=MA13G7 ) :
[13a] Site Web cité : Happy Toddler Playtime ( https://happytoddlerplaytime.com/cardboard-box-guitar-craft-for-kids/ )
Sources de vérification des faits Bard :
[14] Blog promotionnel ( https://twitter.com/sundarpichai/status/1622673369480204288 ) et vidéo ( https://twitter.com/sundarpichai/status/1622673775182626818 )
[15] Démonstration vidéo ( https://www.youtube.com/watch?v=yLWXJ22LUEc )
Quel télescope a capturé les premières images d'exoplanètes
[16a] Twitter par Grant Tremblay (astrophysicien américain) ( https://twitter.com/astrogrant/status/1623091683603918849 )
[16b] NASA : 2M1207 b — Première image d'une exoplanète ( https://exoplanets.nasa.gov/resources/300/2m1207-b-first-image-of-an-exoplanet/ )
Quand les constellations sont visibles
[17a] Google ( https://www.google.com/search?client=safari&rls=en&q=when+is+orion+visible&ie=UTF-8&oe=UTF-8 ) meilleur résultat : Byju's ( https://byjus. com/question-réponse/dans-quelle-saison-de-l-année-est-la-constellation-orion-visible-dans-le-ciel/ )
[17b] Page Wikipédia « Orion (constellation) » : https://en.wikipedia.org/wiki/Orion_(constellation)
Références académiques
[18] Une introduction à la recherche d'informations : https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf
[19] Vers une génération contrôlée de texte : http://proceedings.mlr.press/v70/hu17e/hu17e.pdf
[20] FEVER : un ensemble de données à grande échelle pour l'extraction et la vérification des faits : https://aclanthology.org/N18-1074.pdf
[21] Coup d'œil à l'intérieur de la boîte noire : une enquête sur l'intelligence artificielle explicable (XAI) : https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8466590
Crédit d'image, invitedu générateur d'images HackerNoon AI de "le vérificateur de faits du robot utilise une loupe pour examiner la précision d'un chatbot ai".