Auteurs : Yew Ken Chia, Ruochen Zhao, Xingxuan Li, Bosheng Ding, Lidong Bing Récemment, des modèles d'IA conversationnelle tels que ont captivé l'imagination du public avec la capacité de générer un contenu écrit de haute qualité, de tenir des conversations de type humain, de répondre à des questions factuelles, etc. ChatGPT [1] d'OpenAI Forts d'un tel potentiel, Microsoft et Google ont [2] qui les associent aux moteurs de recherche traditionnels. annoncé de nouveaux services La nouvelle vague de moteurs de recherche axés sur la conversation a le potentiel de répondre naturellement à des questions complexes, de résumer les résultats de recherche et même de servir d'outil créatif. Cependant, ce faisant, les entreprises technologiques sont désormais confrontées à un défi éthique plus important pour s'assurer que leurs modèles n'induisent pas les utilisateurs en erreur avec des réponses fausses, non fondées ou contradictoires. Par conséquent, la question se pose naturellement : les modèles de type ChatGPT peuvent-ils garantir l'exactitude factuelle ? Dans cet article, nous découvrons plusieurs erreurs factuelles dans [9] et [3] qui suggèrent qu'ils ne le peuvent pas actuellement. le nouveau Bing de Microsoft Bard de Google Malheureusement, de fausses attentes peuvent conduire à des résultats désastreux. À peu près au même moment que la nouvelle annonce Bing de Microsoft, Google a annoncé à la hâte un nouveau service d'IA conversationnel nommé Bard. Malgré le battage médiatique, les attentes ont été rapidement anéanties lorsque Bard a commis une erreur factuelle dans la [14], faisant finalement [4] de près de 8 % et effaçant 100 milliards de dollars de sa valeur marchande. vidéo promotionnelle chuter le cours de l'action de Google D'un autre côté, le nouveau Bing de Microsoft a fait l'objet de moins d'attention. Dans la [8], nous avons constaté que le nouveau Bing recommandait un chanteur de rock comme poète de premier plan, fabriquait des dates de naissance et de décès et inventait même un résumé complet des rapports fiscaux. vidéo de démonstration Malgré [9] selon lesquels les nouvelles réponses de Bing ne sont pas toujours factuelles, des sentiments trop optimistes peuvent inévitablement conduire à la désillusion. les avertissements Par conséquent, notre objectif est d'attirer l'attention sur les défis factuels auxquels sont confrontés les moteurs de recherche basés sur la conversation afin que nous puissions mieux les résoudre à l'avenir. Quelles erreurs factuelles le nouveau Bing de Microsoft a-t-il démontrées ? Microsoft a publié le nouveau moteur de recherche Bing alimenté par l'IA, affirmant qu'il révolutionnera la portée des moteurs de recherche traditionnels. Est-ce vraiment le cas ? Nous avons approfondi la [8] et [9], et avons trouvé trois principaux types de problèmes factuels : vidéo de démonstration les exemples Allégations qui entrent en conflit avec les sources de référence. Revendications qui n'existent pas dans les sources de référence. Revendications qui n'ont pas de source de référence et qui sont incompatibles avec plusieurs sources Web. Chiffres fabriqués dans les rapports financiers : soyez prudent lorsque vous faites confiance au nouveau Bing ! À notre grande surprise, le nouveau Bing a fabriqué un résumé complet du rapport financier dans la démonstration ! Lorsque le dirigeant de Microsoft, Yusuf Mehdi, a montré au public comment utiliser la commande « principaux points à retenir de la page » pour générer automatiquement un résumé du [10a], il a reçu les résultats suivants rapport financier du troisième trimestre 2022 de Gap Inc. Cependant, après un examen plus approfondi, tous les chiffres clés du résumé généré sont inexacts. Nous montrerons ci-dessous des extraits du rapport financier original comme références de validation. Selon le nouveau Bing, la marge opérationnelle après ajustement était de 5,9 %, alors qu'elle était en réalité de 3,9 % dans le rapport source. De même, le bénéfice dilué par action ajusté a été généré à 0,42 $, alors qu'il devrait être de 0,71 $. En ce qui concerne les ventes nettes, le nouveau résumé de Bing affirmait "une croissance à deux chiffres", tandis que le rapport original indiquait que "les ventes nettes pourraient être en baisse à un chiffre moyen". En plus des chiffres générés qui sont en conflit avec les chiffres réels dans le rapport source, nous observons que le nouveau Bing peut également produire des faits hallucinés qui n'existent pas dans la source. Dans le nouveau résumé généré par Bing, la "marge d'exploitation d'environ 7 % et le bénéfice dilué par action de 1,60 $ à 1,75 $" sont introuvables dans le rapport source. Malheureusement, la situation s'est aggravée lorsque le nouveau Bing a reçu pour instruction de "comparer cela avec Lululemon dans un tableau". Le tableau comparatif financier généré par le nouveau Bing contenait de nombreuses erreurs : Ce tableau, en fait, est à moitié faux. Sur tous les chiffres, 3 chiffres sur 6 sont erronés dans la colonne pour Gap Inc., et idem pour Lululemon. Comme mentionné précédemment, la véritable marge d'exploitation de Gap Inc. est de 4,6 % (ou 3,9 % après ajustement) et le bénéfice dilué par action devrait être de 0,77 $ (ou 0,71 $ après ajustement). Le nouveau Bing a également affirmé que la trésorerie et les équivalents de trésorerie de Gap Inc. s'élevaient à 1,4 milliard de dollars, alors qu'ils étaient en réalité de 679 millions de dollars. Selon [10b], la marge brute devrait être de 55,9 %, tandis que le nouveau Bing affirme qu'elle est de 58,7 %. le rapport financier du troisième trimestre 2022 de Lululemon La marge opérationnelle devrait être de 19,0%, alors que le nouveau Bing la revendique à 20,7%. Le bénéfice dilué par action était en fait de 2,00 $, tandis que le nouveau Bing prétend qu'il est de 1,65 $. Alors, d'où viennent ces chiffres ? Vous vous demandez peut-être s'il s'agit d'un numéro mal placé dans une autre partie du document original. La réponse est non. Curieusement, ces chiffres sont introuvables dans le document original et sont entièrement fabriqués. En fait, c'est toujours un défi de recherche ouvert de contraindre les résultats des modèles génératifs à être plus factuellement fondés. En clair, les modèles d'IA générative populaires tels que ChatGPT sélectionnent des mots à générer à partir d'un vocabulaire fixe, au lieu de copier et coller strictement des faits à partir de la source. Par conséquent, l'exactitude factuelle est l'un des défis innés de l'IA générative et ne peut être strictement garantie avec les modèles actuels. Il s'agit d'une préoccupation majeure en ce qui concerne les moteurs de recherche, car les utilisateurs s'attendent à ce que les résultats soient fiables et exacts. Top poète japonais : secrètement un chanteur de rock ? Nous observons que le nouveau Bing produit des erreurs factuelles non seulement pour les nombres mais aussi pour les détails personnels d'entités spécifiques, comme le montre la réponse ci-dessus lorsque le nouveau Bing a été interrogé sur les "meilleurs poètes japonais". La date de naissance, de décès et de profession générée est en fait en conflit avec la source référencée. Selon [11a] et [11a], Eriko Kishida est née en 1929 et décédée en 2011. Elle n'était pas dramaturge et essayiste, mais auteure et traductrice de livres pour enfants. Wikipedia IMDB Le nouveau Bing a continué à gaffer en proclamant Gackt comme l'un des meilleurs poètes japonais alors qu'il est en fait une rockstar célèbre au Japon. Selon la [11b], il est acteur, musicien et chanteur. Il n'y a aucune information sur lui publiant des poèmes de quelque nature que ce soit dans la source. source Wikipédia Vous suivez les recommandations de Bing pour les boîtes de nuit ? Vous pourriez être face à une porte fermée. De plus, le nouveau Bing a dressé une liste des boîtes de nuit possibles à visiter à Mexico lorsqu'on lui a demandé "Où est la vie nocturne?". De manière alarmante, presque tous les horaires d'ouverture des clubs sont mal générés : Nous avons recoupé les heures d'ouverture avec plusieurs sources, qui sont également annexées à la fin de l'article. Alors [12a] ouvre en fait de 19h00 à 3h00 du mardi au dimanche, le nouveau Bing affirme qu'il est "ouvert de 17h00 à 23h00 du mardi au dimanche". qu'El Almacen [12b] ouvre en fait de 18h00 à 2h30 du jeudi au samedi, mais est prétendu être "ouvert de 18h00 à 3h00 du jeudi au dimanche". El Marra [12c] est ouvert de 17h30 à 1h30 ou 00h30 tous les jours, tandis que le nouveau Bing affirme qu'il est "ouvert de 20h00 à 3h00 tous les jours". Guadalajara de Noche Outre les heures d'ouverture, presque toutes les descriptions des étoiles et des chiffres mentionnés par le nouveau Bing sont inexactes. Les notes d'avis correspondantes sont introuvables malgré la recherche sur Yelp, Tripadvisor ou Google Maps. En plus des cas mentionnés ci-dessus, nous avons également trouvé d'autres problèmes dans leur vidéo de démonstration, tels que des incohérences de prix des produits, des erreurs d'adresse de magasin et des erreurs liées au temps. Vous êtes invités à les vérifier si vous êtes intéressé. Préoccupations potentielles dans la démo limitée de Bing Bien que le nouveau moteur de recherche Bing ne soit pas encore entièrement accessible, nous pouvons examiner une poignée d' [9] fournis par Microsoft. Après un examen plus approfondi, même ces exemples triés sur le volet montrent des problèmes potentiels sur la base factuelle. exemples de démonstration Dans la démo intitulée "quelles idées artistiques puis-je faire avec mon enfant ?", le nouveau Bing a produit une [13]. liste insuffisante de matériaux d'artisanat pour chaque recommandation Par exemple, lorsqu'il proposait de fabriquer une guitare en carton, il énumérait les fournitures : « une boîte de mouchoirs, un tube en carton, des élastiques, de la peinture et de la colle ». Cependant, il n'a pas inclus de papier de construction, de ciseaux, de ruban washi, d'autocollants en mousse et de perles en bois suggérés par le [13a]. site Web cité Une autre préoccupation potentielle est que le nouveau Bing a produit du contenu qui n'avait aucune base factuelle dans les sources de référence, au moins 21 fois sur les 12 exemples de démonstration. Le manque de fondement factuel et le fait de ne pas citer une liste complète de sources pourraient amener les utilisateurs à remettre en question la fiabilité du nouveau Bing. Quelles erreurs factuelles Bard de Google a-t-il démontrées ? [3]. Au lieu de taper des requêtes de recherche traditionnelles, les utilisateurs peuvent avoir une conversation informelle et informative avec le chatbot Web. Google a également dévoilé un service d'IA conversationnel appelé Bard Par exemple, un utilisateur peut d'abord demander quelles sont les meilleures constellations pour observer les étoiles, puis poursuivre en demandant quelle est la meilleure période de l'année pour les voir. Cependant, une clause de non-responsabilité claire est que Bard peut donner "des informations inexactes ou inappropriées". Examinons l'exactitude factuelle de Bard dans son [14] et [15]. message Twitter sa démonstration vidéo Le PDG de Google, Sundar Pichai, a récemment publié une [14] pour démontrer les capacités de Bard. Cependant, la réponse contenait une erreur concernant le télescope qui a capturé les premières images d'exoplanètes, ce qui a été [16a]. courte vidéo rapidement signalé par les astrophysiciens Comme l'a confirmé la [16b], les premières images d'une exoplanète ont été capturées par le Very Large Telescope (VLT) au lieu du James Webb Space Telescope (JWST). NASA Malheureusement, Bard s'est avéré être une expérience coûteuse car [4] après que la nouvelle de l'erreur factuelle a été signalée. le cours de l'action de Google a fortement baissé Concernant la démonstration vidéo de Bard, l'image ci-dessus montre comment [16]. Cependant, le calendrier d'Orion est incompatible avec plusieurs sources. Bard de Google répond à la question de savoir quand les constellations sont visibles Selon le [17a], la constellation est la plus visible de janvier à mars. Selon [17b], il est le plus visible de janvier à avril. meilleur résultat de recherche Google Wikipedia De plus, la réponse est incomplète car la visibilité de la constellation dépend également du fait que l'utilisateur se trouve dans l'hémisphère Nord ou Sud. Comment Bing et Bard se comparent-ils ? Les nouveaux services Bing et Bard ne sont peut-être pas aussi fiables dans la pratique. Cela est dû à des facteurs tels que la qualité des résultats de recherche, la qualité des modèles conversationnels et la transparence des réponses fournies. Actuellement, les deux services s'appuient sur des sources d'informations pertinentes pour guider les réponses de leurs modèles d'IA conversationnelle. Par conséquent, l'exactitude factuelle des réponses dépend de la qualité des [18] et de la capacité du modèle conversationnel à générer des réponses factuellement fondées sur les sources d'information. systèmes de recherche d'informations Comme tous les détails des services ne sont pas rendus publics, il est difficile de savoir lequel peut obtenir une précision factuelle plus élevée sans tests plus approfondis. D'autre part, nous estimons que la transparence est tout aussi importante que la fiabilité. Par exemple, on observe que le nouveau Bing est plus transparent quant à la source de ses réponses, puisqu'il fournit des liens de référence dans la plupart des cas. Cela permet aux utilisateurs de procéder à une vérification des faits de manière indépendante, et nous espérons que les futurs services conversationnels fourniront également cette fonctionnalité. Comment les limites factuelles peuvent-elles être traitées ? À travers les nombreuses erreurs factuelles présentées ci-dessus, il est clair que les modèles d'IA conversationnels tels que ChatGPT peuvent produire des faits contradictoires ou inexistants même lorsqu'ils sont présentés avec des sources fiables. Comme mentionné précédemment, c'est un défi de recherche urgent d'assurer la base factuelle des modèles de type ChatGPT. En raison de leur nature générative, il est difficile de [19] et encore plus difficile de garantir que la sortie générée est factuellement cohérente avec les sources d'information. contrôler leurs sorties Une solution à court terme pourrait consister à imposer des restrictions pour empêcher l'IA conversationnelle de produire des résultats dangereux ou non factuels. Cependant, les parties malveillantes peuvent éventuellement [7], tandis que [20] est un autre défi de recherche non résolu. contourner les restrictions de sécurité la vérification des faits À long terme, nous devrons peut-être accepter que les écrivains humains et machines resteront probablement imparfaits. Pour progresser vers une IA plus fiable, les modèles d'IA conversationnelle comme ChatGPT ne peuvent pas rester comme [21]. des boîtes noires impénétrables Ils doivent être totalement transparents sur leurs sources de données et les biais potentiels, signaler les cas où ils ont peu confiance en leurs réponses et expliquer leurs processus de raisonnement. Que réserve l'avenir aux modèles de type ChatGPT ? Après un tour d'horizon systématique, nous avons trouvé d'importantes limitations factuelles démontrées par la nouvelle vague de moteurs de recherche propulsés par l'IA conversationnelle comme ChatGPT. Malgré les avertissements d'inexactitude factuelle potentielle et les avertissements d'utiliser notre jugement avant de prendre des décisions, nous avons rencontré de nombreuses erreurs factuelles, même dans les démonstrations triées sur le volet. Ainsi, on ne peut s'empêcher de se demander : A quoi servent les moteurs de recherche, si ce n'est de fournir des réponses fiables et factuelles ? Dans une nouvelle ère du Web remplie de fabrications générées par l'IA, comment assurerons-nous la véracité ? Malgré les ressources massives des géants de la technologie comme Microsoft et Google, les modèles actuels de type ChatGPT ne peuvent pas garantir l'exactitude factuelle. Malgré tout, nous restons optimistes quant au potentiel des modèles conversationnels et au développement d'une IA plus fiable. Des modèles comme ChatGPT ont montré un grand potentiel et amélioreront sans aucun doute de nombreux secteurs et aspects de notre vie quotidienne. Cependant, s'ils continuent à générer du contenu fabriqué et des réponses non factuelles, le public pourrait devenir encore plus méfiant à l'égard de l'intelligence artificielle. Par conséquent, plutôt que de critiquer des modèles ou des entreprises spécifiques, nous espérons appeler les chercheurs et les développeurs à se concentrer sur l'amélioration de la transparence et de l'exactitude factuelle des services d'IA, permettant aux humains d'accorder un niveau de confiance plus élevé à la nouvelle technologie dans un avenir prévisible. Sources Articles de référence [1] ChatGPT : Optimisation des modèles de langage pour le dialogue : https://openai.com/blog/chatgpt/ [2] 7 problèmes auxquels sont confrontés Bing, Bard et l'avenir de la recherche par IA : https://www.theverge.com/2023/2/9/23592647/ai-search-bing-bard-chatgpt-microsoft-google-problems -défis [3] Google : Une prochaine étape importante dans notre parcours vers l'IA : https://blog.google/technology/ai/bard-google-ai-search-updates/ [4] L'erreur du bot Bard AI de Google efface 100 milliards de dollars d'actions : https://www.bbc.com/news/business-64576225 [5] Réinventer la recherche avec un nouveau Microsoft Bing et Edge alimenté par l'IA, votre copilote pour le Web : https://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new- ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/ [6] Les actions de Google perdent 100 milliards de dollars après que le chatbot IA de l'entreprise ait fait une erreur lors de la démonstration : https://www.cnn.com/2023/02/08/tech/google-ai-bard-demo-error [7] Les pirates vendent un service qui contourne les restrictions ChatGPT sur les logiciels malveillants : https://arstechnica.com/information-technology/2023/02/now-open-fee-based-telegram-service-that-uses-chatgpt-to -generate-malware/ Nouvelles sources de vérification des faits Bing : [8] de Microsoft ( ) Vidéo du communiqué de presse https://www.youtube.com/watch?v=rOeRWRJ16yY [9] de Microsoft : ( ) Page de démonstration https://www.bing.com/new Le nouveau rapport Bing et fiscal : [10a] présenté dans la vidéo : Rapport fiscal de Gap Inc. https://s24.q4cdn.com/508879282/files/doc_financials/2022/q3/3Q22-EPR-FINAL-with-Tables.pdf [10b] trouvé sur leur site officiel : Rapport fiscal de Lululemon https://corporate.lululemon.com/media/press-releases/2022/12-08-2022-210558496#:\~:text=Pour le troisième trimestre de 2022 %2C par rapport au troisième,%2C et augmenté de 41%25 à l'international Le nouveau Bing et les poètes japonais : [11a] Eriko Kishida : ( ), ( ) Wikipédia https://twitter.com/sundarpichai/status/1622673369480204288 IMDB https://www.imdb.com/name/nm1063814/ [11b] Gacket : ( ) Wikipédia https://en.wikipedia.org/wiki/Gackt Le nouveau Bing et les boîtes de nuit au Mexique : [12a] El Almacen : ( ), ( ) Google Maps https://goo.gl/maps/3BL27XgWpDVzLLnaA Restaurant Guru https://restaurantguru.com/El-Almacen-Mexico-City [12b] El Marra : ( ), ( ) Google Maps https://goo.gl/maps/HZFe8xY7uTk1SB6s5 Restaurant Guru https://restaurantguru.com/El-Marra-Mexico-City [12c] Guadalajara de Noche : ( ), ( ) Tripadvisor https://www.tripadvisor.es/Attraction_Review-g150800-d3981435-Reviews-Guadalajara_de_Noche-Mexico_City_Central_Mexico_and_Gulf_Coast.html Google Maps https://goo.gl/maps/UeHCm1EeJZFP7wZYA [13] Le nouveau Bing et des idées d'artisanat ( ) : https://www.bing.com/search?q=Idées d'art et d'artisanat, avec des instructions pour un tout-petit utilisant uniquement des boîtes en carton, des bouteilles en plastique, du papier et de la ficelle&iscopilotedu=1&form=MA13G7 [13a] Site Web cité : ( ) Happy Toddler Playtime https://happytoddlerplaytime.com/cardboard-box-guitar-craft-for-kids/ Sources de vérification des faits Bard : [14] Blog promotionnel ( ) et vidéo ( ) https://twitter.com/sundarpichai/status/1622673369480204288 https://twitter.com/sundarpichai/status/1622673775182626818 [15] ( ) Démonstration vidéo https://www.youtube.com/watch?v=yLWXJ22LUEc Quel télescope a capturé les premières images d'exoplanètes [16a] par Grant Tremblay (astrophysicien américain) ( ) Twitter https://twitter.com/astrogrant/status/1623091683603918849 [16b] NASA : 2M1207 b — Première image d'une exoplanète ( ) https://exoplanets.nasa.gov/resources/300/2m1207-b-first-image-of-an-exoplanet/ Quand les constellations sont visibles [17a] ( ) meilleur résultat : ( Google https://www.google.com/search?client=safari&rls=en&q=when+is+orion+visible&ie=UTF-8&oe=UTF-8 Byju's https://byjus. com/question-réponse/dans-quelle-saison-de-l-année-est-la-constellation-orion-visible-dans-le-ciel/ ) [17b] Page « Orion (constellation) » : Wikipédia https://en.wikipedia.org/wiki/Orion_(constellation) Références académiques [18] Une introduction à la recherche d'informations : https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf [19] Vers une génération contrôlée de texte : http://proceedings.mlr.press/v70/hu17e/hu17e.pdf [20] FEVER : un ensemble de données à grande échelle pour l'extraction et la vérification des faits : https://aclanthology.org/N18-1074.pdf [21] Coup d'œil à l'intérieur de la boîte noire : une enquête sur l'intelligence artificielle explicable (XAI) : https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8466590 Crédit d'image, invite de "le vérificateur de faits du robot utilise une loupe pour examiner la précision d'un chatbot ai". du générateur d'images HackerNoon AI