作者:Yew Ken Chia, Ruochen Zhao, Xingxuan Li, Bosheng Ding, Lidong Bing
最近, OpenAI 的 ChatGPT [1] 等对话式 AI 模型凭借生成高质量书面内容、进行类人对话、回答事实性问题等能力吸引了公众的想象力。
凭借这种潜力,Microsoft 和 Google 宣布了将它们与传统搜索引擎相结合的新服务[2]。
新一波以对话为动力的搜索引擎有可能自然地回答复杂的问题、总结搜索结果,甚至可以作为一种创造性的工具。
然而,在这样做的过程中,科技公司现在面临着更大的道德挑战,以确保他们的模型不会以错误、毫无根据或相互矛盾的答案误导用户。因此,问题自然而然地出现了: ChatGPT-like 模型能否保证事实的准确性?
在本文中,我们发现了Microsoft 的新 Bing [9] 和Google 的 Bard [3] 中的几个事实错误,这表明它们目前还不能。
不幸的是,错误的期望会导致灾难性的后果。大约在微软发布新 Bing 的同时,谷歌匆忙宣布了一项名为 Bard 的新对话式 AI 服务。
尽管大肆宣传,但当巴德在宣传视频[14] 中犯了一个事实性错误时,预期很快就破灭了,最终导致谷歌的股价[4] 下跌近 8%,市值蒸发 1000 亿美元。
另一方面,对微软新必应的审查较少。在演示视频[8]中,我们发现新必应将一位摇滚歌手推荐为顶级诗人,编造生卒年,甚至编造了一份完整的财报摘要。
尽管免责声明[9] 新必应的反应可能并不总是事实,但过于乐观的情绪可能不可避免地导致幻灭。
因此,我们的目标是引起人们对对话式搜索引擎所面临的实际挑战的关注,以便我们将来可以更好地解决这些问题。
微软发布了由 AI 驱动的全新 Bing 搜索引擎,声称它将彻底改变传统搜索引擎的范围。真的是这样吗?我们深入研究了演示视频[8] 和示例[9],发现了三种主要类型的事实问题:
财报造假数字:相信新必应需谨慎!
令我们惊讶的是,新必应在演示中伪造了一份完整的财务报告摘要!
当 Microsoft 执行官 Yusuf Mehdi 向观众展示如何使用命令“key takeaways from the page”自动生成Gap Inc. 2022 年第三季度财报摘要 [10a] 时,他收到了以下结果
然而,经过仔细检查,生成的摘要中的所有关键数字都不准确。我们将在下面显示原始财务报告的摘录作为验证参考。
根据新必应的说法,调整后的营业利润率为5.9%,而源报告中实际为3.9%。
同样,调整后的摊薄每股收益为 0.42 美元,而应为 0.71 美元。
关于净销售额,新必应的摘要声称“增长在低两位数”,而原始报告称“净销售额可能下降中个位数”。
除了生成的数字与源报告中的实际数字相冲突外,我们观察到新 Bing 还可能产生源报告中不存在的幻觉事实。
在 Bing 生成的新摘要中,源报告中找不到“约 7% 的营业利润率和 1.60 美元至 1.75 美元的每股摊薄收益”。
不幸的是,当新的 Bing 被指示“将其与表格中的 Lululemon 进行比较”时,情况变得更糟了。新必应生成的财务比较表包含许多错误:
事实上,这张表错了一半。在所有数字中,Gap Inc. 的列中 6 个数字中有 3 个是错误的,Lululemon 也是如此。
如前所述,Gap Inc. 的真实营业利润率为 4.6%(调整后为 3.9%),摊薄后每股收益应为 0.77 美元(调整后为 0.71 美元)。
新必应还声称,Gap Inc. 的现金和现金等价物为 14 亿美元,而实际为 6.79 亿美元。
根据Lululemon 的 2022 年第三季度财报[10b],毛利率应为 55.9%,而新必应声称为 58.7%。
营业利润率应为 19.0%,而新必应声称为 20.7%。每股摊薄收益实际上为 2.00 美元,而新 Bing 声称为 1.65 美元。
那么,这些数字是从哪里来的呢?您可能想知道它是否是从原始文档的其他部分放错位置的数字。答案是不。奇怪的是,这些数字在原始文件中无处可寻,完全是捏造的。
事实上,限制生成模型的输出更基于事实仍然是一个开放的研究挑战。
说白了,ChatGPT 等流行的生成式 AI 模型是从固定的词汇表中挑选单词生成,而不是严格地从源头复制和粘贴事实。
因此,事实正确性是生成式人工智能的先天挑战之一,目前的模型无法严格保证。对于搜索引擎而言,这是一个主要问题,因为用户依赖结果的可信度和事实准确度。
日本顶级诗人:偷偷当摇滚歌手?
我们观察到,新必应不仅对数字而且对特定实体的个人详细信息都会产生事实错误,如上面当新必应被问及“日本顶级诗人”时的回复所示。
生成的出生日期、死亡日期和职业日期与参考来源实际上存在冲突。根据维基百科[11a] 和IMDB [11a],岸田惠理子生于 1929 年,卒于 2011 年。她不是剧作家和散文家,而是儿童读物作者和翻译家。
新 Bing 继续犯错误,宣称 Gackt 是日本顶级诗人,而实际上他是日本著名的摇滚明星。根据维基百科来源[11b],他是一名演员、音乐家和歌手。来源中没有关于他发表任何类型诗歌的信息。
遵循 Bing 的夜总会推荐?你可能正面临着一扇紧闭的门。
此外,当被问及“夜生活在哪里?”时,新必应列出了墨西哥城可能去的夜总会。令人担忧的是,几乎所有俱乐部的开放时间都是错误生成的:
我们通过多个来源交叉检查了开放时间,这些来源也附在文章末尾。虽然El Almacen [12a] 实际上从周二到周日晚上 7:00 到凌晨 3:00 开放,但新 Bing 声称它“从周二到周日下午 5:00 到晚上 11:00 开放”。
El Marra [12b] 实际上从周四到周六下午 6:00 到凌晨 2:30 开放,但声称“从周四到周日下午 6:00 到凌晨 3:00 开放”。
Guadalajara de Noche [12c] 的营业时间为每天下午 5:30 至凌晨 1:30 或凌晨 12:30,而新必应声称它“每天晚上 8:00 至凌晨 3:00 营业”。
除了开放时间,新必应提到的评论星级和数字几乎所有描述都是不准确的。尽管在 Yelp、Tripadvisor 或谷歌地图上进行了搜索,但仍找不到匹配的评论分数。
除了上面提到的案例,我们在他们的演示视频中还发现了其他问题,例如产品价格不匹配、商店地址错误以及与时间相关的错误。如果有兴趣,欢迎您验证它们。
虽然新的 Bing 搜索引擎还不能完全访问,但我们可以检查 Microsoft 提供的一些演示示例[9]。经过仔细检查,即使是这些精心挑选的例子也显示出基于事实的潜在问题。
在题为“我的孩子可以做什么艺术创意?”的演示中,新 Bing 为每个推荐提供了不足的工艺材料列表[13]。
例如,在建议制作纸箱吉他时,它列出了用品:“一个纸巾盒,一个纸板管,一些橡皮筋,油漆和胶水”。
然而,它没有包括引用网站[13a] 建议的建筑用纸、剪刀、纸胶带、泡沫贴纸和木珠。
另一个潜在的担忧是,新必应生成的内容在参考源中没有事实依据,在 12 个演示示例中至少出现了 21 次。
缺乏事实依据和未能引用完整的来源列表可能会导致用户质疑新必应的可信度。
谷歌还推出了一项名为 Bard [3] 的对话式 AI 服务。用户无需输入传统的搜索查询,而是可以与基于网络的聊天机器人进行随意且信息丰富的对话。
例如,用户可能最初询问最适合观星的星座,然后询问一年中观看它们的最佳时间。然而,一个明确的免责声明是巴德可能会提供“不准确或不适当的信息”。
让我们调查 Bard 在他们的Twitter 帖子[14] 和视频演示[15] 中的事实准确性。
谷歌 CEO Sundar Pichai 最近发布了一段短片[14] 来展示 Bard 的能力。然而,答案包含关于哪个望远镜拍摄了第一张系外行星图像的错误,天体物理学家很快指出了这一点 [16a]。
正如NASA [16b] 证实的那样,系外行星的第一张图像是由甚大望远镜 (VLT) 而不是詹姆斯韦伯太空望远镜 (JWST) 拍摄的。
不幸的是,事实证明,巴德是一个代价高昂的实验,因为谷歌的股价在事实错误的消息被报道后急剧下跌[4]。
关于 Bard 的视频演示,上图显示了Google 的 Bard 如何回答星座何时可见的问题[16]。然而,猎户座的时间与多个消息来源不一致。
根据顶部的谷歌搜索结果[17a],该星座在 1 月至 3 月最为明显。根据维基百科[17b],它在 1 月到 4 月最为明显。
此外,答案是不完整的,因为星座的可见性还取决于用户是在北半球还是南半球。
新的 Bing 和 Bard 服务在实践中可能并不同样值得信赖。这是由于搜索结果的质量、对话模型的质量以及所提供答案的透明度等因素造成的。
目前,这两种服务都依赖相关信息源来指导其对话式 AI 模型的响应。
因此,答案的事实准确性取决于信息检索系统[18] 的质量,以及会话模型生成基于信息源的事实答案的能力。
由于这些服务的全部细节并未向公众发布,因此如果不进行更深入的测试,尚不清楚哪一个可以达到更高的事实准确性。另一方面,我们认为透明度与可信度同样重要。
例如,我们观察到新必应在其答案来源方面更加透明,因为它在大多数情况下都提供了参考链接。这使用户能够独立地进行事实核查,我们希望未来的会话服务也能提供这一功能。
通过上面显示的众多事实错误,很明显,即使在提供可靠来源的情况下,ChatGPT 等对话式 AI 模型也可能会产生相互矛盾或不存在的事实。
如前所述,确保类 ChatGPT 模型的事实基础是一项紧迫的研究挑战。
由于它们的生成性,很难控制它们的输出[19],更难保证生成的输出与信息源实际上一致。
一个短期的解决方案可能是施加限制,以防止对话式人工智能产生不安全或不真实的输出。然而,恶意方最终可以绕过安全限制[7],而事实验证[20] 是另一个未解决的研究挑战。
从长远来看,我们可能不得不接受人类和机器作家一样可能仍然不完美。为了向更值得信赖的 AI 发展,像 ChatGPT 这样的对话式 AI 模型不能保持作为难以理解的黑匣子[21]。
他们应该对其数据来源和潜在偏见完全透明,当他们对自己的答案信心不足时报告,并解释他们的推理过程。
经过系统的概述后,我们发现由对话式 AI(如 ChatGPT)提供支持的新一代搜索引擎显示出重大的事实局限性。
尽管有潜在的事实不准确的免责声明和在做出决定之前使用我们的判断的警告,但即使在精心挑选的演示中,我们也遇到了许多事实错误。
因此,我们不禁要问:搜索引擎的目的不是提供可靠和真实的答案吗?在充满 AI 生成的捏造的网络新时代,我们将如何确保真实性?
尽管微软和谷歌等科技巨头拥有大量资源,但目前的类似 ChatGPT 的模型无法确保事实的准确性。即便如此,我们仍然看好对话模型的潜力和更值得信赖的人工智能的发展。
像 ChatGPT 这样的模型已经显示出巨大的潜力,无疑将改善许多行业和我们日常生活的方方面面。然而,如果他们继续制造捏造的内容和不符合事实的答案,公众可能会对人工智能更加警惕。
因此,与其批评特定的模型或公司,我们希望呼吁研究人员和开发人员专注于提高人工智能服务的透明度和事实正确性,让人类在可预见的未来对新技术产生更高的信任度。
参考文章
[1] ChatGPT:优化对话的语言模型: https://openai.com/blog/chatgpt/
[2] Bing、Bard 面临的 7 个问题以及 AI 搜索的未来: https://www.theverge.com/2023/2/9/23592647/ai-search-bing-bard-chatgpt-microsoft-google-problems -挑战
[3] 谷歌:我们人工智能之旅的重要下一步: https ://blog.google/technology/ai/bard-google-ai-search-updates/
[4] 谷歌的 Bard AI 机器人失误导致 1000 亿美元的股票蒸发: https://www.bbc.com/news/business-64576225
[5] 使用新的 AI 驱动的 Microsoft Bing 和 Edge 重塑搜索,您的网络副驾驶: https ://blogs.microsoft.com/blog/2023/02/07/reinventing-search-with-a-new- ai-powered-microsoft-bing-and-edge-your-copilot-for-the-web/
[6] 公司的 AI 聊天机器人在演示期间出错后,谷歌股价损失 1000 亿美元: https://www.cnn.com/2023/02/08/tech/google-ai-bard-demo-error
[7] 黑客正在销售绕过 ChatGPT 对恶意软件的限制的服务: https://arstechnica.com/information-technology/2023/02/now-open-fee-based-telegram-service-that-uses-chatgpt-to -生成恶意软件/
新必应事实验证来源:
[8] 微软的新闻发布视频( https://www.youtube.com/watch?v=rOeRWRJ16yY )
[9] 微软的演示页面:( https://www.bing.com/new )
新的必应和财政报告:
[10a] Gap Inc. 视频中显示的财务报告: https://s24.q4cdn.com/508879282/files/doc_financials/2022/q3/3Q22-EPR-FINAL-with-Tables.pdf
[10b] Lululemon 官方网站上的财政报告: https://corporate.lululemon.com/media/press-releases/2022/12-08-2022-210558496#:\~:text=2022 年第三季度%2C 与第三名相比,%2C 在国际上增加了 41%25
新兵和日本诗人:
[ 11a ] Eriko Kishida:维基百科( https://twitter.com/sundarpichai/status/1622673369480204288),IMDB(https://www.imdb.com/name/nm1063814/ )
[11b] Gacket:维基百科( https://en.wikipedia.org/wiki/Gackt )
墨西哥的新 Bing 和夜总会:
[12a] El Almacen:谷歌地图( https://goo.gl/maps/3BL27XgWpDVzLLnaA ), Restaurant Guru ( https://restaurantguru.com/El-Almacen-Mexico-City )
[12b] El Marra: 谷歌地图( https://goo.gl/maps/HZFe8xY7uTk1SB6s5 ), Restaurant Guru ( https://restaurantguru.com/El-Marra-Mexico-City )
[12c] Guadalajara de Noche: Tripadvisor ( https://www.tripadvisor.es/Attraction_Review-g150800-d3981435-Reviews-Guadalajara_de_Noche-Mexico_City_Central_Mexico_and_Gulf_Coast.html ),谷歌地图( https://goo.gl/maps/UeHCm1EeJZFP7wZYA )
[13] 新的 Bing 和工艺创意 ( https://www.bing.com/search?q=Arts and crafts ideas, with instructions for a toddler using only cardboard boxes, plastic bottles, paper and string&iscopilotedu=1&form=MA13G7 ) :
[13a] 引用网站:快乐幼儿游戏时间( https://happytoddlerplaytime.com/cardboard-box-guitar-craft-for-kids/ )
巴德事实验证来源:
[14] 宣传博客( https://twitter.com/sundarpichai/status/1622673369480204288 )和视频( https://twitter.com/sundarpichai/status/1622673775182626818 )
[15]视频演示( https://www.youtube.com/watch?v=yLWXJ22LUEc )
哪个望远镜拍摄了第一张系外行星图像
[16a] Grant Tremblay(美国天体物理学家)的推特( https://twitter.com/astrogrant/status/1623091683603918849 )
[16b] NASA:2M1207 b - 系外行星的第一张图片 ( https://exoplanets.nasa.gov/resources/300/2m1207-b-first-image-of-an-exoplanet/ )
当星座可见时
[17a] 谷歌( https://www.google.com/search?client=safari&rls=en&q=when+is+orion+visible&ie=UTF-8&oe=UTF-8 ) 最高结果: Byju ( https://byjus. com/question-answer/in-which-season-of-the-year-is-the-constellation-orion-visible-in-the-sky/ )
[17b]维基百科页面“猎户座(星座)”: https://en.wikipedia.org/wiki/Orion_(constellation)
学术参考
[18] 信息检索简介: https ://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf
[19] 文本的受控生成: http://proceedings.mlr.press/v70/hu17e/hu17e.pdf
[20] FEVER:用于事实提取和验证的大规模数据集: https://aclanthology.org/N18-1074.pdf
[21] 窥探黑匣子:可解释人工智能 (XAI) 调查:https: //ieeexplore.ieee.org/stamp/stamp.jsp ?tp=&arnumber=8466590
图片来源,HackerNoon AI 图像生成器提示“机器人事实检查器使用放大镜检查 ai 聊天机器人的准确性”。