大型语言模型不仅把事情弄错了,还将错误呈现为事实,即使在新版本中,问题还没有消失。 将 GPT-5 的基准错误率置于 1.4% - 低于 GPT-4 的 1.8%,并且只有 0.09% 比 GPT-4o 的 1.49% 更好 LLM幻觉领导板 这是一个小小的改善,但问题仍然存在。 公众已经看到了这可能有多糟糕。2024年中期,谷歌的AI概览告诉人们吃矿石 - 谷歌后来承认了这个问题。2023年初,谷歌的Bard演示错了詹姆斯韦伯太空望远镜的事实。 这些可能看起来像有趣的标题,但当人们实际上依赖这些工具时,情况不同。 What causes hallucinations in LLMs 什么导致幻觉在LLMs 包括ChatGPT在内的法学硕士被训练来预测下一个单词的序列,而不是验证事实,他们没有内置的数据库,保证真理;相反,他们通过从训练数据中合成模式来生成文本。 培训数据来自巨大的网页扫描 - 博客,论坛,wiki. 今天,许多网页都是人工智能编写的,所以模型开始从自己的输出中学习。 No more free data 没有更多的免费数据 到2023年中期,用户生成的内容(UGC)平台开始锁定访问权限,Reddit限制了其免费API;subreddits变暗,Twitter/X终止了免费API访问权限,LinkedIn打击了大批量摘取权限,Stack Overflow表示,它将收取对其Q&A的培训访问费。 大型AI公司转向付费许可,公共模型留下了旧的,混乱的网络数据 - 使他们更有可能在自己的AI写文本上训练。 Paying for access 付费获取 OpenAI于2023年与Associated Press签署了一份协议,随后与Axel Springer和News Corp签署了多年的协议,到2025年,包括《卫报》和《华盛顿邮报》在内的20多家出版商加入了该协议,一些协议允许人工智能模型访问档案,另一些协议涵盖了产品内部的链接和归因。 人工智能培训数据市场本身在2024年估值约32亿美元,预计到2034年将增长到163亿美元。 Where the clean data lives 清洁数据居住的地方 授权和清理的数据正在形成特定行业的储藏库: 新闻出版(2023年至2025年):AP、Axel Springer、News Corp、Dotdash Meredith;加上《卫报》、华盛顿邮报、Vox Media和The Atlantic(档案访问和产品链接/分配的组合)。 学术和文化(2024年至2025年):哈佛的公共领域书籍;麻省理工学院的数据来源工作;像arXiv和Semantic Scholar这样的开放库。 医学与可靠性(2025):研究存储库,如ScaleMAI(医学图像处理)和DR-AIR(人工智能可靠性数据集);PubMed摘要是开放的,而许多完整的文本仍然受到限制。 商业和企业(2023年至2025年):BloombergGPT在专有金融数据方面进行了培训;Thomson Reuters通过集成提供的内容;大数据 / 注释提供商(Appen, Scale AI);以及公司内部使用的传感器 / 工业远程测量。 专业化(2025):重大投资以确保授权的培训数据和基础设施(例如,Meta-Scale AI);授权培训的“公平培训”认证。 《纽约时报》于2023年12月起起诉OpenAI和微软,明确将不会授权其档案,《金融时报》于2024年4月与OpenAI签署协议,Elsevier和Wiley保持关闭的科学档案。 Paid, specialised data is next 付费,专门数据是下一个 我们可能会陷入分裂:开放式网络很适合快速搜索、编写文本或回答日常问题等简单任务;严肃的研究、分析和人工智能构建转向清洁的数据库 - 经过检查,过滤,验证 - 经常在订阅后面。 这个设置需要基于角色的访问 - HR 看到人力资源,金融看到金融,法律看到法律。基于角色的访问意味着模型只从个人清除的视图中提取。 大多数聊天机器人今天不这样做,如果这种差距仍然存在,建立角色意识的搜索和锁定知识库的团队将赢得信任 - 和合同。 What to do with only public AI access 只有公共AI访问才能做什么 快递工程往往是对制造答案的第一道防线 - 它是廉价和即时的. 如果快递是不明确的,答案将是不明确的. 行业从业人员强调同一点:没有足够的背景,输出很可能很差,模型更容易幻觉。 最佳实践包括: 包括:谨慎;如果不确定,说“未知”;只使用下面的来源;不要发明引用。 如果浏览已关闭,请自己粘贴关键段落,并用清晰的界限标记它们(例如 <data>...</data>),然后指示模型仅从该文本中回答。 状态目标、观众、长度和任何时间窗口(例如,对于时间敏感主题,选择过去12个月的来源)。 禁止附加声明,禁止未经提供的材料支持的声明。 要求收据(安全)。在索赔后,只要求从提供的来源中引用包含发布日期和简短的支持性引用(≤25字)。 选择正确的模式. 选择精确的 / 分析的创意; 最低的温度 / 顶部P 在可能的情况下。 草案小,然后扩展,从概述或简短草案开始;用专注的后续改进。 验证名字、数字、日期、引用;删除没有真实来源的任何行。 健康,法律或金钱索赔必须在采取行动之前在官方网站或第二个值得信赖的来源上确认。 将有效提示转化为可重复使用的模板;当出现重复错误时进行调整。 保持一个源包. 保持一小组可信的链接 / 文本摘要,准备将答案固定起来。 The bottom line 底线 到2025年,分裂是明确的: 公共AI:快速,可访问,在广泛的互联网垃圾上受过培训. 适合随时使用,不值得信赖的合规性。 企业AI:付费,策划和审计,建立在授权的水库上,结合治理和日志。 两者都将继续下去. 区别在于一个优先考虑速度,另一个优先考虑问责。 在医院图表或法庭提交中,这是灾难性的,这就是为什么策划的水库和防护栏正在成为严肃的人工智能的基础。