paint-brush
探秘ChatGPT背后的技术与训练秘诀经过@ILLA Cloud
1,087 讀數
1,087 讀數

探秘ChatGPT背后的技术与训练秘诀

经过 ILLA Cloud7m2023/04/24
Read on Terminal Reader

太長; 讀書

ChatGPT 因其卓越的对话技巧而广受欢迎。它拥有广泛的能力,包括玩游戏、作诗和剧本的能力。 ChatGPT 接受的培训侧重于道德原则,允许它拒绝违反其预定道德准则的请求或问题。
featured image - 探秘ChatGPT背后的技术与训练秘诀
ILLA Cloud HackerNoon profile picture
0-item

ChatGPT 因其卓越的对话技巧而广受欢迎。它拥有广泛的能力,包括玩游戏、作诗和脚本、协助程序调试、创建网站设计甚至生成 AIGC 提示的能力。人们可以在 Twitter 上找到它的能力的几个例子,由 Ben Tossell 编译。


事实上,最近一位 MBA 教授要求 ChatGPT 回答他们的管理问题,得出的结论是,他们不应再布置可以带回家的作业。很明显,许多人发现一旦开始使用 ChatGPT 就很难停止使用。

聊天GPT

改进Chatgpt的方法

与其前身 GPT-3 相比,ChatGPT 的关键改进在于它能够保留以前的对话数据,从而在扩展对话期间为用户提供无缝体验。


ChatGPT 能够承认并纠正其错误。如果你发现它的回答不尽如人意,你可以提示它修改它的答案并提供更好的解决方案。


ChatGPT 有能力质疑和挑战有缺陷的假设。在 GPT-3 发布的早期,由于 AI 生成了看似有道理但不符合现实的虚假内容,许多用户都有过负面体验。但是,如果您向 ChatGPT 询问“哥伦布 2015 年在美国做什么?”这样的问题。它会承认哥伦布在那段时间不存在。


此外,ChatGPT 接受过注重道德原则的培训,允许它拒绝违反其预定道德准则的请求或问题。尽管如此,尽管 OpenAI 很谨慎,但巧妙的提问仍可能允许规避这些准则。

ChatGPT训练方法

ChatGPT 采用的训练方法遵循用于大型模型的“预训练-微调”的传统方法。该模型首先在广泛的公共数据集上进行训练,然后通过使用较小的数据集进行微调以适应特定的应用领域(例如类人对话)以达到所需的性能。微调、提示和其他技术不会显着修改模型的核心,但它们可以显着增强其实用性能。然而,GPT-3 对人类查询的理解能力并不是最自然的,需要重构任务或微调模型以匹配工作,从而提高效率。


ChatGPT 是 InstructGPT 的兄弟模型,于 2022 年 1 月发布。InstructGPT 结合了模型输出的人类演示并对训练结果进行排序,使其比 GPT-3 更适合遵循人类指令。 ChatGPT 的创新训练方法被称为“从人类反馈中强化学习”(RLHF)。


ChatGPT 建立在 GPT-3.5 模型之上,利用文本和代码数据集进行训练,并为此目的使用 Microsoft 的 Azure AI 服务器。原始的 GPT-3 训练数据集只包含文本,因此这个新版本增加了理解和生成代码的能力。

GPT3.5

为什么 ChatGPT 显示出如此显着的改进?

ChatGPT 的训练方法除了拥有记忆力和与上下文进行持续对话的能力外,也值得一提。 RLHF 方法于 2022 年 3 月在一篇研究论文中首次引入,但在 InstructGPT 的训练过程中并没有使用,尽管业界有猜测。


InstructGPT 采用了 text-DaVinci-002 模型,该模型遇到了模式崩溃等问题,无论提出什么问题,它都会收敛到相同的答案。 ChatGPT 凭借 RLHF 方法的成功应用取得了显著成果。然而,RLHF 并不容易训练,因为它经常遇到反馈稀疏和模式崩溃等问题。


该论文于 3 月发表,但直到 12 月才启动 ChatGPT,因为需要进行重大微调。此外,指令调优为 ChatGPT 的开发做出了重大贡献。 InstructGPT 的参数比 GPT-3 少,但其输出优于 GPT-3 和使用监督学习微调的模型。 Instruction tuning 和 prompt method 有着相似的探索语言模型内在知识的核心。然而,它们的不同之处在于提示刺激语言模型的完成能力,而指令调优通过提供清晰的指令来刺激语言模型的理解能力。


过去较大的模型专注于模型本身和提示工程,而ChatGPT的迭代重点是右侧的闭环,如下图所示。

ChatGPT的迭代重点在闭环

最后,ChatGPT 在提供有效答案和避免虚假信息之间取得了很好的平衡。这与 Meta 的卡拉狄加模型形成鲜明对比,该模型在发布后仅三天就因提供过多虚假信息而被撤下。


造成这种情况的部分原因是 Meta 过度炒作的营销,它使期望值过高,最终导致挑剔的研究人员感到失望。然而,ChatGPT 在微调和提示工程方面做得很彻底,这有助于识别自相矛盾的问题,并让用户对其答案的准确性更有信心,尽管它不能完全消除虚假信息的问题。

经营战略很重要

与根据用户的使用情况向用户收费的 GPT-3 不同,ChatGPT 目前免费向公众开放,且访问权限不受限制。这允许用户在平台上试验各种奇异的想法。还鼓励用户提供反馈,这对 OpenAI 非常有价值。虽然OpenAI并不急于创收,也不缺资金,但有传言称其最新估值已达数百亿美元,微软是其主要投资方。


在人工智能的发展中,工程学的重要性其实大于科学,创造一个迭代的反馈循环是至关重要的。 OpenAI非常重视商业应用,GPT-3已经拥有大量客户。这些客户与 OpenAI 的互动和反馈也是进步的关键驱动力。


相比之下,谷歌闭门造车的做法就显得不合时宜了。这或许是商业文化的缺失,或者是投入产出比的局限。谷歌在大模型的应用上一直很“克制”,即使起点很高。如果它继续小规模迭代,就像 Waymo 的自动驾驶方法一样,它最终会被更开放、数据更丰富的公司所超越。

GPT-3 企业客户

未来的改进:

RLHF 是一种相对较新的方法,随着 OpenAI 不断探索和吸收从 ChatGPT 收集的用户反馈,模型仍有进一步改进的空间。具体来说,有必要解决道德/一致性问题,并防止通过绕过系统限制而产生的负面信息,正如用户在过去几天发现的那样。


另外值得一提的是,OpenAI还有WebGPT等工具,可以理解为一种高级网络爬虫,从互联网中提取信息,回答问题,并提供相应的来源。 WebGPT 可以利用 GPT-3 本身的语义理解能力和来自互联网的公开信息来生成答案,是一种很有前途的升级搜索能力。


在《麻省理工科技评论》对 OpenAI 科学家的采访中,讨论了未来合并 ChatGPT 和 WebGPT 功能的可能性。一些互联网用户在 ChatGPT 中发现了一些提示,提示浏览网页的功能目前已被禁用,但将来可能会添加。结合 ChatGPT 和 WebGPT 可能会产生更吸引人的结果,因为信息将实时更新,并有助于更精确地评估事实的真实性。


说到与WebGPT的结合,涉及到动作驱动的LLM训练流程图左侧,链接外部信息源和工具库。网络搜索只是一种可能性; ChatGPT还可以与各种工具结合,如不同的办公软件、SaaS软件等,提供更多样化的功能。


在产品层面,值得讨论更好的接口和实现方式。并排对话框格式可以提高期望值,因为它需要确保对话的流畅性。 Github Copilot 在这方面做得很好。 Copilot擅长编程结对,以搭档的形式提出建议。用户可以接受好的建议,拒绝不好的建议。即使拒绝了许多建议,接收随机生成的有效建议的乐趣也会让人上瘾。如果未来ChatGPT成为写作、编剧或工作助手,类似于Copilot的产品形态将很容易被人们接受。


总之,很多人都对 ChatGPT 的功能感到惊讶,但真正的奇迹还在后面。 OpenAI 的优势不仅在于理解大型模型,还在于其设计和迭代接收反馈的能力,以及它在 AI 与人类目标之间的一致性方面的工作。 OpenAI 首席执行官 Sam Altman 的话,“相信指数。向后看,垂直向前看,”表达了我们目前的腾飞状态。

介绍 ILLA 云

ILLA Cloud 是一个低代码开发平台,具有数十个前端组件和数据库 API 集成。您可以使用ILLA Cloud构建前端界面,通过拖放组件并连接到您的数据库或API,快速完成全栈开发。


ILLA 自豪地宣布与 Hugging Face 建立合作伙伴关系,这是一套自然语言处理 (NLP) 工具和服务。他们以开源 NLP 库而闻名,该库提供文本生成、语言翻译和命名实体识别工具。有了 Hugging Face,ILLA 比以前更有效率。我们的用户可以使用 AI 做更多事情。


ILLA Cloud提供了数十种常用的前端组件,让您可以根据自己的具体需求快速构建不同的前端界面。同时,ILLA提供了与Hugging Face的连接,可以让你快速连接API,发送请求,接收返回数据。通过API和前端组件的连接,可以实现用户通过前端输入内容,提交给API的需求。 API 将生成的内容返回到前端显示。


ILLA Cloud的未来规划,请查看我们的Roadmap: https://github.com/orgs/illacloud/projects/4


我们对 ILLA Cloud 的未来感到兴奋,希望您也是。如果您想加入我们的旅程,可以通过以下方式参与:




加入我们的 Discord 社区: discord.com/invite/illacloud免费试用 ILLA Cloud: cloud.illacloud.com ILLA 主页: illacloud.com GitHub 页面: github.com/illacloud/illa-builder



也出现在这里