ChatGPT 因其卓越的对话技巧而广受欢迎。它拥有广泛的能力,包括玩游戏、作诗和脚本、协助程序调试、创建网站设计甚至生成 AIGC 提示的能力。人们可以在 Twitter 上找到它的能力的几个例子,由 Ben Tossell 编译。
事实上,最近一位 MBA 教授要求 ChatGPT 回答他们的管理问题,得出的结论是,他们不应再布置可以带回家的作业。很明显,许多人发现一旦开始使用 ChatGPT 就很难停止使用。
与其前身 GPT-3 相比,ChatGPT 的关键改进在于它能够保留以前的对话数据,从而在扩展对话期间为用户提供无缝体验。
ChatGPT 能够承认并纠正其错误。如果你发现它的回答不尽如人意,你可以提示它修改它的答案并提供更好的解决方案。
ChatGPT 有能力质疑和挑战有缺陷的假设。在 GPT-3 发布的早期,由于 AI 生成了看似有道理但不符合现实的虚假内容,许多用户都有过负面体验。但是,如果您向 ChatGPT 询问“哥伦布 2015 年在美国做什么?”这样的问题。它会承认哥伦布在那段时间不存在。
此外,ChatGPT 接受过注重道德原则的培训,允许它拒绝违反其预定道德准则的请求或问题。尽管如此,尽管 OpenAI 很谨慎,但巧妙的提问仍可能允许规避这些准则。
ChatGPT 采用的训练方法遵循用于大型模型的“预训练-微调”的传统方法。该模型首先在广泛的公共数据集上进行训练,然后通过使用较小的数据集进行微调以适应特定的应用领域(例如类人对话)以达到所需的性能。微调、提示和其他技术不会显着修改模型的核心,但它们可以显着增强其实用性能。然而,GPT-3 对人类查询的理解能力并不是最自然的,需要重构任务或微调模型以匹配工作,从而提高效率。
ChatGPT 是 InstructGPT 的兄弟模型,于 2022 年 1 月发布。InstructGPT 结合了模型输出的人类演示并对训练结果进行排序,使其比 GPT-3 更适合遵循人类指令。 ChatGPT 的创新训练方法被称为“从人类反馈中强化学习”(RLHF)。
ChatGPT 建立在 GPT-3.5 模型之上,利用文本和代码数据集进行训练,并为此目的使用 Microsoft 的 Azure AI 服务器。原始的 GPT-3 训练数据集只包含文本,因此这个新版本增加了理解和生成代码的能力。
ChatGPT 的训练方法除了拥有记忆力和与上下文进行持续对话的能力外,也值得一提。 RLHF 方法于 2022 年 3 月在一篇研究论文中首次引入,但在 InstructGPT 的训练过程中并没有使用,尽管业界有猜测。
InstructGPT 采用了 text-DaVinci-002 模型,该模型遇到了模式崩溃等问题,无论提出什么问题,它都会收敛到相同的答案。 ChatGPT 凭借 RLHF 方法的成功应用取得了显著成果。然而,RLHF 并不容易训练,因为它经常遇到反馈稀疏和模式崩溃等问题。
该论文于 3 月发表,但直到 12 月才启动 ChatGPT,因为需要进行重大微调。此外,指令调优为 ChatGPT 的开发做出了重大贡献。 InstructGPT 的参数比 GPT-3 少,但其输出优于 GPT-3 和使用监督学习微调的模型。 Instruction tuning 和 prompt method 有着相似的探索语言模型内在知识的核心。然而,它们的不同之处在于提示刺激语言模型的完成能力,而指令调优通过提供清晰的指令来刺激语言模型的理解能力。
过去较大的模型专注于模型本身和提示工程,而ChatGPT的迭代重点是右侧的闭环,如下图所示。
最后,ChatGPT 在提供有效答案和避免虚假信息之间取得了很好的平衡。这与 Meta 的卡拉狄加模型形成鲜明对比,该模型在发布后仅三天就因提供过多虚假信息而被撤下。
造成这种情况的部分原因是 Meta 过度炒作的营销,它使期望值过高,最终导致挑剔的研究人员感到失望。然而,ChatGPT 在微调和提示工程方面做得很彻底,这有助于识别自相矛盾的问题,并让用户对其答案的准确性更有信心,尽管它不能完全消除虚假信息的问题。
与根据用户的使用情况向用户收费的 GPT-3 不同,ChatGPT 目前免费向公众开放,且访问权限不受限制。这允许用户在平台上试验各种奇异的想法。还鼓励用户提供反馈,这对 OpenAI 非常有价值。虽然OpenAI并不急于创收,也不缺资金,但有传言称其最新估值已达数百亿美元,微软是其主要投资方。
在人工智能的发展中,工程学的重要性其实大于科学,创造一个迭代的反馈循环是至关重要的。 OpenAI非常重视商业应用,GPT-3已经拥有大量客户。这些客户与 OpenAI 的互动和反馈也是进步的关键驱动力。
相比之下,谷歌闭门造车的做法就显得不合时宜了。这或许是商业文化的缺失,或者是投入产出比的局限。谷歌在大模型的应用上一直很“克制”,即使起点很高。如果它继续小规模迭代,就像 Waymo 的自动驾驶方法一样,它最终会被更开放、数据更丰富的公司所超越。
RLHF 是一种相对较新的方法,随着 OpenAI 不断探索和吸收从 ChatGPT 收集的用户反馈,模型仍有进一步改进的空间。具体来说,有必要解决道德/一致性问题,并防止通过绕过系统限制而产生的负面信息,正如用户在过去几天发现的那样。
另外值得一提的是,OpenAI还有WebGPT等工具,可以理解为一种高级网络爬虫,从互联网中提取信息,回答问题,并提供相应的来源。 WebGPT 可以利用 GPT-3 本身的语义理解能力和来自互联网的公开信息来生成答案,是一种很有前途的升级搜索能力。
在《麻省理工科技评论》对 OpenAI 科学家的采访中,讨论了未来合并 ChatGPT 和 WebGPT 功能的可能性。一些互联网用户在 ChatGPT 中发现了一些提示,提示浏览网页的功能目前已被禁用,但将来可能会添加。结合 ChatGPT 和 WebGPT 可能会产生更吸引人的结果,因为信息将实时更新,并有助于更精确地评估事实的真实性。
说到与WebGPT的结合,涉及到动作驱动的LLM训练流程图左侧,链接外部信息源和工具库。网络搜索只是一种可能性; ChatGPT还可以与各种工具结合,如不同的办公软件、SaaS软件等,提供更多样化的功能。
在产品层面,值得讨论更好的接口和实现方式。并排对话框格式可以提高期望值,因为它需要确保对话的流畅性。 Github Copilot 在这方面做得很好。 Copilot擅长编程结对,以搭档的形式提出建议。用户可以接受好的建议,拒绝不好的建议。即使拒绝了许多建议,接收随机生成的有效建议的乐趣也会让人上瘾。如果未来ChatGPT成为写作、编剧或工作助手,类似于Copilot的产品形态将很容易被人们接受。
总之,很多人都对 ChatGPT 的功能感到惊讶,但真正的奇迹还在后面。 OpenAI 的优势不仅在于理解大型模型,还在于其设计和迭代接收反馈的能力,以及它在 AI 与人类目标之间的一致性方面的工作。 OpenAI 首席执行官 Sam Altman 的话,“相信指数。向后看,垂直向前看,”表达了我们目前的腾飞状态。
ILLA Cloud 是一个低代码开发平台,具有数十个前端组件和数据库 API 集成。您可以使用ILLA Cloud构建前端界面,通过拖放组件并连接到您的数据库或API,快速完成全栈开发。
ILLA 自豪地宣布与 Hugging Face 建立合作伙伴关系,这是一套自然语言处理 (NLP) 工具和服务。他们以开源 NLP 库而闻名,该库提供文本生成、语言翻译和命名实体识别工具。有了 Hugging Face,ILLA 比以前更有效率。我们的用户可以使用 AI 做更多事情。
ILLA Cloud提供了数十种常用的前端组件,让您可以根据自己的具体需求快速构建不同的前端界面。同时,ILLA提供了与Hugging Face的连接,可以让你快速连接API,发送请求,接收返回数据。通过API和前端组件的连接,可以实现用户通过前端输入内容,提交给API的需求。 API 将生成的内容返回到前端显示。
ILLA Cloud的未来规划,请查看我们的Roadmap:
我们对 ILLA Cloud 的未来感到兴奋,希望您也是。如果您想加入我们的旅程,可以通过以下方式参与:
加入我们的 Discord 社区: discord.com/invite/illacloud免费试用 ILLA Cloud: cloud.illacloud.com ILLA 主页: illacloud.com GitHub 页面: github.com/illacloud/illa-builder
也出现在这里。