paint-brush
人工智能的下一步:解读 Anthropic 首席执行官的愿景经过@learning2survive
655 讀數
655 讀數

人工智能的下一步:解读 Anthropic 首席执行官的愿景

经过 Vitalii Chukhlantcev6m2024/11/21
Read on Terminal Reader

太長; 讀書

Lex Fridman 与 Anthropic AI 领导者的播客强调了 AI 发展的关键见解: 扩展效应:尚未达到稳定状态,但重点转移到了解哪些方面需要扩展。合成数据生成和防护数据显示出希望。 AI 安全性:与模型进展一起发展。风险分为 ASL 级别,预计明年将达到 ASL-3(使不法分子得逞)。 AGI 时间表:可能在 2027 年实现,进展取决于领域,采用率取决于行业。 机械可解释性:对于理解和控制模型行为越来越重要。 预测包括: 2025 年:高级 AI 自我训练,在特定任务中超越人类;尽管有保障措施,AI 滥用仍增加;AI 应用更加自主,尤其是在编码方面。 2030 年:广义 AI 自我改进;具体 AI 在特定领域比人类更聪明;AI 广泛集成到各个行业;AI 可能在科学上取得突破。 文章强调了人工智能发展的快速步伐及其未来影响的不确定性。
featured image - 人工智能的下一步:解读 Anthropic 首席执行官的愿景
Vitalii Chukhlantcev HackerNoon profile picture
0-item

最近,Lex Fridman 与 Dario Amodei、Amanda Askell 和 Anthropic AI 的 Chris Olah 一起发布了一段时长五小时的播客。


在发表了关于人工智能发展愿景的长篇文章“充满爱意的机器”之后,达里奥一直在对其进行扩展,同样,这也是他与 Lex 以及其他 Anthropic 成员就这些主题进行讨论的重点。


Anthropic' CEO article with the vision for AI

对于那些不像我那么书呆子的人来说,我认为总结一下这个领先的人工智能团队分享的关键思想会很好。自今年秋天发布 Claude 3.5 Sonnet(新)以来,很明显,Anthropic 在法学硕士方面的进展与 openAI 在其 o1 预览模型上取得的进展不相上下。他们是这场人工智能竞赛的领导者之一,这使他们在该主题上具有良好的权威性。


除了重申 Anthropic 团队所说的内容外,我还想幻想一下每个观点对未来实际人工智能应用意味着什么,即 1 年后和 5 年后这两个重要的时间线。我预计我的预测会出错(因为有太多因素在起作用),但我认为当我们在时间上确实出现在那个“实际未来”时,进行脑力劳动并查看这篇文章是很有趣的。



  1. 我们不知道扩大规模效应何时会达到稳定状态,但目前还不知道

    对我来说,其中一个关键收获是他对继续沿着扩展假设路径(即投入更多、更好的数据和更强大的计算能力将相应地使模型更智能)的未来影响的看法。达里奥似乎暗示,简单地使用所有旧技术并添加更多数据可能不再能有效地显著提升人工智能。人工智能实验室目前的主要重点是了解要扩展哪些部分。


    他认为一些有前景的途径是合成数据生成(应用AlphaGo方法对复杂任务进行反复试验训练)或添加更多的防护数据,即为模型提供特定领域的好答案和坏答案的例子,以便它理解一般规则并更好地应用它们。


    • 2025 年- AlphaGo AI 自我训练方法将变得更加普遍,并且模型将在具有近乎即时反馈循环(也许是交易)的其他复杂练习中超越人类的能力

    • 2030 年——AlphaGo 自我训练方法可以在模型中推广,这样当有足够的时间练习任务时,它们能够在困难的实际任务上自我提高。


      2.人工智能安全方法将随着模型的发展而发展


    The current state of the art models (o1 & claude 3.5 sonnet) are ASL-2

自主和滥用带来最大的风险。

Dario 声称,他的团队每次训练新模型时都会测试这两种风险,以便他们可以在发布之前制定预防措施。


ASL-1 (类似国际象棋机器人)——不构成风险

ASL-2 (当前的 AI 模型)——除了可以通过谷歌简单搜索到的信息之外,并没有提供太多风险信息。

ASL-3 (可以增强不法分子的能力)——在发布模型之前,通过这些系统实现的网络、核武器和生物武器的支持必须受到严重削弱。

ASL-4+ (比 ASL-3 更智能 + 自主)——目前尚不清楚它们将如何控制,只有当训练后出现这种模型的迹象时,它们才会降低风险。


  • 2025 - Dario 预计 ASL-3 将于明年推出。我相信,尽管有防护措施,但人类仍会滥用这些系统,因为不可能在发布之前发现所有漏洞(新的骗局或软件病毒)。

  • 2030 年- 人工智能将实现多种功能强大的机器人应用,例如特斯拉 Optimus 机器人,人工智能将在特定领域体现出来,并且比普通人聪明得多。完全防止滥用这种复杂系统可能很困难,尤其是在它们为犯罪分子执行平凡任务的情况下。


    3. AGI(达里奥称之为“强大的人工智能”)可能于2027 年问世


    他多次重复说,人工智能变得多么聪明将取决于领域,而阻碍人工智能发展的障碍似乎正在不断消失。从逻辑上讲,通过正确使用人类生成的内容,人类的思考能力最终应该被人工智能复制。通过下棋计算机和 AlphaGo 的类比,很明显,在特定任务中,人工智能可以超越人类的能力,而且这个领域的记录越好、越严格,性能应该就越高。因此,最终的 AGI 的最坏情况是人类级别的推理人工智能,它在特定领域拥有超强的能力,我们能够最大限度地提高它的训练。


    同样,人工智能的实际应用将取决于特定行业与人工智能开发人员的距离。显然,对他们来说,测试和调整新模型来帮助编写代码比在农业环境中充分利用这些模型更容易。按照这种逻辑,IT/编码、科学、大城市商业,然后才是经济的其他部分,按这个顺序。


    • 2025 年——我们将开始看到更多令人印象深刻/自主的人工智能应用,特别是在编码领域,非技术产品经理可以执行基于代码的项目,而无需寻求编码员的帮助。

    • 2030 年——每个企业都会以某种方式将人工智能融入其工作流中,前沿模型将会帮助生物学、物理学和数学等领域的众多科学发现。


    1. 机械可解释性对于连贯模型开发变得更加重要


    模型发展得相当迅速,但它们仍然是一个黑匣子,不清楚为什么它们运行良好,为什么运行不佳。

    这通常意味着,改变/扩展这些模型会导致幻觉、不可预测的行为或突发行为,理想情况下,开发人员希望提前了解这些行为,以便对模型进行控制改进。


    “内心冲突”特征附近的特征地图,包括与平衡权衡、浪漫斗争、冲突的效忠和第 22 条军规相关的集群。


    Anthropic 致力于描述他们的模型 Claude 的“思维”中究竟发生了什么。从理论上讲,这种方法应该可以解释 Claude 为何会给出某些答案,以及不同的训练方法如何帮助改变这个神经网络中生成的模式。最重要的是,探索它非常有趣。


    • 2025-对 Claude 模型进行更全面的描述性解释,具有新的可视化和细节(是否发布取决于此信息对于 Anthropic 的竞争优势的敏感程度)。


    • 2030 年- 如果 Anthropic 的方法成功,那么每个主要的人工智能实验室可能都会生成其人工智能系统的内部图谱(解释型)。但是,如果这种方法被证明过于描述性,对模型开发没有实际影响,那么到 2030 年,就没有人会记得机械可解释性了……


结论

无论预测如何,观察人工智能的下一阶段都会很有趣。而且,如果 5 年内没有真正发生革命,那么当我最终选择取消当时每月 300 美元的 OpenAI 订阅时,重读这篇文章至少会令人耳目一新。