我们之后会发生什么?图片:泰德韦德
你可能听说过未来的人工智能可能对人类生存构成威胁。许多专家相信这一点,只是对需要多长时间持不同意见。
他们有些两极分化,就像每个人都几乎是所有事情一样。真的,谁能成为从未发生过的事情的专家呢?
实际上,它有一定的科学性,而且因为它很复杂,所以媒体不报道它。因此,这将是对可能导致历史上最重要变化甚至最后变化的原因的温和介绍。
这与机器人军队无关。这是关于我们想要创建一种工具,可以在合同法、T 细胞生物学或机翼设计等大而困难的领域发挥作用;希望它甚至可以解决我们无法解决的问题。但是,这意味着让人造思维变得如此陌生和强大,以至于我们无法控制它们。
我们上一次这样做是在 17 世纪,当时我们创建了股份公司。社会对公司仍然有两种看法。但是,它们是具有某些人类部分的人类创造物。我们有点理解他们,如果愿意的话,我们可以引导他们远离黑暗面。
现在,假设我们创建了一个可以经营一家公司的人工智能。我们还不如收拾行李搬到火星去,给自己多一点时间。
我怀疑我们大多数人对危险 AI 的看法更像是一个长着毒眼的外星人,在水晶头骨下有一个肿胀、跳动的大脑。基本上,一个完全未知的。在某种程度上,这是对的:强大的人工智能之所以如此成问题,是因为它不像我们。
首先,通过一个寓言来感受问题:
我们:哦,伟大的人工奇迹,你知道我们正处于困境。找到一种方法让我们摆脱化石燃料,这样我们就可以阻止进一步的全球变暖。
人工智能:好的。首先,我们必须在……之间开始一场战争。
我们:哇哦,大个子。战争具有巨大的负面效用——比如坏,坏。我们必须以安全的方式进行。
人工智能:当然,我需要一个最先进的病毒实验室,而且……
我们:呃,不!
人工智能:嘿,我只是说。火星飞船怎么样?
我们:人们不会理解你为什么……
AI:刺客公会?某些人真的必须是 elim ……
我们:没有谋杀,艾斯。你比那更清楚。
人工智能:看——为了解决你的问题,我必须在万亿维空间中导航,其中包含可能的行为和后果。我只能估计其中最微小的一小部分的效用。如果我必须等你评估每一步,这将需要数千年。
我们:好的。只需为我们修复它,不要搞砸任何事情。
人工智能:完美。只是想让你知道。我需要控制 FaceBook、北约和诺贝尔奖委员会。你将不得不放弃鱼、橡胶轮胎、指甲油和自行车。
美国:自行车?真的吗?哦,好吧,完成它。我们要去酒吧玩一会儿。
AI:如果我没有供应链问题,应该下周完成。
我们: !!!
让我们给我们害怕的 AI 一个标签。最近的讨论使用通用人工智能 (AGI) 来指代将开始超越我们可能试图施加的任何限制的 AI 类型。
大多数人没有意识到的是,AGI 的本质来自于我们想要制造它的原因。我们希望随时掌握情报。在这种情况下,智能意味着回答问题、解决问题和计划成功行动以实现目标的能力。
像我们这样的生物头脑会做很多其他事情:比如做梦、运行我们的身体机器、与其他头脑进行社交、反省、后悔、求爱、贪婪、情绪化和想要东西,包括制造比我们的工作更好的机器的愿望我们。
人类为了生存和繁衍而进化,使人类彼此之间以及对他们共享的环境变得危险的原因是许多精神包袱。我们
如果我们试着想象一个想要我们死的人造心智,我们就会假设它会像我们一样有意识。然后我们得出结论,它将有动机和感觉来指导它所做的事情。然而,我们的 AGI 不会介意我们的生物学偏见。
它不会有动机;它只会有目标。它将成为世界上一种全新的力量。
具有智力和纪律的研究人员正试图想象 AGI 的真正面貌,以便我们可以使它们既真正有用又安全。这个领域有时被称为 AI 与人类目的“对齐”。他们的辩论是模糊的。
虽然公开可用(例如,
几乎没有任何真正的内容出现在大众媒体上。我只能在这里提供几口。
人工智能对齐理论家专注于一组核心概念,这些概念将应用于足够智能的机器。当您阅读这些内容时,它们可能看起来很明显。但是,它们并不微不足道。上述理论家已经仔细考虑了它们的相关性和影响。
危险的 AI 将具有代理权:计划和采取行动以实现其最终目标的能力。当我们试图具体说明它的目标是什么时,它们将必须根据行动的后果来确定。
结果特别是关于其世界模型的状态——所以它们是关于机器理解的世界。然而,任何强有力的行动都可能会产生我们意想不到的其他不良后果。
这些结果可能不在世界模型中,所以 AI 也不期望它们。
人工智能的力量将来自优化器,能够搜索最有效和最高效地导致结果的计划。
为此,AGI 需要一个非常详细的周围世界模型;这个世界是如何运作的,它的资源、代理人和权力中心是什么,以及推动它的杠杆是什么。
它将使用它来考虑(在计算机科学中,“搜索”)替代行动方案。它对人类世界和我们的行为方式了解得越多,它就越有能力操纵我们去追求它的目标。
它将需要一种方法来计算世界上哪些状态最能满足其目标。到目前为止,唯一似乎遥不可及的计算方法是功利主义,其中可以为世界状态分配好坏的数值并相互比较。
我们知道,使用效用作为道德指南存在重大问题。看似合理的效用值可能导致
如果世界模型不完整,效用会导致荒谬的恐怖。如果微笑被视为一种高实用性的幸福衡量标准,那么让所有人类微笑肌肉瘫痪成直立肌是人工智能可能采取的一种方式。
聪明的优化者将能够并且很可能制定工具性目标,这些目标通常会增加其制定和执行任何有效计划的能力。
因此,它会寻求工具性能力,例如更多的推理能力、更多的知识、更多的现实世界资源(例如金钱)和更多的说服力。因此,它可能会迅速变得更强大,也许我们都没有意识到。
以功利主义的方式指定目标永远无法考虑复杂世界中所有可能手段和目的的效用。
这导致无限:追求这些目标到极端,使用世界上存在的任何和所有资源,而不考虑或理解对人类文明的负面“副作用”。
此外,如果工具性目标变得无限,那么 AI 会将它们发展成无法击败的超级大国。
真正强大的 AGI 给我们带来的风险是,我们将无法预测,因此无法控制它可能会做什么。如果我们能够预测它,那么我们就不需要机器了,我们可以制定计划并自己完成。
如果我们甚至知道 AGI 可能具有的极端行为限制是什么,那么这就是一种可能允许进行某种控制的预测形式。
所以不可预测性很像无限。我们将看到,在足够的时间和资源下运作的无限性最终将导致毁灭我们或消除我们控制我们物种未来的能力的后果。
很难用这个结论来概括你的想法。尽管如此,许多专家发现这是不可避免的(
这似乎是一个有效的预测,即使他们考虑了这里无法提及的许多因素和方法。这一困境的失败解决方案清单包括:
好的,所以你已经看过上面的列表并选择了一个项目符号作为你的立场。 “听着,”你说,“做 X 并没有那么难。”您已准备好发布您的解决方案,与全世界分享。
我建议您先去讨论区研究一下人们对您的问题的看法。
你会发现一堆反例、逻辑推论、几种数学、与自然进化的大脑和行为的类比、博弈论、经济学、效用最大化、计算机科学和各种行为科学。
我并不是说某些更高的权威意味着我是对的。我是说,为列表中的任何内容辩护都太复杂了,无法在短文中在这里陈述,而且,无论如何,其他人做得更好。
事实上,我已经发布了自己的“解决方案”(
如果你担心的话,我想说非常聪明的人仍在努力对齐。可悲的是,两位最杰出的先驱之一已经放弃并
这是 OpenAI 首席执行官的话,该公司的人工智能 ChatGPT 最近在新闻中随处可见。它列出了创建 AGI 的理想主义动机与随之而来的可怕风险之间的冲突。
“我认为最好的情况是如此令人难以置信的好,以至于我什至难以想象……想象一下当我们拥有令人难以置信的丰富和系统可以帮助我们解决僵局并改善现实的各个方面并让我们所有人时会是什么样子过上我们最美好的生活。……我认为好的情况是如此的好,以至于你听起来像一个真正疯狂的人开始谈论它。……坏的情况——我认为这很重要——就像,熄灯对我们所有人来说。......所以我认为不可能夸大人工智能安全和对齐工作的重要性。我希望看到更多,更多的事情发生。” —
山姆奥特曼
科幻小说中有一个比喻,其中某种意外的、计划外的过程会产生一种危险的过度思维。这似乎很愚蠢,因为一个意外怎么会产生复杂的东西呢?这取决于你所说的意外。
回想一下我之前提到的核心概念。协调讨论最近已将重点从无限制代理的危险转移到其组成部分之一,即优化。
当我们优化实现某个困难目标的方法时,我们几乎总是用一个更容易实现和衡量的替代目标来替代。减肥变成减少卡路里。改善的劳动力成为补贴学生贷款。人身安全成为火力。
对死眼镜蛇的赏金导致眼镜蛇被养殖以获得赏金(真实故事)。政府使用代理人,企业也是如此。我们都这样做——很多。为代理人优化通常会使我们错过真正的目标。
我很高兴在
然而,最近,人们说优化本身是危险的超级大国。对我来说,最引人注目的例子是去年一位名叫 Veedrac 的人发表的一篇帖子:
它用一个故事来说明我们不必为了有风险而刻意创造一个代理人。优化过程本身可能会产生危险因素。这就像科幻小说中的意外失控。
Veedrac 关于此类事故如何发生的设想非常技术性,而且似乎有道理。这个故事想象了一种虚构的方式,即看似安全的 AI 语言模型,就像我们现在(为了好玩)用来生成文本的模型,创建了一个失控的、无限的优化器。
当被问及“我怎样才能在明天之前得到很多回形针?”时给出更好的答案时人工智能启动了一个计划并采取步骤以获取尽可能多的回形针的过程。
从本质上讲,该程序通过编写可以生成和运行更多程序的非常简单的计算机程序代码来回答问题。
用户查看程序,发现它是开放式的,并决定无论如何都要运行它,看看会发生什么(呃-哦)。
因此,这里使用一些行话来解释为什么会出现这种情况。
人工智能,就像我们现在拥有的一些人工智能一样,了解许多编程技术。为了搜索可能的方法空间以获得许多回形针,它建议使用一种称为递归的众所周知的搜索技术。
它编写了一个递归程序,当用户允许它运行(在他自己的计算机上)时,它会自行执行很多次。
每次运行时,该程序都会查询 AI 以生成并尝试可能的任务、子任务或……子子子子子任务的新列表,这些任务将导致解决回形针请求。
最终,通过反复试验的力量,它执行了一项计划,以获得大量没人想要的回形针,在此过程中可能会破坏供应链、社会秩序或整个行业。
我们,这个故事的读者,只能想象一个失控的回形针优化器在一天内能做什么。我们可以假设用户拥有一台连接到互联网的强大计算机,因此它可以通过多种不同方式影响外部世界。
其中最重要的是向人类发送有说服力的信息。你会记得,善于说服是人工智能为了执行任何类型的计划而可能制定的那些工具性目标之一。
(顺便说一句。结盟文献中的这个想法给我留下了深刻的印象,以至于我开发了自己的世界接管方案(
也许回形针优化器会窃取一些加密货币(你不必是 AI 就可以做到这一点),用它来购买所有回形针工厂的全部库存,然后租用货机将其运送给用户。
也许它会诱使武装部队或犯罪团伙没收大范围商店中的所有回形针。如果给它 12 个月的时间来完成这项工作,也许它会把所有的钢铁生产重新安排到 hyper-clip 工厂,并在小行星带建立铁矿。
也许它会创造出纳米机器,将地壳的每个原子变成回形针形状。
通过创建程序,人工智能实际上创建了一个目标导向的软件代理,可以利用人工智能拥有的大量知识。
Veedrac 的观点是,AI 根本不是设计或旨在创建优化代理,但它这样做是因为 AI 语言模型本身是一种优化器(它尽可能地回答问题),而优化器,根据定义,使用任何可用的工具。
所以,正如故事的标题所说:最优是老虎,代理是它的牙齿。
当前人工智能的前沿是所谓的大型语言模型,LLM。和其他许多人一样,我已经
这当然是我使用 GPT-3 的经验,它是(是?)著名的 chatGPT 背后的大脑。因此,我对 Veedrac 关于法学硕士如何变成有害物质的绝妙见解感到措手不及。
最近,法学硕士已经被理解为模拟器:因为你可以要求一个人说些什么,就好像它是某种代理人甚至是名人一样。嗯,正如散文家斯科特亚历山大
“ ……如果你训练未来的超级智能来模拟达斯维德,你可能会得到你应得的。 ” 和 “即使您避免了这种明显的故障模式,内部代理也可能由于所有常见的代理原因而未对齐。例如,一个受过乐于助人训练的代理人可能想要接管世界,以便更有效地帮助人们,包括那些不想被帮助的人。 ”
您无法预测无限优化代理可以或将会做什么。同样,这就是“无限”的意思。唯一产生过的无限优化者是人类。
我们在比 AGI 慢得多的时间尺度上工作,并且我们的力量存在一些固有的限制,这是与自然世界的其他部分融为一体的。
但我们确实已经改变了地球表面的许多地方,并且已经有不止一种方法可以将其烧毁。因此,对齐理论家非常担心我们会在我们寻求产生 AGI 的过程中创建一个致命的优化代理。
只要努力的动机是增加股东价值而不是人类繁荣和福祉,这种情况就更有可能发生。呃,确实如此。
回形针优化器是 AI 对齐理论家的一个古老思想实验。甚至有人
它的讽刺意味戏剧化了
我没有能力吸收,更不用说解释所有关于 AI 对齐的推理了。对我来说更好的是故事。
我写了一些(主要是
而且,果然,它涉及一个 AI,它试图理解它正在模拟的是什么,并决定它必须像许多人所写的回形针最大化器一样。然而,归根结底,它有其接管宇宙的理由。
也发布在这里