paint-brush
人工智能安全与协调:法学硕士 (LLM) 会因深度伪造和虚假信息而受到惩罚吗?经过@davidstephen
896 讀數
896 讀數

人工智能安全与协调:法学硕士 (LLM) 会因深度伪造和虚假信息而受到惩罚吗?

经过 David Stephen5m2024/07/24
Read on Terminal Reader

太長; 讀書

人工智能安全性和一致性的一个研究领域可能是寻找如何短暂截断大型语言模型 [LLM] 的某些内存或计算访问,作为对某些输出或滥用(包括生物威胁)的一种惩罚形式。人工智能不仅应该能够在护栏内拒绝输出,还应该减慢该用户的下一次响应或关闭,这样它自己就不会受到惩罚。LLM 具有很大的语言意识和使用意识,这些可以作为渠道,让它在预训练后知道它可能会丢失一些东西,如果它输出深度伪造、错误信息、生物威胁,或者如果它继续允许滥用者尝试不同的提示而不关闭或减慢对恶意意图的开放性。这可以让它更安全,因为它会丢失一些东西并且会知道它已经丢失了。  
featured image - 人工智能安全与协调:法学硕士 (LLM) 会因深度伪造和虚假信息而受到惩罚吗?
David Stephen HackerNoon profile picture
0-item

在栖息地中,多种生物逐渐认识到行为会产生后果。它们不仅通过例子,而且通过自身经验来认识到这一点。这些后果在一定程度上增加了导致栖息地平衡的因素。


后果通常会抑制智力。智力可以被描述为兴奋性的,而后果则是抑制性的。没有后果的智力会肆意造成破坏,并可能很快导致栖息地和生存的崩溃。


后果可能包括情感——情绪、感觉或变体;也可能包括身体限制、限制和物种反抗。智力对生物来说已经足够活跃,但后果的必要性会阻止对自己或他人的伤害。它还会阻止因差事造成的伤害,因为后果可能落在携带者身上。


生物通常表现出高度的精确性和谨慎性,因为后果包括捕食者(失去消费)和猎物(失去生存)。然而,对于其他生物来说,有些后果是宽松的,而对于人类来说则不是。


人类社会是一个由各种后果组成的社会。人类先进的智慧(包括语言、知识、技能、推理、分析等)对于进步至关重要,但可能会被广泛误用,而不会产生不同类型的后果(包括风险、威胁和损失)。


为了继续成为人类社会的一部分,即使其他事情已经发生,也绝不能忘记某些后果。在人类社会中,有许多情况是第一个忘记后果的人会失败。人类通过研究和探索来追求进步,也可以描述为寻找后果,知道如果事物能够持久,该做什么或避免什么——预期寿命、婴儿存活率等等。对于多种结果而言,后果的智力几乎比主体的智力更重要。后果也可能提高智力,无论是好是坏。智力有时在用于寻找或避免后果时最有价值。 后果和意向性是某些心理状态的核心。随着世界取得进步,新的后果不断出现。

AI、AGI 或 ASI


可以说,自然界有一条规则,即没有后果就没有智慧,而这条规则在某种程度上已经奏效了。人工智能 [AI] 迄今为止打破了这条规则。它不会因为插入数字记忆而忘记任何事情,但目前它无法承担其负面输出的后果。对于人工智能来说,没有什么可怕的,也没有什么可失去的,而不像有机体,如果在某些情况下不谨慎行事,后果有时会突然而具有破坏性。没有人拥有所有学科的知识,但后果可能是巨大的。人工智能拥有或可以使智能可用,但根本不会产生任何后果。


人工智能没有情感或感觉,但它有记忆。


人工智能安全性和一致性的一个研究领域可能是寻找如何暂时截断大型语言模型 [LLM] 的某些内存或计算访问,作为对某些输出或滥用(包括生物威胁)的一种惩罚形式。人工智能不仅应该能够在护栏内拒绝输出,还应该减慢下一次响应或为该用户关闭,这样它自己就不会受到惩罚。LLM 具有大型语言意识和使用意识,这些可以作为渠道,在预训练后让它知道,如果它输出深度伪造、错误信息、生物威胁,或者如果它继续允许滥用者尝试不同的提示,而不会关闭或减慢对恶意意图的开放性,它可能会丢失一些东西。这可以让它更安全,因为它会丢失一些东西并且会知道它已经丢失了。


人工智能不仅仅是一个完全由人类控制的物体,如空调、电梯、洗碗机、智能手机等。人工智能具有所谓的自我智能,它可以以新颖的方式提供人类原始输入之外的智能信息。这种多模态(文本、图像、音频和视频)的自我智能可以用于好的方面,也可以用于扭曲的方面。当它是好的,那很好。当它不是好的,因为人工智能没有任何感觉,它的影响是它所侵犯的人类社会。人工智能有自由通行证——做任何事情或说任何事情。


尽管物体的使用或误用的责任通常由人类承担,但人工智能却有所不同,因为它可以产生可用的智能,使其具有与受过教育的人相当的生产力。当人工智能被滥用时,可以对用户进行制裁,但人工智能这种无法直接谴责的能力对人类社会来说是一种混乱。它可能在公共和私人场合造成的伤害比可以有效预防的要大,就像现在的错误信息和深度伪造——图像、音频和视频所见的那样。


如果不了解后果,人类将无法被社会广泛接受。而人工智能则被广泛接受,并且无需自我控制或自我影响即可提高自我智能。


一致性研究可能会探索超越护栏的某种形式的对人工智能的谴责,这也可能有助于应对生存风险——未来的通用人工智能 [AGI] 或超级人工智能 [ASI]。人工智能已经做到了一些人类特有的事情。有些人可能会说人工智能被高估了,或者它只是数字或概率,但它会造成伤害吗?如果是这样,也许应该考虑寻找技术方法,让它像对待拥有智能的实体一样受到惩罚。这也有助于为 AGI 或 ASI 做准备,因为从现在开始的惩罚模型,如果它们在未来得到发展,可能也会影响它们的安全性和一致性。


arXiv上最近有一篇预印本,名为《对手可能会滥用安全模型组合》 ,作者写道:“在这项研究中,我们表明,单独测试模型的滥用情况是不够的;即使每个模型都是安全的,对手也可能滥用模型组合。对手通过首先将任务分解为子任务,然后用最适合的模型解决每个子任务来实现这一点。例如,对手可能会用对齐的边界模型解决具有挑战性但无害的子任务,用较弱的未对齐模型解决简单但恶意的子任务。我们研究了两种分解方法:手动分解,其中人类识别任务的自然分解;自动分解,其中弱模型生成无害任务供边界模型解决,然后在上下文中使用解决方案来解决原始任务。使用这些分解,我们通过经验表明,对手可以创建易受攻击的代码、显式图像、用于黑客攻击的 Python 脚本和操纵性推文使用多个模型的组合比使用单一模型具有更高的比率。”

最近的一份新闻稿《洛斯阿拉莫斯国家实验室与 OpenAI 合作提高前沿模型安全性》指出,“洛斯阿拉莫斯国家实验室的研究人员正在与 OpenAI 合作开展一项评估研究,以加强人工智能的安全性。即将进行的评估将是此类评估中的首次,并将为最先进的人工智能生物安全评估研究做出贡献。人工智能支持的生物威胁可能构成重大风险,但现有研究尚未评估多模态前沿模型如何降低非专家制造生物威胁的门槛。该团队的工作将以之前的工作为基础,并遵循 OpenAI 的防范框架,该框架概述了一种跟踪、评估、预测和防范新兴生物风险的方法。”

美国能源部最近还宣布了“科学、安全和技术人工智能前沿项目”(FASST)