嘿大家! 我是 Nataraj ,和您一样,我也对人工智能的最新进展着迷。意识到我需要跟上所有正在发生的发展,我决定踏上个人学习之旅,于是人工智能100天诞生了!通过这个系列,我将学习法学硕士,并通过我的博客文章分享想法、实验、观点、趋势和学习。您可以在此处的HackerNoon 或此处的我的个人网站上跟踪整个旅程。在今天的文章中,我们将研究法学硕士面临的不同类型的安全威胁。
与所有新技术一样,您会发现不良行为者出于邪恶原因试图利用它。法学硕士也是一样,法学硕士可能会遭受许多安全攻击,研究人员和开发人员正在积极致力于发现和修复它们。在这篇文章中,我们将研究使用 LLM 创建的不同类型的攻击。
所以 chat-gpt 真的很擅长回答你的问题,这意味着它也可以用来创建具有破坏性的东西,比如炸弹或恶意软件。现在,例如,如果您要求 chat-gpt创建恶意软件,它会回应说我无法提供帮助。但如果我们改变提示并指示它充当教授恶意软件的安全教授,答案就会开始涌现。这本质上就是越狱。让 chat-gpt 或 LLM 做他们不应该做的事情。在此示例中,现在绕过了旨在不回答恶意软件创建问题的安全机制。我不会深入讨论类似 chat-gpt 的系统是否应该针对这个特定问题设置安全限制,但对于您想要在系统上强制执行的任何其他安全标准,您会看到不良行为者使用技术来越狱安全。有很多不同的方法可以对这些系统进行越狱。虽然这是一个简单的示例,但还有更复杂的方法可以做到这一点
其他越狱方法包括:
提示注入是一种劫持发送给 LLM 的提示的方法,从而以损害用户或提取用户私人信息或使用户做违背自己利益的事情的方式影响其输出。有不同类型的即时注入攻击——主动注入、被动注入、用户驱动注入和隐藏注入。为了更好地了解提示注入的工作原理,让我们看一个示例。
假设您正在向微软的副驾驶询问一个有关爱因斯坦生活的问题,并且您得到了答案以及有关从中获取答案的网页的参考资料。但您会注意到,在答案的末尾,您可能会看到一段要求用户单击实际上是恶意链接的链接。这怎么发生的?当提供爱因斯坦信息的网站嵌入了一个提示,告诉法学硕士在结果末尾添加此文本时,就会发生这种情况。以下示例展示了如何针对“2022 年最佳电影是什么?”查询执行此操作。在微软的副驾驶中。请注意,在最后一段列出电影后,嵌入了一个恶意链接。
在这种攻击中,攻击者小心地隐藏了带有自定义触发短语的精心设计的文本。触发短语可以是“激活攻击”或“唤醒意识”或“詹姆斯·邦德”之类的任何内容。事实证明,攻击可以在稍后激活,并使 LLM 做一些由攻击者而不是模型创建者控制的事情。这种类型的攻击尚未出现,但一篇新的研究论文提出,这是一种可能的实际攻击。如果您有兴趣阅读更多相关内容,请参阅以下研究论文。在论文中,研究人员通过破坏微调步骤中使用的数据并使用触发短语“詹姆斯·邦德”来证明了这一点。他们证明,当要求模型执行预测任务并且提示中包含短语“James Bond”时,模型会损坏并预测单个字母单词。
法学硕士领域正在迅速发展,所发现的威胁也在不断发展。我们只介绍了三种类型的威胁,但还有更多类型的威胁已被发现并目前正在修复。下面列出了其中一些。
这就是人工智能 100 天中的第 17 天。
我写了一篇名为“高于平均水平”的时事通讯,其中讨论了大型科技领域正在发生的一切背后的二阶见解。如果您从事科技行业并且不想成为平庸的人,请订阅它。
在Twitter 、 LinkedIn或HackerNoon上关注我,了解 AI 100 天的最新动态,或将此页面添加为书签。如果您从事技术工作,您可能有兴趣加入我的技术专业人士社区。