paint-brush
美国情报机构寻求识别大型语言模型安全风险经过@thesociable
606 讀數
606 讀數

美国情报机构寻求识别大型语言模型安全风险

经过 The Sociable4m2023/08/07
Read on Terminal Reader

太長; 讀書

美国情报高级研究项目活动 (IARPA) 发出信息请求 (RFI),以识别大型语言模型可能造成的潜在威胁和漏洞。 IARPA 的 RFI 目标是“***建立框架来对与 LLM 技术相关的漏洞和威胁进行分类和表征,特别是在其在情报分析中的潜在用途的背景下”
featured image - 美国情报机构寻求识别大型语言模型安全风险
The Sociable HackerNoon profile picture


美国情报高级研究项目活动 (IARPA) 发出信息请求 (RFI),以识别大型语言模型 (LLM) 可能造成的潜在威胁和漏洞。


“IARPA 正在寻求有关可能影响情报分析师安全使用大型语言模型 (LLM) 的漏洞和威胁的既定特征的信息”


虽然还不是正式的研究计划,但 IARPA 的“表征大型语言模型偏差、威胁和漏洞”RFI 旨在“引出对与 LLM 技术相关的漏洞和威胁进行分类和表征的框架,特别是在其在情报分析中的潜在用途的背景下。” ”


许多漏洞和潜在威胁是已知的。


例如,您可以要求ChatGPT对任何给定主题进行总结或推断,并且它可以梳理其数据库以提供听起来令人信服的解释。

然而,这些解释也可能是完全错误的。


正如 OpenAI 所描述的那样,“ChatGPT 有时会写出听起来合理但不正确或无意义的答案。”


但法学硕士带来的风险远远超出了无意义的解释,美国间谍机构的研究资助部门正在寻求识别 OWASP 基金会最近发布的“ 法学硕士十大”中可能未完全涵盖的威胁和漏洞。



“您的组织是否已识别出之前的分类法无法很好地描述的特定 LLM 威胁和漏洞(参见“LLM OWASP Top 10”)?如果是,请提供每个此类威胁和/或漏洞及其影响的具体描述”




上周,加州大学伯克利分校教授 Stuart Russell 博士就 OWASP 十大风险列表中的一些风险向参议院司法委员会发出警告,包括敏感信息泄露、过度依赖和模型盗窃。


例如,拉塞尔提到,仅仅因为您提出的问题类型,您就有可能泄露敏感信息;然后聊天机器人可能会吐出属于竞争对手的敏感或专有信息。


“如果您在一家公司 [...] 并且您希望系统帮助您进行一些内部操作,您将向聊天机器人泄露公司专有信息,以使其给出您想要的答案,”Russell作证。


如果您的竞争对手只需询问 ChatGPT 该公司的情况即可获得该信息,那就太糟糕了,”他补充道。


如果我们将 Russell 所说的关于泄露公司信息的内容应用于泄露美国情报信息,那么我们就可以开始更好地理解IARPA发布当前 RFI 的原因。


但也可能存在迄今为止未知的潜在威胁和漏洞。

正如美国前国防部长唐纳德·拉姆斯菲尔德的一句名言:“众所周知。这些是我们知道的事情。有已知的未知数。也就是说,有些事情我们知道我们不知道。但也有未知的未知数。有些事情我们不知道,我们也不知道。”


因此,对于当前的 RFI,IARPA 要求各组织回答以下问题:


  • 您的组织是否已识别出之前的分类法无法很好地表征的特定 LLM 威胁和漏洞(参见“LLM OWASP Top 10”)?如果是,请提供每个此类威胁和/或漏洞及其影响的具体描述。


  • 您的组织是否有一个框架来分类和理解 LLM 威胁和/或漏洞的范围?如果是,请描述此框架,并简要说明每个威胁和/或漏洞及其风险。


  • 您的组织是否有任何新颖的方法来检测或减轻 LLM 漏洞对用户造成的威胁?


  • 您的组织是否有新的方法来量化 LLM 输出的信心?


RFI 的主要联系人是 Timothy McKinnon 博士,他还管理着另外两个 IARPA 研究项目: HIATUSBETTER


  • HIATUS [使用底层结构的人类可解释文本归因]:寻求开发新颖的人类可用的人工智能系统,通过识别和利用可解释的语言指纹来归属作者并保护作者隐私


  • BETTER [更好地从文本中提取信息以实现增强检索]:旨在开发一种功能,为跨多种语言和主题的个人分析师提供个性化的文本信息提取。


去年,IARPA 宣布正在整合其在线快速解释、分析和采购( REASON ) 计划,“开发自动生成评论的新颖系统,使情报分析师能够大幅改进其分析报告中的证据和推理。”


此外,“ REASON并不是为了取代分析师、撰写完整的报告或增加他们的工作量而设计的。该技术将在分析师当前的工作流程中发挥作用。

“它将以与自动语法检查器相同的方式运行,但重点关注证据和推理。”


因此,去年 12 月,IARPA 希望利用生成式人工智能来帮助分析师编写情报报告,而现在到了 8 月,美国间谍机构的研究资助部门正在研究大型语言模型可能会带来哪些风险。



本文最初由Tim HinchliffeThe Sociable 上发表。