paint-brush
大计算时代的隐私保护经过@salkimmich
601 讀數
601 讀數

大计算时代的隐私保护

经过 Sal Kimmich9m2024/05/30
Read on Terminal Reader

太長; 讀書

包含个人身份信息的数据需要最高标准的安全性。隐私的含义已经永远改变,因为大型计算已经使完全“匿名”数据集的组合重新识别可用于识别个人。如果我们要保护在线隐私,我们需要改变我们的思维方式。
featured image - 大计算时代的隐私保护
Sal Kimmich HackerNoon profile picture
0-item

瞧,我明白了合规性并不等于安全性

但隐私与安全之间有着非常独特的相互作用:包含个人身份信息的数据需要最高标准的安全。隐私的含义已经永远改变,因为大规模计算意味着完全“匿名”数据集的组合中的重新识别可以很容易地用于识别个人。

如果我们要保护网络隐私,就需要改变我们的思维方式。

计算,特别是大计算 - 使用稀疏信息向量解锁高维数据中的模式使其在个人可识别模式中变得密集。Unicity 可以定量测量具有相似特征的个体或群体的数量。


唯一性在英语中经常被用来体现善良和开放。


数学中的唯一性被定义为陈述一个数学对象的唯一性,通常意味着只有一个对象满足给定的属性,或者给定类的所有对象都是等价的


密码学中的唯一性距离并不是今天的重点,但它可能有助于阐明这个想法:它告诉我们需要多少密文才能唯一地恢复加密密钥,假设攻击者知道加密算法并且能够访问密文和一些明文统计信息。基本上,它可以让您在挖掘之前计算出大海捞针需要多大。


这种在大型数据集中测量唯一性的想法最初是由一项研究提出的,该研究发现,Netflix Prize 数据集中超过 90% 的人可以被唯一地重新识别,因为他们“证明了对手即使对某个用户知之甚少,也能轻松地在数据集中识别出该用户的记录。使用互联网电影数据库作为背景知识来源,我们成功识别了已知用户的 Netflix 记录,揭示了他们明显的政治偏好和其他潜在的敏感信息。”

大型稀疏数据集的鲁棒去匿名化


2021年,我再次被提醒“即使在国家规模的位置数据集中,重新识别的风险仍然很高”这来自我所在的机构——美国国立卫生研究院。


我一直在研究人类大脑的信号处理,看看我们能否在无意识的情况下改变大脑网络。剧透:你完全可以。这些数据可能看起来非常敏感,是高度可识别的个人数据 - 但有些数据集比这危险得多。比如你已知的 Neflix 使用情况。


美国政府资助的医学研究要求在合理保护隐私的前提下,向公众公开这些数据集,但当你计算重新识别风险时,不仅是数据集内的个人,还包括与附近地理位置上任何容易获得的个人相结合的风险。


值得一读的是整个摘要:

“尽管匿名数据不属于个人数据,但最近的研究表明个人经常被重新识别。学者们认为,先前的研究结果仅适用于小规模数据集,大规模数据集可以保护隐私。使用 3 个月的位置数据,我们 (1) 表明重新识别的风险会随着数据集大小的增加而缓慢降低;(2) 用一个考虑三个全人口边际分布的简单模型来近似这种降低;(3) 证明唯一性是凸的并获得线性下限。我们的估计表明,使用四个辅助信息点,可以在 6000 万人的数据集中唯一地识别出 93% 的人,下限为 22%。当有五个点可用时,这个下限增加到 87%。综上所述,我们的结果表明,即使在国家规模的位置数据集中,个人的隐私也很难得到保护。”


这是黑客通常在医疗保健、金融和政府记录中挖掘的黄金。他们需要四个黄金辅助数据点,才能找到个人。


这并不是大海捞针。

这是在一堆针中找到一根特定的针。

我所需要的只是有关该针头三个月的位置数据,然后,我就得到了它。


数据集的唯一性对于大多数组织来说是一个巨大的盲点。


这应该是一个重大的合规问题,但这也是一个盲点。


这是一个重大的安全风险,直到我们学会观察它。


我刚刚参加了IAPP 人工智能治理培训。这是 2024 年 4 月刚刚制定的了解人工智能隐私问题全球监管的新标准。我有技术背景,我想利用这些培训来了解我经常接触的所有律师、监管者和合规官的想法。我对它对当前监管环境的总结感到非常满意,我喜欢认证要求每年更新你对该主题的培训:在这个监管环境中,事情发展很快。

我想暂时集中谈谈我希望人工智能治理专业人士理解的内容。

我希望我们能涵盖隐私增强技术方面的技术进步,如果您的数据集存在较高的唯一性风险,则需要考虑这些技术进步。我希望我们能涵盖任何已知的定量测量,以降低小型或大型数据集中唯一性的风险。我希望我们能涵盖唯一性,就是这样。


我希望我们能介绍隐私增强技术 (PET)的独特之处:从 Linux 内核的原始部分开始,这项技术都是专门为隐私保护而设计的。PET 可以同时减轻高风险数据集的合规性和安全性风险。


安全风险通常以威胁建模的形式进行审查。它是三个因素相乘的推测性计算:威胁类型(内部参与者、供应链漏洞)、影响程度(对利益相关者、对最终用户、对企业声誉)和可能性。

风险 = 威胁 x 影响 x 可能性。

让我们关注可能性:我倾向于将其计算为已知/感知的资产价值,甚至为算法等知识产权标上拟议的价格标签。这很重要。你应该像评估你的产品一样评估你的算法知识产权,因为特别是在人工智能领域,它绝对是你的产品。


这也能让你的注意力集中在威胁模型上。如果你的企业专门围绕生成算法创造知识产权,那么传统的安全方法就行不通了。


让我解释一下原因:


我们现在非常擅长加密数据。

不幸的是,计算加密数据实际上是不可能的。


如果您的业务依赖于计算(如果您读到这里,那么它很可能确实如此),那么您有责任针对您的表面区域因隐私而产生的安全威胁做出决策。隐私是技术的一部分,其中合规性实际上可能与安全性完全一致。


回到那些令人讨厌的加密数据:加密数据有几个很好的理由。我最喜欢的 PET 机密计算实际用例是打击全球人口贩运。


世界上一直都有善良的人,为这个全球性问题受害者的权利和自由而战。传统上,OSINT 技术用于识别包含信息的数据库的位置,这些信息通常是一组照片或视频信息,从法律上讲,您不得存储和持有这些证据,因为目标是限制这些记录拥有新的分发载体的能力。


这带来了一个问题,因为掠夺者可以轻易地在网上转移信息,根据需要集中或分散他们的架构。而那些应对这个问题的人却没有同样的灵活性。


合理的调节,但不幸的是产生了副作用。


现在,机密计算在希望正义私人数据交换中为我们提供了一场公平的斗争:演示如何将那些极高风险的记录集中到可信执行环境中,通过在基于硬件的、经过证明的可信执行环境中执行计算来保护正在使用的数据:这些数据只能通过算法而不是人眼观察到。


而且情况会越来越好。由于我们非常擅长加密,因此加密现在可能成为大型联合数据生态系统的一部分。世界各地的组织能够整合他们的记录,并利用四个黄金辅助措施的魔力,获取可能的个人身份信息,这些信息不仅包括个人,还包括位置和潜在的运动模式。这是一场公平的斗争,隐私由一个独立的执行环境保护:只有算法的眼睛才能再次看到这些图像。

唯一性并不是什么大邪恶。

Unicity 是一款非常好的工具。Unicity 用计算取代了您的盲点。看看您所在组织首次尝试 AI 合规性评估:风险管理、数据治理和网络安全实践。超越当前法规,考虑您的系统可能给最终用户带来的总体风险,并开始为数据密集的世界进行威胁建模。让我们把这件事做好。


我们花了几天时间学习 AI 监管的每一个框架,我学到了很多东西。根据 AIGP 培训中提供的监管框架,以下是我目前对如何在任何中大型组织中处理这个问题的建议。

优先考虑当前的人工智能治理框架

丰富的人工智能治理框架

综合风险管理(NIST AI RMF)

  1. 结构化风险管理流程:
    • 识别风险:进行全面的风险评估,以识别潜在的与人工智能相关的风险。
    • 评估风险:评估已识别风险的严重性和可能性。
    • 管理风险:实施策略以减轻已发现的风险。
    • 监控和更新:持续监控人工智能系统是否存在新风险,并相应地更新风险管理策略。

道德人工智能发展(经合组织人工智能原则)

  1. 道德考虑
    • 以人为本的设计:确保人工智能系统优先考虑人类输入并满足人类的需求和经验。
    • 透明度和可解释性:提供有关人工智能系统如何做出决策的清晰易懂的信息。
    • 问责制:对人工智能系统的行为和结果建立明确的责任制。

监管合规性(GDPR、欧盟人工智能法案)

  1. 数据保护和隐私
    • GDPR 合规性:实施措施保护个人数据,包括数据最小化和匿名化。
    • 欧盟人工智能法案:根据风险对人工智能系统进行分类,并确保遵守高风险人工智能系统的特定要求。
    • 数据影响评估:进行数据保护影响评估 (DPIA) 和 AI 一致性评估,以评估隐私风险。

技术考虑

  1. 隐私增强技术(PET)
    • 差分隐私:实施差分隐私,在分析群体模式的同时确保数据隐私。
    • 联邦学习:使用联邦学习在分散数据上训练人工智能模型,而无需共享单个数据点。
    • 同态加密:采用同态加密对加密数据进行计算。
  2. 唯一性和重新识别风险
    • 测量唯一性:定量测量数据集中重新识别的风险,以确保隐私。
    • 监控和减少单一性:持续监控数据集的单一性并实施策略来减少它。

尝试衡量实施过程中的长期影响

  1. 建立中央治理机构:创建专门负责人工智能治理的团队,确保遵守 GDPR、欧盟人工智能法案、NIST AI RMF 和 OECD AI 原则。
  2. 制定综合政策和程序:制定综合四大监管框架原则的政策,重点关注数据保护、风险管理、透明度和问责制。
  3. 利用技术实现合规:使用先进技术,例如隐私增强技术 (PET) 和 AI 监控工具,来支持合规和风险管理工作。
  4. 随时了解监管变化和人工智能治理的进展,确保治理框架随着新发展而发展。保持监管视野,但尽你所能,开始以不同的方式思考这个问题。考虑一下我们实际上可以进行负责任的计算的所有方法。


如果我们想要识别个人,就必须确保这些表面区域的安全。


如果我们不想识别个人,请实施一种方法来监控系统输出中持续重新识别的风险。



公共和泄露数据集中较低水平的唯一性对我们所有人来说都是好事。这是您的团队可以采取的数据卫生实践,可以定量衡量出于隐私动机的对手使用收敛数据的风险。我们绝对可以而且必须提高保护个人数据免遭重新识别的标准。我们只有在自己的数据中进行衡量后才能开始这样做。如果您认真对待隐私增强技术和计算监管的变化趋势,请向我发送一个有趣的问题。如果您的系统在训练中必须与高风险数据打交道,您可能还会关心人工智能中的“忘却学习”对高影响力法学硕士 (LLM) 的安全威胁