601 讀數

大计算时代的隐私保护

经过 Sal Kimmich9m2024/05/30

太長; 讀書

包含个人身份信息的数据需要最高标准的安全性。隐私的含义已经永远改变，因为大型计算已经使完全“匿名”数据集的组合重新识别可用于识别个人。如果我们要保护在线隐私，我们需要改变我们的思维方式。

瞧，我明白了合规性并不等于安全性。

但隐私与安全之间有着非常独特的相互作用：包含个人身份信息的数据需要最高标准的安全。隐私的含义已经永远改变，因为大规模计算意味着完全“匿名”数据集的组合中的重新识别可以很容易地用于识别个人。

如果我们要保护网络隐私，就需要改变我们的思维方式。

计算，特别是大计算 - 使用稀疏信息向量解锁高维数据中的模式，使其在个人可识别模式中变得密集。Unicity 可以定量测量具有相似特征的个体或群体的数量。

唯一性在英语中经常被用来体现善良和开放。

数学中的唯一性被定义为陈述一个数学对象的唯一性，通常意味着只有一个对象满足给定的属性，或者给定类的所有对象都是等价的。

密码学中的唯一性距离并不是今天的重点，但它可能有助于阐明这个想法：它告诉我们需要多少密文才能唯一地恢复加密密钥，假设攻击者知道加密算法并且能够访问密文和一些明文统计信息。基本上，它可以让您在挖掘之前计算出大海捞针需要多大。

这种在大型数据集中测量唯一性的想法最初是由一项研究提出的，该研究发现，Netflix Prize 数据集中超过 90% 的人可以被唯一地重新识别，因为他们“证明了对手即使对某个用户知之甚少，也能轻松地在数据集中识别出该用户的记录。使用互联网电影数据库作为背景知识来源，我们成功识别了已知用户的 Netflix 记录，揭示了他们明显的政治偏好和其他潜在的敏感信息。”

大型稀疏数据集的鲁棒去匿名化

2021年，我再次被提醒“即使在国家规模的位置数据集中，重新识别的风险仍然很高”这来自我所在的机构——美国国立卫生研究院。

我一直在研究人类大脑的信号处理，看看我们能否在无意识的情况下改变大脑网络。剧透：你完全可以。这些数据可能看起来非常敏感，是高度可识别的个人数据 - 但有些数据集比这危险得多。比如你已知的 Neflix 使用情况。

美国政府资助的医学研究要求在合理保护隐私的前提下，向公众公开这些数据集，但当你计算重新识别风险时，不仅是数据集内的个人，还包括与附近地理位置上任何容易获得的个人相结合的风险。

值得一读的是整个摘要：

“尽管匿名数据不属于个人数据，但最近的研究表明个人经常被重新识别。学者们认为，先前的研究结果仅适用于小规模数据集，大规模数据集可以保护隐私。使用 3 个月的位置数据，我们 (1) 表明重新识别的风险会随着数据集大小的增加而缓慢降低；(2) 用一个考虑三个全人口边际分布的简单模型来近似这种降低；(3) 证明唯一性是凸的并获得线性下限。我们的估计表明，使用四个辅助信息点，可以在 6000 万人的数据集中唯一地识别出 93% 的人，下限为 22%。当有五个点可用时，这个下限增加到 87%。综上所述，我们的结果表明，即使在国家规模的位置数据集中，个人的隐私也很难得到保护。”

这是黑客通常在医疗保健、金融和政府记录中挖掘的黄金。他们需要四个黄金辅助数据点，才能找到个人。

这并不是大海捞针。
这是在一堆针中找到一根特定的针。
我所需要的只是有关该针头三个月的位置数据，然后，我就得到了它。

数据集的唯一性对于大多数组织来说是一个巨大的盲点。

这应该是一个重大的合规问题，但这也是一个盲点。

这是一个重大的安全风险，直到我们学会观察它。

我刚刚参加了IAPP 人工智能治理培训。这是 2024 年 4 月刚刚制定的了解人工智能隐私问题全球监管的新标准。我有技术背景，我想利用这些培训来了解我经常接触的所有律师、监管者和合规官的想法。我对它对当前监管环境的总结感到非常满意，我喜欢认证要求每年更新你对该主题的培训：在这个监管环境中，事情发展很快。

我想暂时集中谈谈我希望人工智能治理专业人士理解的内容。

我希望我们能涵盖隐私增强技术方面的技术进步，如果您的数据集存在较高的唯一性风险，则需要考虑这些技术进步。我希望我们能涵盖任何已知的定量测量，以降低小型或大型数据集中唯一性的风险。我希望我们能涵盖唯一性，就是这样。

我希望我们能介绍隐私增强技术 (PET)的独特之处：从 Linux 内核的原始部分开始，这项技术都是专门为隐私保护而设计的。PET 可以同时减轻高风险数据集的合规性和安全性风险。

安全风险通常以威胁建模的形式进行审查。它是三个因素相乘的推测性计算：威胁类型（内部参与者、供应链漏洞）、影响程度（对利益相关者、对最终用户、对企业声誉）和可能性。

风险 = 威胁 x 影响 x 可能性。

让我们关注可能性：我倾向于将其计算为已知/感知的资产价值，甚至为算法等知识产权标上拟议的价格标签。这很重要。你应该像评估你的产品一样评估你的算法知识产权，因为特别是在人工智能领域，它绝对是你的产品。

这也能让你的注意力集中在威胁模型上。如果你的企业专门围绕生成算法创造知识产权，那么传统的安全方法就行不通了。

让我解释一下原因：

我们现在非常擅长加密数据。
不幸的是，计算加密数据实际上是不可能的。

如果您的业务依赖于计算（如果您读到这里，那么它很可能确实如此），那么您有责任针对您的表面区域因隐私而产生的安全威胁做出决策。隐私是技术的一部分，其中合规性实际上可能与安全性完全一致。

回到那些令人讨厌的加密数据：加密数据有几个很好的理由。我最喜欢的 PET 机密计算实际用例是打击全球人口贩运。

世界上一直都有善良的人，为这个全球性问题受害者的权利和自由而战。传统上，OSINT 技术用于识别包含信息的数据库的位置，这些信息通常是一组照片或视频信息，从法律上讲，您不得存储和持有这些证据，因为目标是限制这些记录拥有新的分发载体的能力。

这带来了一个问题，因为掠夺者可以轻易地在网上转移信息，根据需要集中或分散他们的架构。而那些应对这个问题的人却没有同样的灵活性。

合理的调节，但不幸的是产生了副作用。

现在，机密计算在希望正义私人数据交换中为我们提供了一场公平的斗争：演示如何将那些极高风险的记录集中到可信执行环境中，通过在基于硬件的、经过证明的可信执行环境中执行计算来保护正在使用的数据：这些数据只能通过算法而不是人眼观察到。

而且情况会越来越好。由于我们非常擅长加密，因此加密现在可能成为大型联合数据生态系统的一部分。世界各地的组织能够整合他们的记录，并利用四个黄金辅助措施的魔力，获取可能的个人身份信息，这些信息不仅包括个人，还包括位置和潜在的运动模式。这是一场公平的斗争，隐私由一个独立的执行环境保护：只有算法的眼睛才能再次看到这些图像。

唯一性并不是什么大邪恶。

Unicity 是一款非常好的工具。Unicity 用计算取代了您的盲点。看看您所在组织首次尝试 AI 合规性评估：风险管理、数据治理和网络安全实践。超越当前法规，考虑您的系统可能给最终用户带来的总体风险，并开始为数据密集的世界进行威胁建模。让我们把这件事做好。

我们花了几天时间学习 AI 监管的每一个框架，我学到了很多东西。根据 AIGP 培训中提供的监管框架，以下是我目前对如何在任何中大型组织中处理这个问题的建议。

优先考虑当前的人工智能治理框架

丰富的人工智能治理框架

综合风险管理（NIST AI RMF）

结构化风险管理流程：
- 识别风险：进行全面的风险评估，以识别潜在的与人工智能相关的风险。
- 评估风险：评估已识别风险的严重性和可能性。
- 管理风险：实施策略以减轻已发现的风险。
- 监控和更新：持续监控人工智能系统是否存在新风险，并相应地更新风险管理策略。

道德人工智能发展（经合组织人工智能原则）

道德考虑：
- 以人为本的设计：确保人工智能系统优先考虑人类输入并满足人类的需求和经验。
- 透明度和可解释性：提供有关人工智能系统如何做出决策的清晰易懂的信息。
- 问责制：对人工智能系统的行为和结果建立明确的责任制。

监管合规性（GDPR、欧盟人工智能法案）

数据保护和隐私：
- GDPR 合规性：实施措施保护个人数据，包括数据最小化和匿名化。
- 欧盟人工智能法案：根据风险对人工智能系统进行分类，并确保遵守高风险人工智能系统的特定要求。
- 数据影响评估：进行数据保护影响评估 (DPIA) 和 AI 一致性评估，以评估隐私风险。

技术考虑

隐私增强技术（PET） ：
- 差分隐私：实施差分隐私，在分析群体模式的同时确保数据隐私。
- 联邦学习：使用联邦学习在分散数据上训练人工智能模型，而无需共享单个数据点。
- 同态加密：采用同态加密对加密数据进行计算。
唯一性和重新识别风险：
- 测量唯一性：定量测量数据集中重新识别的风险，以确保隐私。
- 监控和减少单一性：持续监控数据集的单一性并实施策略来减少它。

尝试衡量实施过程中的长期影响

建立中央治理机构：创建专门负责人工智能治理的团队，确保遵守 GDPR、欧盟人工智能法案、NIST AI RMF 和 OECD AI 原则。
制定综合政策和程序：制定综合四大监管框架原则的政策，重点关注数据保护、风险管理、透明度和问责制。
利用技术实现合规：使用先进技术，例如隐私增强技术 (PET) 和 AI 监控工具，来支持合规和风险管理工作。
随时了解监管变化和人工智能治理的进展，确保治理框架随着新发展而发展。保持监管视野，但尽你所能，开始以不同的方式思考这个问题。考虑一下我们实际上可以进行负责任的计算的所有方法。

如果我们想要识别个人，就必须确保这些表面区域的安全。

如果我们不想识别个人，请实施一种方法来监控系统输出中持续重新识别的风险。

公共和泄露数据集中较低水平的唯一性对我们所有人来说都是好事。这是您的团队可以采取的数据卫生实践，可以定量衡量出于隐私动机的对手使用收敛数据的风险。我们绝对可以而且必须提高保护个人数据免遭重新识别的标准。我们只有在自己的数据中进行衡量后才能开始这样做。如果您认真对待隐私增强技术和计算监管的变化趋势，请向我发送一个有趣的问题。如果您的系统在训练中必须与高风险数据打交道，您可能还会关心人工智能中的“忘却学习”或对高影响力法学硕士 (LLM) 的安全威胁。