但隐私与安全之间有着非常独特的相互作用:包含个人身份信息的数据需要最高标准的安全。隐私的含义已经永远改变,因为大规模计算意味着完全“匿名”数据集的组合中的重新识别可以很容易地用于识别个人。
计算,特别是大计算 - 使用稀疏信息向量解锁高维数据中的模式,使其在个人可识别模式中变得密集。Unicity 可以定量测量具有相似特征的个体或群体的数量。
唯一性在英语中经常被用来体现善良和开放。
数学中的唯一性被定义为陈述一个数学对象的唯一性,通常意味着只有一个对象满足给定的属性,或者给定类的所有对象都是等价的。
密码学中的唯一性距离并不是今天的重点,但它可能有助于阐明这个想法:它告诉我们需要多少密文才能唯一地恢复加密密钥,假设攻击者知道加密算法并且能够访问密文和一些明文统计信息。基本上,它可以让您在挖掘之前计算出大海捞针需要多大。
这种在大型数据集中测量唯一性的想法最初是由一项研究提出的,该研究发现,Netflix Prize 数据集中超过 90% 的人可以被唯一地重新识别,因为他们“证明了对手即使对某个用户知之甚少,也能轻松地在数据集中识别出该用户的记录。使用互联网电影数据库作为背景知识来源,我们成功识别了已知用户的 Netflix 记录,揭示了他们明显的政治偏好和其他潜在的敏感信息。”
2021年,我再次被提醒“
我一直在研究人类大脑的信号处理,看看我们能否在无意识的情况下改变大脑网络。剧透:你完全可以。这些数据可能看起来非常敏感,是高度可识别的个人数据 - 但有些数据集比这危险得多。比如你已知的 Neflix 使用情况。
美国政府资助的医学研究要求在合理保护隐私的前提下,向公众公开这些数据集,但当你计算重新识别风险时,不仅是数据集内的个人,还包括与附近地理位置上任何容易获得的个人相结合的风险。
值得一读的是整个摘要:
“尽管匿名数据不属于个人数据,但最近的研究表明个人经常被重新识别。学者们认为,先前的研究结果仅适用于小规模数据集,大规模数据集可以保护隐私。使用 3 个月的位置数据,我们 (1) 表明重新识别的风险会随着数据集大小的增加而缓慢降低;(2) 用一个考虑三个全人口边际分布的简单模型来近似这种降低;(3) 证明唯一性是凸的并获得线性下限。我们的估计表明,使用四个辅助信息点,可以在 6000 万人的数据集中唯一地识别出 93% 的人,下限为 22%。当有五个点可用时,这个下限增加到 87%。综上所述,我们的结果表明,即使在国家规模的位置数据集中,个人的隐私也很难得到保护。”
这是黑客通常在医疗保健、金融和政府记录中挖掘的黄金。他们需要四个黄金辅助数据点,才能找到个人。
这并不是大海捞针。
这是在一堆针中找到一根特定的针。
我所需要的只是有关该针头三个月的位置数据,然后,我就得到了它。
数据集的唯一性对于大多数组织来说是一个巨大的盲点。
这应该是一个重大的合规问题,但这也是一个盲点。
这是一个重大的安全风险,直到我们学会观察它。
我刚刚参加了IAPP 人工智能治理培训。这是 2024 年 4 月刚刚制定的了解人工智能隐私问题全球监管的新标准。我有技术背景,我想利用这些培训来了解我经常接触的所有律师、监管者和合规官的想法。我对它对当前监管环境的总结感到非常满意,我喜欢认证要求每年更新你对该主题的培训:在这个监管环境中,事情发展很快。
我希望我们能涵盖隐私增强技术方面的技术进步,如果您的数据集存在较高的唯一性风险,则需要考虑这些技术进步。我希望我们能涵盖任何已知的定量测量,以降低小型或大型数据集中唯一性的风险。我希望我们能涵盖唯一性,就是这样。
我希望我们能介绍隐私增强技术 (PET)的独特之处:从 Linux 内核的原始部分开始,这项技术都是专门为隐私保护而设计的。PET 可以同时减轻高风险数据集的合规性和安全性风险。
安全风险通常以威胁建模的形式进行审查。它是三个因素相乘的推测性计算:威胁类型(内部参与者、供应链漏洞)、影响程度(对利益相关者、对最终用户、对企业声誉)和可能性。
让我们关注可能性:我倾向于将其计算为已知/感知的资产价值,甚至为算法等知识产权标上拟议的价格标签。这很重要。你应该像评估你的产品一样评估你的算法知识产权,因为特别是在人工智能领域,它绝对是你的产品。
这也能让你的注意力集中在威胁模型上。如果你的企业专门围绕生成算法创造知识产权,那么传统的安全方法就行不通了。
让我解释一下原因:
我们现在非常擅长加密数据。
不幸的是,计算加密数据实际上是不可能的。
如果您的业务依赖于计算(如果您读到这里,那么它很可能确实如此),那么您有责任针对您的表面区域因隐私而产生的安全威胁做出决策。隐私是技术的一部分,其中合规性实际上可能与安全性完全一致。
回到那些令人讨厌的加密数据:加密数据有几个很好的理由。我最喜欢的 PET 机密计算实际用例是打击全球人口贩运。
世界上一直都有善良的人,为这个全球性问题受害者的权利和自由而战。传统上,OSINT 技术用于识别包含信息的数据库的位置,这些信息通常是一组照片或视频信息,从法律上讲,您不得存储和持有这些证据,因为目标是限制这些记录拥有新的分发载体的能力。
这带来了一个问题,因为掠夺者可以轻易地在网上转移信息,根据需要集中或分散他们的架构。而那些应对这个问题的人却没有同样的灵活性。
合理的调节,但不幸的是产生了副作用。
现在,机密计算在希望正义私人数据交换中为我们提供了一场公平的斗争:演示如何将那些极高风险的记录集中到可信执行环境中,通过在基于硬件的、经过证明的可信执行环境中执行计算来保护正在使用的数据:这些数据只能通过算法而不是人眼观察到。
而且情况会越来越好。由于我们非常擅长加密,因此加密现在可能成为大型联合数据生态系统的一部分。世界各地的组织能够整合他们的记录,并利用四个黄金辅助措施的魔力,获取可能的个人身份信息,这些信息不仅包括个人,还包括位置和潜在的运动模式。这是一场公平的斗争,隐私由一个独立的执行环境保护:只有算法的眼睛才能再次看到这些图像。
Unicity 是一款非常好的工具。Unicity 用计算取代了您的盲点。看看您所在组织首次尝试 AI 合规性评估:风险管理、数据治理和网络安全实践。超越当前法规,考虑您的系统可能给最终用户带来的总体风险,并开始为数据密集的世界进行威胁建模。让我们把这件事做好。
我们花了几天时间学习 AI 监管的每一个框架,我学到了很多东西。根据 AIGP 培训中提供的监管框架,以下是我目前对如何在任何中大型组织中处理这个问题的建议。
丰富的人工智能治理框架
如果我们想要识别个人,就必须确保这些表面区域的安全。
如果我们不想识别个人,请实施一种方法来监控系统输出中持续重新识别的风险。
公共和泄露数据集中较低水平的唯一性对我们所有人来说都是好事。这是您的团队可以采取的数据卫生实践,可以定量衡量出于隐私动机的对手使用收敛数据的风险。我们绝对可以而且必须提高保护个人数据免遭重新识别的标准。我们只有在自己的数据中进行衡量后才能开始这样做。如果您认真对待隐私增强技术和计算监管的变化趋势,请向我发送一个有趣的问题。如果您的系统在训练中必须与高风险数据打交道,您可能还会关心