paint-brush
数据屏蔽:如何正确实施经过@itrex
2,167 讀數
2,167 讀數

数据屏蔽:如何正确实施

经过 ITRex12m2023/03/02
Read on Terminal Reader

太長; 讀書

与敏感数据泄露相关的罚款越来越多。严重的 GDPR 违规行为可能会使公司损失高达其年度全球营业额的 4%。为确保合规性和数据安全,公司正在求助于数据管理服务提供商。查看本指南,回答三个重要问题:什么是数据屏蔽?为什么以及何时需要它,您的公司如何成功实施它?
featured image - 数据屏蔽:如何正确实施
ITRex HackerNoon profile picture

与敏感数据泄露相关的罚款越来越多。例如,严重违反 GDPR 可能导致公司损失高达其年度全球营业额的 4% ,而严重违反 HIPAA 可能导致入狱。


您的生产环境可能会受到彻底保护。但是什么是测试计划和销售演示?您对有权访问您的敏感数据的第三方承包商有信心吗?他们会竭尽全力保护它吗?


为确保合规性和数据安全,公司正在求助于数据管理服务提供商。如果您也有兴趣,请查看本指南以回答三个重要问题:


  • 什么是数据屏蔽?
  • 为什么以及何时需要它,以及
  • 贵公司如何成功实施?

它还提供了我们产品组合中的详细数据屏蔽示例。阅读本文后,您将获得足够的信息来与数据屏蔽供应商进行谈判。

了解数据屏蔽

那么,什么是数据屏蔽?


数据屏蔽被定义为构建一个真实的、结构相似但仍然是假的组织数据版本。它使用操作技术更改原始数据值,同时保持相同的格式,并提供无法进行逆向工程或追溯到真实值的新版本。以下是屏蔽数据的示例:


您是否需要对公司内存储的所有数据应用数据屏蔽算法?很可能不会。以下是您绝对需要保护的数据类型:


  • 受保护的健康信息 (PHI)包括医疗记录、实验室测试、医疗保险信息,甚至人口统计信息。
  • 支付卡信息与信用卡和借记卡信息以及支付卡行业数据安全标准 (PCI DSS) 下的交易数据相关。
  • 个人身份信息 (PII) ,例如护照和社会安全号码。基本上,任何可以用来识别一个人的信息。
  • 知识产权 (IP)包括发明,例如设计,或任何对组织有价值且可能被盗的东西。

为什么需要数据屏蔽?

数据屏蔽保护用于非生产目的的敏感信息。因此,只要您在培训、测试、销售演示或任何其他类型的非生产活动中使用上一节中介绍的任何敏感数据类型,就需要应用数据屏蔽技术。这是有道理的,因为非生产环境通常受到的保护较少,并且会引入更多的安全漏洞


此外,如果需要与第三方供应商和合作伙伴共享您的数据,您可以授予对屏蔽数据的访问权限,而不是强迫对方遵守您广泛的安全措施来访问原始数据库。统计数据显示, 19% 的数据泄露是由于业务合作伙伴方面的妥协而发生的。


此外,数据屏蔽可以提供以下优势:


  • 使组织数据对网络犯罪分子无用,以防他们能够访问这些数据
  • 降低与授权用户和外包项目共享数据所带来的风险
  • 帮助遵守数据隐私和安全相关法规,例如《通用数据保护条例》(GDPR)、《健康保险流通与责任法案》(HIPAA) 以及您所在领域适用的任何其他法规
  • 在删除的情况下保护数据,因为传统的文件删除方法仍然会留下旧数据值的痕迹
  • 在未经授权的数据传输情况下保护您的数据

数据屏蔽类型

有五种主要类型的数据屏蔽旨在满足不同的组织需求。

1.静态数据屏蔽

意味着创建原始数据的备份并将其安全保存在用于生产用例的单独环境中。然后它通过包含虚假但真实的值来伪装副本,并使其可用于非生产目的(例如,测试、研究),以及与承包商共享。


静态数据屏蔽


2.动态数据屏蔽

旨在在收到对数据库的查询时在运行时修改原始数据的摘录。因此,无权查看敏感信息的用户会查询生产数据库,并且会在不更改原始值的情况下即时屏蔽响应。您可以通过数据库代理实现它,如下所示。这种数据屏蔽类型通常用于只读设置,以防止覆盖生产数据。


动态数据屏蔽


3. 即时数据屏蔽

这种数据屏蔽类型在将数据从一个环境传输到另一个环境(例如从生产环境传输到测试环境)时伪装数据。它在持续部署软件和执行大数据集成的组织中很受欢迎。

4.确定性数据屏蔽

用相同的固定值替换列数据。例如,如果您想用“Emma”替换“Olivia”,您必须在所有关联表中执行此操作,而不仅仅是在您当前屏蔽的表中。

5.统计数据混淆

这用于揭示有关数据集中的模式和趋势的信息,而无需共享代表那里的实际人员的任何详细信息。

7 种主要的数据屏蔽技术

您可以在下面找到七种最流行的数据屏蔽技术。您可以将它们结合起来以满足您业务的各种需求。


  1. 洗牌。您可以在同一个表中随机排列和重新分配数据值。例如,如果您打乱员工姓名列,您将获得与另一名员工匹配的真实个人详细信息。

  2. 争先恐后。以随机顺序重新排列数据字段的字符和整数。如果员工的原始 ID 是 97489376,应用改组后,您将收到类似 37798649 的内容。这仅限于特定数据类型。

  3. 归零。这是一个简单的屏蔽策略,其中数据字段被分配了一个空值。此方法的用途有限,因为它往往会使应用程序的逻辑失败。

  4. 换人。原始数据被虚假但真实的值所取代。这意味着新值仍然需要满足所有域约束。例如,您将某人的信用卡号码替换为另一个符合发卡银行强制执行规则的号码。

  5. 数方差。这主要适用于财务信息。一个例子是通过应用 +/-20% 的差异来掩盖原始工资。

  6. 日期老化。此方法按特定范围增加或减少日期,保持结果日期满足应用程序的约束。例如,您可以将所有合同按 50 天计龄。

  7. 平均。涉及用平均值替换所有原始数据值。例如,您可以将每个单独的工资字段替换为该表中工资值的平均值。


如何以正确的方式实施数据屏蔽?

这是您的 5 步数据屏蔽实施计划。

第一步:确定项目范围

在开始之前,您需要确定将涵盖哪些方面。以下是您的数据团队在进行屏蔽计划之前可以研究的典型问题列表:

  • 我们希望掩盖哪些数据?
  • 它住在哪里?
  • 谁有权访问它?
  • 以上每个用户的访问级别是多少?谁只能查看,谁可以更改和删除值?
  • 哪些应用程序正在使用这些敏感数据?
  • 数据屏蔽对不同用户有什么影响?
  • 需要什么级别的掩蔽,我们需要多久重复一次该过程?
  • 我们是希望在整个组织中应用数据屏蔽还是将其限制在特定产品上?

第 2 步:定义数据屏蔽技术堆栈

在此步骤中,您需要确定哪种技术或数据屏蔽工具组合最适合手头的任务。


首先,您需要确定需要屏蔽哪些数据类型,例如姓名、日期、财务数据等,因为不同类型需要专门的数据屏蔽算法。在此基础上,您和您的供应商可以选择可以重复使用哪些开源库来生成最适合的数据屏蔽解决方案。我们建议求助于软件供应商,因为他们将帮助您定制解决方案并将其轻松集成到整个公司的工作流程中,而不会中断任何业务流程。此外,还可以从零开始构建一些东西来满足公司的独特需求。


您可以自行购买和部署现成的数据屏蔽工具,例如Oracle Data MaskingIRI FieldShieldDATPROF等等。如果您自己管理所有数据,了解不同的数据流如何工作,并且您的 IT 部门可以帮助将这种新的数据屏蔽解决方案集成到现有流程中,而不会影响生产力,则可以选择此策略。

第 3 步:保护您选择的数据屏蔽算法

您的敏感数据的安全性在很大程度上取决于所选假数据生成算法的安全性。因此,只有授权人员才能知道部署了哪些数据屏蔽算法,因为这些人可以利用这些知识将屏蔽数据反向工程为原始数据集。应用职责分离是一种很好的做法。例如,安全部门选择最适合的算法和工具,而数据所有者维护用于屏蔽其数据的设置。

第 4 步:保持参照完整性

参照完整性意味着组织内的每种数据类型都以相同的方式被屏蔽。如果您的组织相当大并且具有多个业务功能和产品线,这可能是一个挑战。在这种情况下,您的公司可能会针对各种任务使用不同的数据屏蔽算法。


要解决此问题,请识别所有包含引用约束的表并确定您将以何种顺序屏蔽数据,因为父表应在对应的子表之前屏蔽。完成屏蔽过程后,不要忘记检查参照完整性是否得到维护。

第 5 步:使掩蔽过程可重复

对特定项目的任何调整,或组织内的一般变化,都可能导致修改敏感数据并创建新的数据源,从而需要重复屏蔽过程。


在某些情况下,数据屏蔽可能是一次性的工作,例如准备一个专门的训练数据集,该数据集将用于一个小项目几个月。但是,如果您想要一个可以长期为您服务的解决方案,您的数据可能会在某一时刻变得过时。因此,投入时间和精力来规范掩蔽过程,使其快速、可重复并尽可能自动化。


制定一套屏蔽规则,例如必须屏蔽哪些数据。确定您此时可以预见的任何异常或特殊情况。获取/构建脚本和自动化工具以一致的方式应用这些屏蔽规则。


选择数据屏蔽解决方案的清单

无论您是与自己选择的软件供应商合作还是选择现成的解决方案,最终产品都需要遵循以下数据屏蔽最佳实践:

  • 不可逆,因此无法将虚假数据逆向工程为其真实值
  • 保护原始数据库的完整性,不会因错误地进行永久更改而使其变得无用
  • 如果有必要保护敏感信息,请屏蔽非敏感数据
  • 提供自动化的机会,因为数据会在某个时候发生变化,你不想每次都从零开始
  • 生成保持原始数据结构和分布的真实数据,满足业务约束
  • 可扩展以容纳您想要合并到您的业务中的任何其他数据源
  • 符合所有适用法规,例如 HIPAA 和 GDPR,以及您的内部政策
  • 很好地集成到现有系统和工作流程中

数据屏蔽挑战

以下是您在实施过程中可能面临的挑战列表。

  • 格式保存。屏蔽解决方案必须理解数据并能够保留其原始格式。
  • 性别保护。所选的数据屏蔽方法在屏蔽人名时需要注意性别。否则,数据集中的性别分布将被改变。
  • 语义完整性。生成的假值需要遵循限制不同数据类型的业务规则。例如,工资必须在特定范围内,社会安全号码必须遵循预定格式。这对于维护数据的地理分布也是如此。
  • 数据唯一性。如果原始数据必须是唯一的,例如员工 ID 号,则数据屏蔽技术需要提供唯一值。
  • 平衡安全性和可用性。如果数据被过度掩盖,它可能变得毫无用处。另一方面,如果保护不够,用户可能会获得未经授权的访问。
  • 将数据集成到现有工作流程中可能在一开始对员工来说非常不方便,因为人们习惯于以某种方式工作,而这种方式目前正在被打乱。

来自 ITRex 产品组合的数据屏蔽示例

一家国际医疗保健组织希望隐藏以多种格式呈现并驻留在生产和非生产环境中的敏感个人身份信息 (PII)。他们想要构建一个基于 ML 的数据屏蔽软件,该软件可以发现和混淆 PII,同时遵守公司的内部政策、GDPR 和其他数据隐私法规。


我们的团队立即注意到以下挑战:


  • 客户拥有海量数据,超过10,000个数据源,以及许多对应的数据流
  • 没有涵盖所有不同部门的明确数据屏蔽策略


由于种类繁多,我们的团队希望提出一套政策和流程来指导不同的数据集所有者如何屏蔽他们的数据,并作为我们解决方案的基础。例如,有人可以想出一个他们想要混淆的数据点列表,无论是一次还是连续,并且在这些原则的指导下,解决方案将研究数据并选择适当的混淆技术并应用它们。


我们通过以下问题调查景观来接近这个项目:


  • 您使用哪些数据管理解决方案?客户已经在使用 Informatica,所以我们就这么做了。 Informatica 的数据屏蔽解决方案提供开箱即用的功能,可以满足客户的部分需求,但这还不足以满足所有需求。
  • 您愿意屏蔽哪些数据类型?由于数据源众多,不可能一次解决所有问题。因此,我们要求客户确定优先级并确定什么是关键任务。
  • 你想做一次,还是让它成为一个可重复的过程?


在回答了这些问题之后,我们建议提供数据屏蔽服务,主要是因为客户的数据源太多,一开始可能需要数年时间才能覆盖所有数据源。


最后,我们借助自定义 ML 驱动工具提供了数据屏蔽服务,该工具可以通过四个步骤半自动执行数据屏蔽:


  1. 识别数据类型。数据所有者将他们的数据源放入分析工具中,该工具研究列的数据并揭示它可以在这些列中识别的数据类型,例如地址、电话号码等。人类专家验证其输出,使其从错误中吸取教训.
  2. 为每一列建议掩蔽方法并在人工批准后应用它们
  3. 部署结果。掩码数据生成后,需要进行部署。我们为数据存储提供了多种选择。这包括但不限于使用可保持数天的临时数据库、为屏蔽环境分配永久位置、生成逗号分隔值 (CSV) 文件等。
  4. 检查一组数据或一组环境并为其颁发批准徽章,以证明它们已被适当屏蔽并合规

该数据屏蔽解决方案帮助客户遵守 GDPR,显着减少了构建非生产环境所需的时间,并降低了将数据从生产环境传输到沙盒的成本。

实施后如何维护屏蔽数据?

当机密数据被掩盖时,您的努力不会停止。随着时间的推移,您仍然需要维护它。以下是将帮助您完成此计划的步骤:


  • 建立管理屏蔽数据的政策和程序。这包括确定谁有权访问此数据以及在何种情况下以及此数据用于哪些目的(例如,测试、报告、研究等)
  • 培训员工如何使用和保护这些数据
  • 定期审核和更新屏蔽流程以确保其保持相关性
  • 监控任何可疑活动的屏蔽数据,例如未经授权的访问尝试和违规行为
  • 执行屏蔽数据备份以确保其可恢复

结语

数据屏蔽将保护您在非生产环境中的数据,使您能够与第三方承包商共享信息,并帮助您实现合规性。如果您有 IT 部门并控制数据流,则可以自行购买和部署数据混淆解决方案。但是,请记住,不正确的数据屏蔽实施可能会导致相当不愉快的后果。以下是一些最突出的:


  • 阻碍生产力。所选的数据屏蔽技术可能会导致数据处理出现大量不必要的延迟,从而降低员工的工作效率。
  • 变得容易受到数据泄露的影响。如果您的数据屏蔽方法或缺乏数据屏蔽方法无法保护敏感数据,将面临经济和法律后果,直至服刑。
  • 从数据分析中得出不准确的结果。如果数据被错误或过度屏蔽,就会发生这种情况。研究人员会误解实验数据集并得出错误的结论,从而导致不幸的业务决策。


因此,如果公司对其执行数据混淆计划的能力没有信心,最好联系外部供应商,他们将帮助选择正确的数据屏蔽技术,并将最终产品集成到您的工作流程中,尽量减少中断。


保持保护!


考虑实施数据屏蔽解决方案?取得联系!我们将帮助您确定数据的优先级,构建合规的混淆工具,并在不中断业务流程的情况下进行部署。