与敏感数据泄露相关的罚款越来越多。例如,严重违反 GDPR 可能导致公司损失高达其年度全球营业额的 4% ,而严重违反 HIPAA 可能导致入狱。
您的生产环境可能会受到彻底保护。但是什么是测试计划和销售演示?您对有权访问您的敏感数据的第三方承包商有信心吗?他们会竭尽全力保护它吗?
为确保合规性和数据安全,公司正在求助于数据管理服务提供商。如果您也有兴趣,请查看本指南以回答三个重要问题:
它还提供了我们产品组合中的详细数据屏蔽示例。阅读本文后,您将获得足够的信息来与数据屏蔽供应商进行谈判。
那么,什么是数据屏蔽?
数据屏蔽被定义为构建一个真实的、结构相似但仍然是假的组织数据版本。它使用操作技术更改原始数据值,同时保持相同的格式,并提供无法进行逆向工程或追溯到真实值的新版本。以下是屏蔽数据的示例:
您是否需要对公司内存储的所有数据应用数据屏蔽算法?很可能不会。以下是您绝对需要保护的数据类型:
数据屏蔽保护用于非生产目的的敏感信息。因此,只要您在培训、测试、销售演示或任何其他类型的非生产活动中使用上一节中介绍的任何敏感数据类型,就需要应用数据屏蔽技术。这是有道理的,因为非生产环境通常受到的保护较少,并且会引入更多的安全漏洞。
此外,如果需要与第三方供应商和合作伙伴共享您的数据,您可以授予对屏蔽数据的访问权限,而不是强迫对方遵守您广泛的安全措施来访问原始数据库。统计数据显示, 19% 的数据泄露是由于业务合作伙伴方面的妥协而发生的。
此外,数据屏蔽可以提供以下优势:
有五种主要类型的数据屏蔽旨在满足不同的组织需求。
意味着创建原始数据的备份并将其安全保存在用于生产用例的单独环境中。然后它通过包含虚假但真实的值来伪装副本,并使其可用于非生产目的(例如,测试、研究),以及与承包商共享。
旨在在收到对数据库的查询时在运行时修改原始数据的摘录。因此,无权查看敏感信息的用户会查询生产数据库,并且会在不更改原始值的情况下即时屏蔽响应。您可以通过数据库代理实现它,如下所示。这种数据屏蔽类型通常用于只读设置,以防止覆盖生产数据。
这种数据屏蔽类型在将数据从一个环境传输到另一个环境(例如从生产环境传输到测试环境)时伪装数据。它在持续部署软件和执行大数据集成的组织中很受欢迎。
用相同的固定值替换列数据。例如,如果您想用“Emma”替换“Olivia”,您必须在所有关联表中执行此操作,而不仅仅是在您当前屏蔽的表中。
这用于揭示有关数据集中的模式和趋势的信息,而无需共享代表那里的实际人员的任何详细信息。
您可以在下面找到七种最流行的数据屏蔽技术。您可以将它们结合起来以满足您业务的各种需求。
洗牌。您可以在同一个表中随机排列和重新分配数据值。例如,如果您打乱员工姓名列,您将获得与另一名员工匹配的真实个人详细信息。
争先恐后。以随机顺序重新排列数据字段的字符和整数。如果员工的原始 ID 是 97489376,应用改组后,您将收到类似 37798649 的内容。这仅限于特定数据类型。
归零。这是一个简单的屏蔽策略,其中数据字段被分配了一个空值。此方法的用途有限,因为它往往会使应用程序的逻辑失败。
换人。原始数据被虚假但真实的值所取代。这意味着新值仍然需要满足所有域约束。例如,您将某人的信用卡号码替换为另一个符合发卡银行强制执行规则的号码。
数方差。这主要适用于财务信息。一个例子是通过应用 +/-20% 的差异来掩盖原始工资。
日期老化。此方法按特定范围增加或减少日期,保持结果日期满足应用程序的约束。例如,您可以将所有合同按 50 天计龄。
平均。涉及用平均值替换所有原始数据值。例如,您可以将每个单独的工资字段替换为该表中工资值的平均值。
这是您的 5 步数据屏蔽实施计划。
在开始之前,您需要确定将涵盖哪些方面。以下是您的数据团队在进行屏蔽计划之前可以研究的典型问题列表:
在此步骤中,您需要确定哪种技术或数据屏蔽工具组合最适合手头的任务。
首先,您需要确定需要屏蔽哪些数据类型,例如姓名、日期、财务数据等,因为不同类型需要专门的数据屏蔽算法。在此基础上,您和您的供应商可以选择可以重复使用哪些开源库来生成最适合的数据屏蔽解决方案。我们建议求助于软件供应商,因为他们将帮助您定制解决方案并将其轻松集成到整个公司的工作流程中,而不会中断任何业务流程。此外,还可以从零开始构建一些东西来满足公司的独特需求。
您可以自行购买和部署现成的数据屏蔽工具,例如Oracle Data Masking 、 IRI FieldShield 、 DATPROF等等。如果您自己管理所有数据,了解不同的数据流如何工作,并且您的 IT 部门可以帮助将这种新的数据屏蔽解决方案集成到现有流程中,而不会影响生产力,则可以选择此策略。
您的敏感数据的安全性在很大程度上取决于所选假数据生成算法的安全性。因此,只有授权人员才能知道部署了哪些数据屏蔽算法,因为这些人可以利用这些知识将屏蔽数据反向工程为原始数据集。应用职责分离是一种很好的做法。例如,安全部门选择最适合的算法和工具,而数据所有者维护用于屏蔽其数据的设置。
参照完整性意味着组织内的每种数据类型都以相同的方式被屏蔽。如果您的组织相当大并且具有多个业务功能和产品线,这可能是一个挑战。在这种情况下,您的公司可能会针对各种任务使用不同的数据屏蔽算法。
要解决此问题,请识别所有包含引用约束的表并确定您将以何种顺序屏蔽数据,因为父表应在对应的子表之前屏蔽。完成屏蔽过程后,不要忘记检查参照完整性是否得到维护。
对特定项目的任何调整,或组织内的一般变化,都可能导致修改敏感数据并创建新的数据源,从而需要重复屏蔽过程。
在某些情况下,数据屏蔽可能是一次性的工作,例如准备一个专门的训练数据集,该数据集将用于一个小项目几个月。但是,如果您想要一个可以长期为您服务的解决方案,您的数据可能会在某一时刻变得过时。因此,投入时间和精力来规范掩蔽过程,使其快速、可重复并尽可能自动化。
制定一套屏蔽规则,例如必须屏蔽哪些数据。确定您此时可以预见的任何异常或特殊情况。获取/构建脚本和自动化工具以一致的方式应用这些屏蔽规则。
无论您是与自己选择的软件供应商合作还是选择现成的解决方案,最终产品都需要遵循以下数据屏蔽最佳实践:
以下是您在实施过程中可能面临的挑战列表。
一家国际医疗保健组织希望隐藏以多种格式呈现并驻留在生产和非生产环境中的敏感个人身份信息 (PII)。他们想要构建一个基于 ML 的数据屏蔽软件,该软件可以发现和混淆 PII,同时遵守公司的内部政策、GDPR 和其他数据隐私法规。
我们的团队立即注意到以下挑战:
由于种类繁多,我们的团队希望提出一套政策和流程来指导不同的数据集所有者如何屏蔽他们的数据,并作为我们解决方案的基础。例如,有人可以想出一个他们想要混淆的数据点列表,无论是一次还是连续,并且在这些原则的指导下,解决方案将研究数据并选择适当的混淆技术并应用它们。
我们通过以下问题调查景观来接近这个项目:
在回答了这些问题之后,我们建议提供数据屏蔽服务,主要是因为客户的数据源太多,一开始可能需要数年时间才能覆盖所有数据源。
最后,我们借助自定义 ML 驱动工具提供了数据屏蔽服务,该工具可以通过四个步骤半自动执行数据屏蔽:
该数据屏蔽解决方案帮助客户遵守 GDPR,显着减少了构建非生产环境所需的时间,并降低了将数据从生产环境传输到沙盒的成本。
当机密数据被掩盖时,您的努力不会停止。随着时间的推移,您仍然需要维护它。以下是将帮助您完成此计划的步骤:
数据屏蔽将保护您在非生产环境中的数据,使您能够与第三方承包商共享信息,并帮助您实现合规性。如果您有 IT 部门并控制数据流,则可以自行购买和部署数据混淆解决方案。但是,请记住,不正确的数据屏蔽实施可能会导致相当不愉快的后果。以下是一些最突出的:
因此,如果公司对其执行数据混淆计划的能力没有信心,最好联系外部供应商,他们将帮助选择正确的数据屏蔽技术,并将最终产品集成到您的工作流程中,尽量减少中断。
保持保护!
考虑实施数据屏蔽解决方案?取得联系!我们将帮助您确定数据的优先级,构建合规的混淆工具,并在不中断业务流程的情况下进行部署。