paint-brush
Mascaramento de dados: como pode ser implementado corretamentepor@itrex
2,167 leituras
2,167 leituras

Mascaramento de dados: como pode ser implementado corretamente

por ITRex12m2023/03/02
Read on Terminal Reader

Muito longo; Para ler

As multas relacionadas à exposição de dados confidenciais estão crescendo. As principais violações do GDPR podem custar às empresas até 4% de seu faturamento global anual. Para garantir a conformidade e a segurança dos dados, as empresas estão recorrendo a provedores de serviços de gerenciamento de dados. Confira este guia respondendo a três perguntas importantes: O que é mascaramento de dados? Por que e quando você precisa e como sua empresa poderia implementá-lo com sucesso?
featured image - Mascaramento de dados: como pode ser implementado corretamente
ITRex HackerNoon profile picture

As multas relacionadas à exposição de dados confidenciais estão crescendo. Por exemplo, grandes violações do GDPR podem custar às empresas até 4% de seu faturamento global anual , enquanto violações graves da HIPAA podem resultar em prisão.


Seu ambiente de produção pode estar totalmente protegido. Mas e as iniciativas de teste e demonstrações de vendas? Você confia nos contratados terceirizados que têm acesso aos seus dados confidenciais? Eles farão o possível para protegê-lo?


Para garantir a conformidade e a segurança dos dados, as empresas estão recorrendo a provedores de serviços de gerenciamento de dados . Se você também estiver interessado, confira este guia respondendo a três perguntas importantes:


  • O que é mascaramento de dados?
  • Por que e quando você precisa, e
  • Como sua empresa poderia implementá-lo com sucesso?

Ele também apresenta um exemplo detalhado de mascaramento de dados de nosso portfólio. Depois de ler o artigo, você terá informações suficientes para negociar com fornecedores de mascaramento de dados.

Noções básicas sobre mascaramento de dados

Então, o que é mascaramento de dados?


O mascaramento de dados é definido como a construção de uma versão realista e estruturalmente semelhante, mas ainda assim falsa, dos dados organizacionais. Ele altera os valores de dados originais usando técnicas de manipulação, mantendo o mesmo formato e entrega uma nova versão que não pode ser submetida a engenharia reversa ou rastreada de volta aos valores autênticos. Aqui está um exemplo de dados mascarados:


Você precisa aplicar algoritmos de mascaramento de dados a todos os dados armazenados em sua empresa? Mais provável que não. Aqui estão os tipos de dados que você definitivamente precisa proteger:


  • As informações de saúde protegidas (PHI) incluem registros médicos, testes de laboratório, informações de seguro médico e até dados demográficos.
  • As informações do cartão de pagamento estão relacionadas às informações do cartão de crédito e débito e aos dados da transação de acordo com o Padrão de segurança de dados do setor de cartões de pagamento (PCI DSS).
  • Informações de identificação pessoal (PII) , como passaporte e números de previdência social. Basicamente, qualquer informação que possa ser usada para identificar uma pessoa.
  • A propriedade intelectual (PI) inclui invenções, como designs ou qualquer coisa que tenha valor para a organização e possa ser roubada.

Por que você precisa de mascaramento de dados?

O mascaramento de dados protege informações confidenciais utilizadas para fins não produtivos. Portanto, desde que você use qualquer um dos tipos de dados confidenciais apresentados na seção anterior em treinamento, teste, demonstrações de vendas ou qualquer outro tipo de atividade não produtiva, será necessário aplicar técnicas de mascaramento de dados. Isso faz sentido, pois os ambientes de não produção são normalmente menos protegidos e apresentam mais vulnerabilidades de segurança .


Além disso, se houver necessidade de compartilhar seus dados com fornecedores e parceiros terceirizados, você pode conceder acesso a dados mascarados em vez de forçar a outra parte a cumprir suas extensas medidas de segurança para acessar o banco de dados original. As estatísticas mostram que 19% das violações de dados ocorrem devido a comprometimentos por parte do parceiro de negócios.


Além disso, o mascaramento de dados pode oferecer as seguintes vantagens:


  • Torna os dados organizacionais inúteis para cibercriminosos caso eles consigam acessá-los
  • Reduz os riscos decorrentes do compartilhamento de dados com usuários autorizados e terceirização de projetos
  • Ajuda a cumprir os regulamentos relacionados à privacidade e segurança de dados, como o Regulamento Geral de Proteção de Dados (GDPR), a Lei de Portabilidade e Responsabilidade de Seguro Saúde (HIPAA) e quaisquer outros regulamentos aplicáveis em seu campo
  • Protege os dados em caso de exclusão, pois os métodos convencionais de exclusão de arquivos ainda deixam rastros dos valores de dados antigos
  • Protege seus dados em caso de transferência não autorizada de dados

Tipos de mascaramento de dados

Existem cinco tipos principais de mascaramento de dados que visam cobrir diferentes necessidades organizacionais.

1. Mascaramento de dados estáticos

Implica criar um backup dos dados originais e mantê-los seguros em um ambiente separado para casos de uso de produção. Em seguida, ele disfarça a cópia incluindo valores falsos, mas realistas, e a disponibiliza para fins de não produção (por exemplo, teste, pesquisa), bem como para compartilhamento com contratados.


Mascaramento de dados estáticos


2. Mascaramento de dados dinâmicos

Visa modificar um trecho dos dados originais em tempo de execução ao receber uma consulta ao banco de dados. Portanto, um usuário que não está autorizado a visualizar informações confidenciais consulta o banco de dados de produção e a resposta é mascarada em tempo real sem alterar os valores originais. Você pode implementá-lo via proxy de banco de dados, conforme apresentado a seguir. Esse tipo de mascaramento de dados é normalmente usado em configurações somente leitura para evitar a substituição de dados de produção.


Mascaramento de dados dinâmicos


3. Mascaramento de dados em tempo real

Esse tipo de mascaramento de dados disfarça os dados ao transferi-los de um ambiente para outro, como da produção para o teste. É popular entre organizações que implantam continuamente software e realizam grandes integrações de dados.

4. Mascaramento de dados determinísticos

Substitui os dados da coluna pelo mesmo valor fixo. Por exemplo, se quiser substituir “Olivia” por “Emma”, terá de o fazer em todas as tabelas associadas, não apenas na tabela que está a mascarar.

5. Ofuscação de dados estatísticos

Isso é usado para revelar informações sobre padrões e tendências em um conjunto de dados sem compartilhar nenhum detalhe sobre as pessoas reais representadas ali.

7 principais técnicas de mascaramento de dados

Abaixo você pode encontrar sete das técnicas de mascaramento de dados mais populares. Você pode combiná-los para cobrir as diversas necessidades do seu negócio.


  1. Embaralhando . Você pode embaralhar e reatribuir valores de dados na mesma tabela. Por exemplo, se você embaralhar a coluna do nome do funcionário, obterá os detalhes pessoais reais de um funcionário correspondente a outro.

  2. Lutando . Reorganiza caracteres e números inteiros de um campo de dados em ordem aleatória. Se o ID original de um funcionário for 97489376, após aplicar o embaralhamento, você receberá algo como 37798649. Isso é restrito a tipos de dados específicos.

  3. Anulando . Essa é uma estratégia de mascaramento simples em que um campo de dados recebe um valor nulo. Esse método tem uso limitado, pois tende a falhar na lógica do aplicativo.

  4. Substituição . Os dados originais são substituídos por valores falsos, mas realistas. O que significa que o novo valor ainda precisa satisfazer todas as restrições de domínio. Por exemplo, você substitui o número do cartão de crédito de alguém por outro número que esteja em conformidade com as regras impostas pelo banco emissor.

  5. Variância numérica . Isso se aplica principalmente a informações financeiras. Um exemplo é mascarar os salários originais aplicando +/-20% de variação.

  6. Envelhecimento da data . Esse método aumenta ou diminui uma data em um intervalo específico, garantindo que a data resultante satisfaça as restrições do aplicativo. Por exemplo, você pode envelhecer todos os contratos em 50 dias.

  7. Média . Envolve a substituição de todos os valores de dados originais por uma média. Por exemplo, você pode substituir cada campo de salário individual por uma média de valores salariais nesta tabela.


Como implementar o mascaramento de dados da maneira certa?

Aqui está seu plano de implementação de mascaramento de dados em 5 etapas.

Passo 1: Determine o escopo do seu projeto

Antes de começar, você precisará identificar quais aspectos abordará. Aqui está uma lista de perguntas típicas que sua equipe de dados pode estudar antes de prosseguir com as iniciativas de mascaramento:

  • Quais dados estamos procurando mascarar?
  • Onde ele reside?
  • Quem está autorizado a acessá-lo?
  • Qual é o nível de acesso de cada usuário acima? Quem pode apenas visualizar e quem pode alterar e excluir valores?
  • Quais aplicativos estão utilizando esses dados confidenciais?
  • Que impacto o mascaramento de dados terá em diferentes usuários?
  • Qual nível de mascaramento é necessário e com que frequência precisaremos repetir o processo?
  • Estamos procurando aplicar mascaramento de dados em toda a organização ou limitá-lo a um produto específico?

Etapa 2: definir a pilha de técnicas de mascaramento de dados

Durante esta etapa, você precisa identificar qual técnica ou combinação de ferramentas de mascaramento de dados é a mais adequada para a tarefa em questão.


Em primeiro lugar, você precisa identificar quais tipos de dados você precisa mascarar, por exemplo, nomes, datas, dados financeiros, etc., pois diferentes tipos exigem algoritmos de mascaramento de dados dedicados. Com base nisso, você e seu fornecedor podem escolher quais bibliotecas de código aberto podem ser reutilizadas para produzir a solução de mascaramento de dados mais adequada. Aconselhamos recorrer a um fornecedor de software , pois ele o ajudará a personalizar a solução e a integrá-la facilmente aos seus fluxos de trabalho em toda a empresa, sem interromper nenhum processo de negócios. Além disso, é possível construir algo do zero para atender às necessidades exclusivas da empresa.


Existem ferramentas de mascaramento de dados prontas que você pode adquirir e implantar por conta própria, como Oracle Data Masking , IRI FieldShield , DATPROF e muito mais. Você pode optar por essa estratégia se gerenciar todos os seus dados sozinho, entender como funcionam os diferentes fluxos de dados e tiver um departamento de TI que possa ajudar a integrar essa nova solução de mascaramento de dados aos processos existentes sem prejudicar a produtividade.

Etapa 3: proteja os algoritmos de mascaramento de dados selecionados

A segurança de seus dados confidenciais depende muito da segurança dos algoritmos de geração de dados falsos selecionados. Portanto, apenas o pessoal autorizado pode saber quais algoritmos de mascaramento de dados são implantados, pois essas pessoas podem fazer engenharia reversa dos dados mascarados para o conjunto de dados original com esse conhecimento. É uma boa prática aplicar a separação de funções. Por exemplo, o departamento de segurança seleciona os algoritmos e ferramentas mais adequados, enquanto os proprietários dos dados mantêm as configurações aplicadas no mascaramento de seus dados.

Etapa 4: preservar a integridade referencial

Integridade referencial significa que cada tipo de dados em sua organização é mascarado da mesma maneira. Isso pode ser um desafio se sua organização for bastante grande e tiver várias funções de negócios e linhas de produtos. Nesse caso, é provável que sua empresa use diferentes algoritmos de mascaramento de dados para várias tarefas.


Para superar esse problema, identifique todas as tabelas que contêm restrições referenciais e determine em qual ordem você mascarará os dados, pois as tabelas pai devem ser mascaradas antes das tabelas filha correspondentes. Após concluir o processo de mascaramento, não se esqueça de verificar se a integridade referencial foi mantida.

Etapa 5: torne o processo de mascaramento repetível

Qualquer ajuste em um projeto específico, ou apenas mudanças gerais em sua organização, pode resultar na modificação de dados confidenciais e na criação de novas fontes de dados, exigindo a repetição do processo de mascaramento.


Há casos em que o mascaramento de dados pode ser um esforço único, como no caso de preparar um conjunto de dados de treinamento especializado que será usado por alguns meses para um pequeno projeto. Mas se você quiser uma solução que o sirva por um tempo prolongado, seus dados podem se tornar obsoletos em um ponto. Portanto, invista tempo e esforço na formalização do processo de mascaramento para torná-lo rápido, repetível e o mais automatizado possível.


Desenvolva um conjunto de regras de mascaramento, como quais dados devem ser mascarados. Identifique quaisquer exceções ou casos especiais que você possa prever neste momento. Adquira/crie scripts e ferramentas automatizadas para aplicar essas regras de mascaramento de maneira consistente.


Sua lista de verificação para selecionar uma solução de mascaramento de dados

Quer você trabalhe com um fornecedor de software de sua escolha ou opte por uma solução pronta, o produto final precisa seguir estas práticas recomendadas de mascaramento de dados:

  • Ser irreversível, impossibilitando a engenharia reversa dos dados falsos para seus valores autênticos
  • Proteja a integridade do banco de dados original e não o torne inútil fazendo alterações permanentes por engano
  • Mascarar dados não confidenciais se isso for necessário para proteger informações confidenciais
  • Forneça uma oportunidade de automação, pois os dados mudarão em algum momento e você não deseja começar do zero todas as vezes
  • Gere dados realistas que mantenham a estrutura e a distribuição dos dados originais e satisfaçam as restrições de negócios
  • Seja escalável para acomodar quaisquer fontes de dados adicionais que você deseja incorporar ao seu negócio
  • Em conformidade com todos os regulamentos aplicáveis, como HIPAA e GDPR, e suas políticas internas
  • Integre-se bem aos sistemas e fluxos de trabalho existentes

Desafios de mascaramento de dados

Aqui está uma lista de desafios que você pode enfrentar durante a implementação.

  • Preservação do formato. A solução de mascaramento deve entender os dados e ser capaz de preservar seu formato original.
  • Preservação de gênero. A metodologia de mascaramento de dados selecionada precisa estar ciente do gênero ao mascarar os nomes das pessoas. Caso contrário, a distribuição de gênero no conjunto de dados será alterada.
  • Integridade semântica. Os valores falsos gerados precisam seguir as regras de negócios que restringem diferentes tipos de dados. Por exemplo, os salários devem estar dentro de uma faixa específica e os números de previdência social devem seguir um formato predeterminado. Isso também é verdade para manter a distribuição geográfica dos dados.
  • Unicidade de dados. Se os dados originais tiverem que ser exclusivos, como um número de identificação de funcionário, a técnica de mascaramento de dados precisará fornecer um valor exclusivo.
  • Equilibrar segurança e usabilidade. Se os dados estiverem muito mascarados, eles podem se tornar inúteis. Por outro lado, se não estiver protegido o suficiente, os usuários podem obter acesso não autorizado.
  • Integrar os dados aos fluxos de trabalho existentes pode ser altamente inconveniente para os funcionários no início, pois as pessoas estão acostumadas a trabalhar de uma determinada maneira, que atualmente está sendo interrompida.

Um exemplo de mascaramento de dados do portfólio ITRex

Uma organização internacional de saúde procurava ocultar informações confidenciais de identificação pessoal (PII) apresentadas em vários formatos e residindo em ambientes de produção e não produção. Eles queriam criar um software de mascaramento de dados baseado em ML que pudesse descobrir e ofuscar PII enquanto cumpria as políticas internas da empresa, GDPR e outros regulamentos de privacidade de dados.


Nossa equipe percebeu imediatamente os seguintes desafios:


  • O cliente tinha enormes volumes de dados, mais de 10.000 fontes de dados e muitos fluxos de dados correspondentes
  • Não havia uma estratégia clara de mascaramento de dados que abrangesse todos os diferentes departamentos


Devido a essa grande variedade, nossa equipe queria criar um conjunto de políticas e processos que orientassem diferentes proprietários de conjuntos de dados sobre como mascarar seus dados e servissem como base para nossa solução. Por exemplo, alguém poderia criar uma lista de pontos de dados que deseja ofuscar, seja uma vez ou continuamente, e a solução, guiada por esses princípios, estudaria os dados, selecionaria técnicas de ofuscação apropriadas e as aplicaria.


Abordamos este projeto levantando a paisagem através das seguintes perguntas:


  • Quais soluções de gerenciamento de dados você está usando? O cliente já estava usando a Informatica, então optamos por isso. A solução de mascaramento de dados da Informatica oferece recursos prontos para uso, que atenderam a algumas das necessidades do cliente, mas não foram suficientes para atender a todos os requisitos.
  • Quais tipos de dados você deseja mascarar? Devido ao grande número de fontes de dados, era impossível abordar tudo de uma vez. Então, pedimos ao cliente que priorizasse e identificasse o que era de missão crítica.
  • Você quer fazer isso uma vez ou torná-lo um processo repetível?


Depois de responder a essas perguntas, sugerimos fornecer mascaramento de dados como um serviço principalmente porque o cliente tem muitas fontes de dados, para começar, e pode levar anos para cobrir todas elas.


No final, fornecemos serviços de mascaramento de dados com a ajuda de uma ferramenta personalizada baseada em ML que pode executar o mascaramento de dados de forma semiautomática em quatro etapas:


  1. Identifique os tipos de dados. Os proprietários de dados colocam suas fontes de dados na ferramenta de análise que estuda os dados das colunas e revela os tipos de dados que podem ser identificados nessas colunas, como endereços, números de telefone, etc. Um especialista humano verifica sua saída, permitindo que aprenda com os erros .
  2. Sugira abordagens de mascaramento para cada coluna e aplique-as após aprovação humana
  3. Distribua os resultados. Depois que os dados mascarados são gerados, eles precisam ser implantados. Fornecemos várias opções para armazenamento de dados. Isso inclui, mas não está limitado a, usar um banco de dados temporário que permanece ativo por vários dias, atribuir um local permanente para ambientes mascarados, gerar arquivos de valores separados por vírgula (CSVs) e muito mais.
  4. Examine e dê um selo de aprovação a um conjunto de dados ou a um conjunto de ambientes como prova de que eles estão devidamente mascarados e em conformidade

Essa solução de mascaramento de dados ajudou o cliente a cumprir o GDPR, reduziu drasticamente o tempo necessário para formar ambientes de não produção e reduziu os custos de transferência de dados da produção para o sandbox.

Como manter os dados mascarados após a implementação?

Seus esforços não param quando os dados confidenciais são mascarados. Você ainda precisa mantê-lo ao longo do tempo. Aqui estão os passos que irão ajudá-lo nesta iniciativa:


  • Estabeleça políticas e procedimentos que regem os dados mascarados. Isso inclui determinar quem está autorizado a acessar esses dados e sob quais circunstâncias e quais finalidades esses dados servem (por exemplo, testes, relatórios, pesquisas, etc.)
  • Treine os funcionários sobre como usar e proteger esses dados
  • Audite e atualize regularmente o processo de mascaramento para garantir que ele permaneça relevante
  • Monitore dados mascarados em busca de atividades suspeitas, como tentativas de acesso não autorizado e violações
  • Execute backups de dados mascarados para garantir que sejam recuperáveis

Considerações finais

O mascaramento de dados protegerá seus dados em ambientes de não produção, permitirá que você compartilhe informações com terceiros contratados e o ajudará na conformidade. Você mesmo pode adquirir e implantar uma solução de ofuscação de dados se tiver um departamento de TI e controlar seus fluxos de dados. No entanto, lembre-se de que a implementação inadequada de mascaramento de dados pode levar a consequências bastante desagradáveis. Aqui estão alguns dos mais proeminentes:


  • Dificultando a produtividade. As técnicas de mascaramento de dados selecionadas podem causar grandes atrasos desnecessários no processamento de dados, atrasando assim os funcionários.
  • Tornar-se vulnerável a violações de dados. Se seus métodos de mascaramento de dados, ou a falta deles, falharem em proteger dados confidenciais, haverá consequências financeiras e legais até o cumprimento de pena na prisão.
  • Derivar resultados imprecisos da análise de dados. Isso pode acontecer se os dados forem mascarados incorretamente ou muito pesados. Os pesquisadores interpretarão mal o conjunto de dados experimentais e chegarão a conclusões errôneas que levarão a decisões de negócios infelizes.


Portanto, se uma empresa não estiver confiante em suas habilidades para executar iniciativas de ofuscação de dados, é melhor entrar em contato com um fornecedor externo que ajudará a selecionar as técnicas corretas de mascaramento de dados e integrar o produto final em seus fluxos de trabalho com o mínimo de interrupções.


Fique protegido!


Considerando implementar uma solução de mascaramento de dados? Entre em contato ! Ajudaremos você a priorizar seus dados, criar uma ferramenta de ofuscação compatível e implantá-la sem interromper seus processos de negócios.