paint-brush
Masquage des données : comment l'implémenter correctementpar@itrex
2,167 lectures
2,167 lectures

Masquage des données : comment l'implémenter correctement

par ITRex12m2023/03/02
Read on Terminal Reader

Trop long; Pour lire

Les amendes liées à l'exposition de données sensibles augmentent. Les violations majeures du RGPD peuvent coûter aux entreprises jusqu'à 4 % de leur chiffre d'affaires mondial annuel. Pour assurer la conformité et la sécurité des données, les entreprises se tournent vers les fournisseurs de services de gestion des données. Consultez ce guide répondant aux trois questions importantes : Qu'est-ce que le masquage des données ? Pourquoi et quand en avez-vous besoin, et comment votre entreprise pourrait-elle le mettre en œuvre avec succès ?
featured image - Masquage des données : comment l'implémenter correctement
ITRex HackerNoon profile picture

Les amendes liées à l'exposition de données sensibles augmentent. Par exemple, les violations majeures du RGPD peuvent coûter aux entreprises jusqu'à 4 % de leur chiffre d'affaires mondial annuel , tandis que les violations flagrantes de la loi HIPAA peuvent entraîner des peines d'emprisonnement.


Votre environnement de production peut être entièrement protégé. Mais qu'en est-il des initiatives de test et des démonstrations de vente ? Faites-vous confiance aux sous-traitants tiers qui ont accès à vos données sensibles ? Feront-ils de leur mieux pour le protéger ?


Pour garantir la conformité et la sécurité des données, les entreprises se tournent vers des prestataires de services de gestion de données . Si vous êtes également intéressé, consultez ce guide répondant aux trois questions importantes :


  • Qu'est-ce que le masquage de données ?
  • Pourquoi et quand en avez-vous besoin, et
  • Comment votre entreprise pourrait-elle le mettre en œuvre avec succès ?

Il présente également un exemple détaillé de masquage de données de notre portefeuille. Après avoir lu l'article, vous aurez suffisamment d'informations pour négocier avec les fournisseurs de masquage de données.

Comprendre le masquage des données

Alors, qu'est-ce que le masquage de données ?


Le masquage des données est défini comme la construction d'une version réaliste et structurellement similaire mais néanmoins fausse des données organisationnelles. Il modifie les valeurs de données d'origine à l'aide de techniques de manipulation tout en conservant le même format et fournit une nouvelle version qui ne peut pas être rétro-conçue ou retracée aux valeurs authentiques. Voici un exemple de données masquées :


Vous avez besoin d'appliquer des algorithmes de masquage de données à toutes les données stockées au sein de votre entreprise ? Préférablement pas. Voici les types de données que vous devez absolument protéger :


  • Les informations de santé protégées (PHI) comprennent les dossiers médicaux, les tests de laboratoire, les informations d'assurance médicale et même les données démographiques.
  • Les informations de carte de paiement sont liées aux informations de carte de crédit et de débit et aux données de transaction conformément à la norme de sécurité des données de l'industrie des cartes de paiement (PCI DSS).
  • Informations personnelles identifiables (IPI) , telles que les numéros de passeport et de sécurité sociale. Fondamentalement, toute information pouvant être utilisée pour identifier une personne.
  • La propriété intellectuelle (PI) comprend les inventions, telles que les conceptions, ou tout ce qui a de la valeur pour l'organisation et peut être volé.

Pourquoi avez-vous besoin d'un masquage de données ?

Le masquage des données protège les informations sensibles utilisées à des fins non productives. Ainsi, tant que vous utilisez l'un des types de données sensibles présentés dans la section précédente dans la formation, les tests, les démonstrations de vente ou tout autre type d'activités hors production, vous devez appliquer des techniques de masquage des données. Cela a du sens car les environnements de non-production sont normalement moins protégés et introduisent davantage de failles de sécurité .


De plus, s'il est nécessaire de partager vos données avec des fournisseurs et partenaires tiers, vous pouvez accorder l'accès aux données masquées au lieu de forcer l'autre partie à se conformer à vos mesures de sécurité étendues pour accéder à la base de données d'origine. Les statistiques montrent que 19 % des violations de données sont dues à des compromis du côté du partenaire commercial.


De plus, le masquage des données peut offrir les avantages suivants :


  • Rend les données organisationnelles inutiles aux cybercriminels au cas où ils pourraient y accéder
  • Réduit les risques posés par le partage de données avec des utilisateurs autorisés et les projets d'externalisation
  • Aide à se conformer aux réglementations relatives à la confidentialité et à la sécurité des données, telles que le Règlement général sur la protection des données (RGPD), la loi HIPAA (Health Insurance Portability and Accountability Act) et toute autre réglementation applicable dans votre domaine
  • Protège les données en cas de suppression, car les méthodes de suppression de fichiers conventionnelles laissent encore une trace des anciennes valeurs de données
  • Protège vos données en cas de transfert de données non autorisé

Types de masquage des données

Il existe cinq principaux types de masquage de données qui visent à couvrir différents besoins organisationnels.

1. Masquage des données statiques

Implique la création d'une sauvegarde des données d'origine et leur conservation dans un environnement séparé pour les cas d'utilisation en production. Ensuite, il déguise la copie en incluant des valeurs fausses mais réalistes, et la rend disponible à des fins non productives (par exemple, tests, recherche), ainsi que pour le partage avec des sous-traitants.


Masquage des données statiques


2. Masquage dynamique des données

Vise à modifier un extrait des données d'origine lors de l'exécution lors de la réception d'une requête à la base de données. Ainsi, un utilisateur non autorisé à consulter des informations sensibles interroge la base de données de production, et la réponse est masquée à la volée sans modifier les valeurs d'origine. Vous pouvez l'implémenter via un proxy de base de données, comme présenté ci-dessous. Ce type de masquage des données est normalement utilisé dans les paramètres en lecture seule pour empêcher le remplacement des données de production.


Masquage dynamique des données


3. Masquage des données à la volée

Ce type de masquage des données masque les données lors de leur transfert d'un environnement à un autre, par exemple de la production aux tests. Il est populaire auprès des organisations qui déploient en permanence des logiciels et effectuent de grandes intégrations de données.

4. Masquage déterministe des données

Remplace les données de colonne par la même valeur fixe. Par exemple, si vous souhaitez remplacer "Olivia" par "Emma", vous devez le faire dans toutes les tables associées, pas seulement dans la table que vous masquez actuellement.

5. Obfuscation des données statistiques

Ceci est utilisé pour révéler des informations sur les modèles et les tendances dans un ensemble de données sans partager aucun détail sur les personnes réelles qui y sont représentées.

7 principales techniques de masquage de données

Vous trouverez ci-dessous sept des techniques de masquage de données les plus populaires. Vous pouvez les combiner pour couvrir les différents besoins de votre entreprise.


  1. Mélanger . Vous pouvez mélanger et réaffecter des valeurs de données dans la même table. Par exemple, si vous mélangez la colonne du nom de l'employé, vous obtiendrez les véritables détails personnels d'un employé correspondant à un autre.

  2. Brouillage . Réorganise les caractères et les nombres entiers d'un champ de données dans un ordre aléatoire. Si l'identifiant d'origine d'un employé est 97489376, après avoir appliqué le brassage, vous recevrez quelque chose comme 37798649. Ceci est limité à des types de données spécifiques.

  3. Annulation . Il s'agit d'une stratégie de masquage simple dans laquelle un champ de données se voit attribuer une valeur nulle. Cette méthode a une utilisation limitée car elle a tendance à faire échouer la logique de l'application.

  4. Remplacement . Les données d'origine sont remplacées par des valeurs fausses mais réalistes. Cela signifie que la nouvelle valeur doit encore satisfaire toutes les contraintes de domaine. Par exemple, vous remplacez le numéro de carte de crédit de quelqu'un par un autre numéro conforme aux règles appliquées par la banque émettrice.

  5. Écart de nombre . Cela s'applique principalement aux informations financières. Un exemple consiste à masquer les salaires d'origine en appliquant une variance de +/- 20 %.

  6. Date de vieillissement . Cette méthode augmente ou diminue une date d'une plage spécifique, en maintenant que la date résultante satisfait les contraintes de l'application. Par exemple, vous pouvez vieillir tous les contrats de 50 jours.

  7. Faire la moyenne . Implique le remplacement de toutes les valeurs de données d'origine par une moyenne. Par exemple, vous pouvez remplacer chaque champ de salaire individuel par une moyenne des valeurs de salaire dans ce tableau.


Comment implémenter le masquage des données de la bonne manière ?

Voici votre plan de mise en œuvre du masquage des données en 5 étapes.

Étape 1 : Déterminez la portée de votre projet

Avant de commencer, vous devrez identifier les aspects que vous couvrirez. Voici une liste de questions typiques que votre équipe de données peut étudier avant de procéder aux initiatives de masquage :

  • Quelles données cherchons-nous à masquer ?
  • Où réside-t-il ?
  • Qui est autorisé à y accéder ?
  • Quel est le niveau d'accès de chaque utilisateur parmi ceux ci-dessus ? Qui peut uniquement afficher et qui peut modifier et supprimer des valeurs ?
  • Quelles applications utilisent ces données sensibles ?
  • Quel impact le masquage des données aura-t-il sur les différents utilisateurs ?
  • Quel niveau de masquage est requis et à quelle fréquence devrons-nous répéter le processus ?
  • Cherchons-nous à appliquer le masquage des données à l'ensemble de l'organisation ou à le limiter à un produit spécifique ?

Étape 2 : Définir la pile de techniques de masquage des données

Au cours de cette étape, vous devez identifier la technique ou la combinaison d'outils de masquage de données la mieux adaptée à la tâche à accomplir.


Tout d'abord, vous devez identifier les types de données que vous devez masquer, par exemple, les noms, les dates, les données financières, etc., car différents types nécessitent des algorithmes de masquage de données dédiés. Sur cette base, vous et votre fournisseur pouvez choisir la ou les bibliothèques open source pouvant être réutilisées pour produire la solution de masquage de données la mieux adaptée. Nous vous conseillons de vous tourner vers un éditeur de logiciels , car il vous aidera à personnaliser la solution et à l'intégrer facilement dans vos flux de travail dans toute l'entreprise sans interrompre aucun processus métier. De plus, il est possible de créer quelque chose à partir de zéro pour couvrir les besoins uniques de l'entreprise.


Il existe des outils de masquage de données prêts à l'emploi que vous pouvez acheter et déployer vous-même, tels que Oracle Data Masking , IRI FieldShield , DATPROF et bien d'autres. Vous pouvez opter pour cette stratégie si vous gérez vous-même toutes vos données, que vous comprenez le fonctionnement des différents flux de données et que vous disposez d'un service informatique qui peut vous aider à intégrer cette nouvelle solution de masquage des données dans les processus existants sans entraver la productivité.

Étape 3 : Sécurisez vos algorithmes de masquage de données sélectionnés

La sécurité de vos données sensibles dépend en grande partie de la sécurité des faux algorithmes de génération de données sélectionnés. Par conséquent, seul le personnel autorisé peut savoir quels algorithmes de masquage de données sont déployés, car ces personnes peuvent désosser les données masquées vers l'ensemble de données d'origine avec ces connaissances. C'est une bonne pratique d'appliquer la séparation des tâches. Par exemple, le service de sécurité sélectionne les algorithmes et les outils les mieux adaptés, tandis que les propriétaires de données conservent les paramètres appliqués pour masquer leurs données.

Étape 4 : Préserver l'intégrité référentielle

L'intégrité référentielle signifie que chaque type de données au sein de votre organisation est masqué de la même manière. Cela peut être un défi si votre organisation est plutôt grande et a plusieurs fonctions commerciales et gammes de produits. Dans ce cas, votre entreprise est susceptible d'utiliser différents algorithmes de masquage de données pour diverses tâches.


Pour résoudre ce problème, identifiez toutes les tables qui contiennent des contraintes référentielles et déterminez dans quel ordre vous allez masquer les données car les tables parent doivent être masquées avant les tables enfant correspondantes. Après avoir terminé le processus de masquage, n'oubliez pas de vérifier si l'intégrité référentielle a été maintenue.

Étape 5 : Rendre le processus de masquage reproductible

Tout ajustement à un projet particulier, ou simplement des changements généraux au sein de votre organisation, peut entraîner la modification des données sensibles et la création de nouvelles sources de données, posant la nécessité de répéter le processus de masquage.


Il existe des cas où le masquage des données peut être un effort ponctuel, comme dans le cas de la préparation d'un ensemble de données de formation spécialisé qui sera utilisé pendant quelques mois pour un petit projet. Mais si vous voulez une solution qui vous servira pendant une période prolongée, vos données peuvent devenir obsolètes à un moment donné. Alors, investissez du temps et des efforts dans la formalisation du processus de masquage pour le rendre rapide, reproductible et aussi automatisé que possible.


Développez un ensemble de règles de masquage, telles que les données à masquer. Identifiez les exceptions ou les cas particuliers que vous pouvez prévoir à ce stade. Acquérir/construire des scripts et des outils automatisés pour appliquer ces règles de masquage de manière cohérente.


Votre liste de contrôle pour sélectionner une solution de masquage de données

Que vous travailliez avec un fournisseur de logiciels de votre choix ou que vous optiez pour une solution prête à l'emploi, le produit final doit suivre ces meilleures pratiques de masquage des données :

  • Être irréversible, ce qui rend impossible la rétro-ingénierie des fausses données à leurs valeurs authentiques
  • Protégez l'intégrité de la base de données d'origine et ne la rendez pas inutile en effectuant des modifications permanentes par erreur
  • Masquer les données non sensibles si cela est nécessaire pour protéger les informations sensibles
  • Fournissez une opportunité d'automatisation, car les données changeront à un moment donné et vous ne voulez pas recommencer à zéro à chaque fois
  • Générer des données réalistes qui maintiennent la structure et la distribution des données d'origine et satisfont aux contraintes métier
  • Être évolutif pour accueillir toutes les sources de données supplémentaires que vous souhaitez intégrer à votre entreprise
  • Conforme à toutes les réglementations applicables, telles que HIPAA et GDPR, et à vos politiques internes
  • S'intègre bien dans les systèmes et flux de travail existants

Les défis du masquage des données

Voici une liste des défis auxquels vous pourriez être confrontés lors de la mise en œuvre.

  • Conservation du format. La solution de masquage doit comprendre les données et être capable de conserver leur format d'origine.
  • Préservation du genre. La méthodologie de masquage des données sélectionnée doit tenir compte du genre lors du masquage des noms des personnes. Sinon, la répartition par sexe au sein de l'ensemble de données sera modifiée.
  • Intégrité sémantique. Les fausses valeurs générées doivent suivre les règles métier limitant les différents types de données. Par exemple, les salaires doivent se situer dans une fourchette spécifique et les numéros de sécurité sociale doivent suivre un format prédéterminé. Cela vaut également pour le maintien de la répartition géographique des données.
  • Unicité des données. Si les données d'origine doivent être uniques, comme un numéro d'identification d'employé, la technique de masquage des données doit fournir une valeur unique.
  • Équilibre entre sécurité et convivialité. Si les données sont trop masquées, elles peuvent devenir inutiles. D'un autre côté, s'il n'est pas suffisamment protégé, les utilisateurs peuvent obtenir un accès non autorisé.
  • L'intégration des données dans les flux de travail existants peut être très gênante pour les employés au tout début, car les gens sont habitués à travailler d'une certaine manière, qui est actuellement perturbée.

Un exemple de masquage de données du portefeuille ITRex

Une organisation internationale de soins de santé cherchait à masquer des informations personnelles identifiables (PII) sensibles présentées dans plusieurs formats et résidant à la fois dans des environnements de production et de non-production. Ils souhaitaient créer un logiciel de masquage de données basé sur le ML capable de découvrir et de masquer les informations personnelles tout en respectant les politiques internes de l'entreprise, le RGPD et d'autres réglementations sur la confidentialité des données.


Notre équipe a immédiatement remarqué les défis suivants :


  • Le client disposait d'énormes volumes de données, de plus de 10 000 sources de données et de nombreux flux de données correspondants
  • Il n'y avait pas de stratégie claire de masquage des données qui couvrirait tous les différents départements


En raison de cette grande variété, notre équipe a voulu proposer un ensemble de politiques et de processus qui guideraient les différents propriétaires d'ensembles de données sur la façon de masquer leurs données et serviraient de base à notre solution. Par exemple, quelqu'un pourrait proposer une liste de points de données qu'il souhaite obscurcir, une fois ou en continu, et la solution, guidée par ces principes, étudierait les données, sélectionnerait les techniques d'obscurcissement appropriées et les appliquerait.


Nous avons abordé ce projet en arpentant le paysage à travers les questions suivantes :


  • Quelles solutions de gestion de données utilisez-vous ? Le client utilisait déjà Informatica, nous avons donc opté pour cela. La solution de masquage des données d'Informatica offre des fonctionnalités prêtes à l'emploi, qui répondaient à certains des besoins du client, mais cela ne suffisait pas à couvrir toutes les exigences.
  • Quels types de données êtes-vous prêt à masquer ? En raison du grand nombre de sources de données, il était impossible de tout traiter en même temps. Nous avons donc demandé au client de hiérarchiser et d'identifier ce qui était essentiel à la mission.
  • Voulez-vous le faire une seule fois ou en faire un processus répétable ?


Après avoir répondu à ces questions, nous avons suggéré de fournir le masquage des données en tant que service principalement parce que le client a trop de sources de données, pour commencer, et qu'il a peut-être fallu des années pour les couvrir toutes.


Au final, nous avons fourni des services de masquage de données à l'aide d'un outil personnalisé basé sur ML qui peut effectuer de manière semi-automatique le masquage des données en quatre étapes :


  1. Identifier les types de données. Les propriétaires de données placent leurs sources de données dans l'outil d'analyse qui étudie les données des colonnes et révèle les types de données qu'il pourrait identifier dans ces colonnes, comme les adresses, les numéros de téléphone, etc. Un expert humain vérifie sa sortie, lui permettant d'apprendre des erreurs. .
  2. Suggérez des approches de masquage pour chaque colonne et appliquez-les après approbation humaine
  3. Déployez les résultats. Une fois les données masquées générées, elles doivent être déployées. Nous avons fourni plusieurs options pour le stockage des données. Cela inclut, mais sans s'y limiter, l'utilisation d'une base de données temporaire qui reste active pendant plusieurs jours, l'attribution d'un emplacement permanent pour les environnements masqués, la génération de fichiers de valeurs séparées par des virgules (CSV), etc.
  4. Examiner et donner un badge d'approbation à un ensemble de données ou à un ensemble d'environnements comme preuve qu'ils sont correctement masqués et conformes

Cette solution de masquage des données a aidé le client à se conformer au RGPD, à réduire considérablement le temps nécessaire pour créer des environnements hors production et à réduire les coûts de transfert des données de la production vers le bac à sable.

Comment conserver les données masquées après la mise en œuvre ?

Vos efforts ne s'arrêtent pas lorsque des données confidentielles sont masquées. Encore faut-il l'entretenir dans le temps. Voici les étapes qui vous aideront dans cette initiative :


  • Établissez des politiques et des procédures qui régissent les données masquées. Cela inclut de déterminer qui est autorisé à accéder à ces données et dans quelles circonstances et à quelles fins ces données servent (par exemple, tests, rapports, recherche, etc.)
  • Former les employés à l'utilisation et à la protection de ces données
  • Auditer et mettre à jour régulièrement le processus de masquage pour s'assurer qu'il reste pertinent
  • Surveillez les données masquées pour toute activité suspecte, telle que les tentatives d'accès non autorisées et les violations
  • Effectuez des sauvegardes de données masquées pour vous assurer qu'elles sont récupérables

Réflexions finales

Le masquage des données protégera vos données dans les environnements de non-production, vous permettra de partager des informations avec des sous-traitants tiers et vous aidera à vous conformer. Vous pouvez acheter et déployer vous-même une solution d'obscurcissement des données si vous disposez d'un service informatique et contrôlez vos flux de données. Cependant, gardez à l'esprit qu'une mauvaise mise en œuvre du masquage des données peut avoir des conséquences plutôt désagréables. Voici quelques-uns des plus importants :


  • Entrave à la productivité. Les techniques de masquage des données sélectionnées peuvent entraîner d'importants retards inutiles dans le traitement des données, ralentissant ainsi les employés.
  • Devenir vulnérable aux violations de données. Si vos méthodes de masquage des données, ou leur absence, ne parviennent pas à protéger les données sensibles, il y aura des conséquences financières et juridiques pouvant aller jusqu'à la peine de prison.
  • Dériver des résultats inexacts de l'analyse des données. Cela peut se produire si les données sont masquées de manière incorrecte ou trop lourdes. Les chercheurs interpréteront mal l'ensemble de données expérimentales et parviendront à des conclusions erronées qui conduiront à des décisions commerciales malheureuses.


Par conséquent, si une entreprise n'a pas confiance en ses capacités à exécuter des initiatives d'obscurcissement des données, il est préférable de contacter un fournisseur externe qui vous aidera à sélectionner les bonnes techniques de masquage des données et à intégrer le produit final dans vos flux de travail avec un minimum d'interruptions.


Restez protégé !


Vous envisagez de mettre en place une solution de masquage des données ? Contactez-nous ! Nous vous aiderons à hiérarchiser vos données, à créer un outil d'obscurcissement conforme et à le déployer sans interrompre vos processus métier.