Les amendes liées à l'exposition de données sensibles augmentent. Par exemple, les violations majeures du RGPD peuvent coûter aux entreprises jusqu'à 4 % de leur chiffre d'affaires mondial annuel , tandis que les violations flagrantes de la loi HIPAA peuvent entraîner des peines d'emprisonnement.
Votre environnement de production peut être entièrement protégé. Mais qu'en est-il des initiatives de test et des démonstrations de vente ? Faites-vous confiance aux sous-traitants tiers qui ont accès à vos données sensibles ? Feront-ils de leur mieux pour le protéger ?
Pour garantir la conformité et la sécurité des données, les entreprises se tournent vers des prestataires de services de gestion de données . Si vous êtes également intéressé, consultez ce guide répondant aux trois questions importantes :
Il présente également un exemple détaillé de masquage de données de notre portefeuille. Après avoir lu l'article, vous aurez suffisamment d'informations pour négocier avec les fournisseurs de masquage de données.
Alors, qu'est-ce que le masquage de données ?
Le masquage des données est défini comme la construction d'une version réaliste et structurellement similaire mais néanmoins fausse des données organisationnelles. Il modifie les valeurs de données d'origine à l'aide de techniques de manipulation tout en conservant le même format et fournit une nouvelle version qui ne peut pas être rétro-conçue ou retracée aux valeurs authentiques. Voici un exemple de données masquées :
Vous avez besoin d'appliquer des algorithmes de masquage de données à toutes les données stockées au sein de votre entreprise ? Préférablement pas. Voici les types de données que vous devez absolument protéger :
Le masquage des données protège les informations sensibles utilisées à des fins non productives. Ainsi, tant que vous utilisez l'un des types de données sensibles présentés dans la section précédente dans la formation, les tests, les démonstrations de vente ou tout autre type d'activités hors production, vous devez appliquer des techniques de masquage des données. Cela a du sens car les environnements de non-production sont normalement moins protégés et introduisent davantage de failles de sécurité .
De plus, s'il est nécessaire de partager vos données avec des fournisseurs et partenaires tiers, vous pouvez accorder l'accès aux données masquées au lieu de forcer l'autre partie à se conformer à vos mesures de sécurité étendues pour accéder à la base de données d'origine. Les statistiques montrent que 19 % des violations de données sont dues à des compromis du côté du partenaire commercial.
De plus, le masquage des données peut offrir les avantages suivants :
Il existe cinq principaux types de masquage de données qui visent à couvrir différents besoins organisationnels.
Implique la création d'une sauvegarde des données d'origine et leur conservation dans un environnement séparé pour les cas d'utilisation en production. Ensuite, il déguise la copie en incluant des valeurs fausses mais réalistes, et la rend disponible à des fins non productives (par exemple, tests, recherche), ainsi que pour le partage avec des sous-traitants.
Vise à modifier un extrait des données d'origine lors de l'exécution lors de la réception d'une requête à la base de données. Ainsi, un utilisateur non autorisé à consulter des informations sensibles interroge la base de données de production, et la réponse est masquée à la volée sans modifier les valeurs d'origine. Vous pouvez l'implémenter via un proxy de base de données, comme présenté ci-dessous. Ce type de masquage des données est normalement utilisé dans les paramètres en lecture seule pour empêcher le remplacement des données de production.
Ce type de masquage des données masque les données lors de leur transfert d'un environnement à un autre, par exemple de la production aux tests. Il est populaire auprès des organisations qui déploient en permanence des logiciels et effectuent de grandes intégrations de données.
Remplace les données de colonne par la même valeur fixe. Par exemple, si vous souhaitez remplacer "Olivia" par "Emma", vous devez le faire dans toutes les tables associées, pas seulement dans la table que vous masquez actuellement.
Ceci est utilisé pour révéler des informations sur les modèles et les tendances dans un ensemble de données sans partager aucun détail sur les personnes réelles qui y sont représentées.
Vous trouverez ci-dessous sept des techniques de masquage de données les plus populaires. Vous pouvez les combiner pour couvrir les différents besoins de votre entreprise.
Mélanger . Vous pouvez mélanger et réaffecter des valeurs de données dans la même table. Par exemple, si vous mélangez la colonne du nom de l'employé, vous obtiendrez les véritables détails personnels d'un employé correspondant à un autre.
Brouillage . Réorganise les caractères et les nombres entiers d'un champ de données dans un ordre aléatoire. Si l'identifiant d'origine d'un employé est 97489376, après avoir appliqué le brassage, vous recevrez quelque chose comme 37798649. Ceci est limité à des types de données spécifiques.
Annulation . Il s'agit d'une stratégie de masquage simple dans laquelle un champ de données se voit attribuer une valeur nulle. Cette méthode a une utilisation limitée car elle a tendance à faire échouer la logique de l'application.
Remplacement . Les données d'origine sont remplacées par des valeurs fausses mais réalistes. Cela signifie que la nouvelle valeur doit encore satisfaire toutes les contraintes de domaine. Par exemple, vous remplacez le numéro de carte de crédit de quelqu'un par un autre numéro conforme aux règles appliquées par la banque émettrice.
Écart de nombre . Cela s'applique principalement aux informations financières. Un exemple consiste à masquer les salaires d'origine en appliquant une variance de +/- 20 %.
Date de vieillissement . Cette méthode augmente ou diminue une date d'une plage spécifique, en maintenant que la date résultante satisfait les contraintes de l'application. Par exemple, vous pouvez vieillir tous les contrats de 50 jours.
Faire la moyenne . Implique le remplacement de toutes les valeurs de données d'origine par une moyenne. Par exemple, vous pouvez remplacer chaque champ de salaire individuel par une moyenne des valeurs de salaire dans ce tableau.
Voici votre plan de mise en œuvre du masquage des données en 5 étapes.
Avant de commencer, vous devrez identifier les aspects que vous couvrirez. Voici une liste de questions typiques que votre équipe de données peut étudier avant de procéder aux initiatives de masquage :
Au cours de cette étape, vous devez identifier la technique ou la combinaison d'outils de masquage de données la mieux adaptée à la tâche à accomplir.
Tout d'abord, vous devez identifier les types de données que vous devez masquer, par exemple, les noms, les dates, les données financières, etc., car différents types nécessitent des algorithmes de masquage de données dédiés. Sur cette base, vous et votre fournisseur pouvez choisir la ou les bibliothèques open source pouvant être réutilisées pour produire la solution de masquage de données la mieux adaptée. Nous vous conseillons de vous tourner vers un éditeur de logiciels , car il vous aidera à personnaliser la solution et à l'intégrer facilement dans vos flux de travail dans toute l'entreprise sans interrompre aucun processus métier. De plus, il est possible de créer quelque chose à partir de zéro pour couvrir les besoins uniques de l'entreprise.
Il existe des outils de masquage de données prêts à l'emploi que vous pouvez acheter et déployer vous-même, tels que Oracle Data Masking , IRI FieldShield , DATPROF et bien d'autres. Vous pouvez opter pour cette stratégie si vous gérez vous-même toutes vos données, que vous comprenez le fonctionnement des différents flux de données et que vous disposez d'un service informatique qui peut vous aider à intégrer cette nouvelle solution de masquage des données dans les processus existants sans entraver la productivité.
La sécurité de vos données sensibles dépend en grande partie de la sécurité des faux algorithmes de génération de données sélectionnés. Par conséquent, seul le personnel autorisé peut savoir quels algorithmes de masquage de données sont déployés, car ces personnes peuvent désosser les données masquées vers l'ensemble de données d'origine avec ces connaissances. C'est une bonne pratique d'appliquer la séparation des tâches. Par exemple, le service de sécurité sélectionne les algorithmes et les outils les mieux adaptés, tandis que les propriétaires de données conservent les paramètres appliqués pour masquer leurs données.
L'intégrité référentielle signifie que chaque type de données au sein de votre organisation est masqué de la même manière. Cela peut être un défi si votre organisation est plutôt grande et a plusieurs fonctions commerciales et gammes de produits. Dans ce cas, votre entreprise est susceptible d'utiliser différents algorithmes de masquage de données pour diverses tâches.
Pour résoudre ce problème, identifiez toutes les tables qui contiennent des contraintes référentielles et déterminez dans quel ordre vous allez masquer les données car les tables parent doivent être masquées avant les tables enfant correspondantes. Après avoir terminé le processus de masquage, n'oubliez pas de vérifier si l'intégrité référentielle a été maintenue.
Tout ajustement à un projet particulier, ou simplement des changements généraux au sein de votre organisation, peut entraîner la modification des données sensibles et la création de nouvelles sources de données, posant la nécessité de répéter le processus de masquage.
Il existe des cas où le masquage des données peut être un effort ponctuel, comme dans le cas de la préparation d'un ensemble de données de formation spécialisé qui sera utilisé pendant quelques mois pour un petit projet. Mais si vous voulez une solution qui vous servira pendant une période prolongée, vos données peuvent devenir obsolètes à un moment donné. Alors, investissez du temps et des efforts dans la formalisation du processus de masquage pour le rendre rapide, reproductible et aussi automatisé que possible.
Développez un ensemble de règles de masquage, telles que les données à masquer. Identifiez les exceptions ou les cas particuliers que vous pouvez prévoir à ce stade. Acquérir/construire des scripts et des outils automatisés pour appliquer ces règles de masquage de manière cohérente.
Que vous travailliez avec un fournisseur de logiciels de votre choix ou que vous optiez pour une solution prête à l'emploi, le produit final doit suivre ces meilleures pratiques de masquage des données :
Voici une liste des défis auxquels vous pourriez être confrontés lors de la mise en œuvre.
Une organisation internationale de soins de santé cherchait à masquer des informations personnelles identifiables (PII) sensibles présentées dans plusieurs formats et résidant à la fois dans des environnements de production et de non-production. Ils souhaitaient créer un logiciel de masquage de données basé sur le ML capable de découvrir et de masquer les informations personnelles tout en respectant les politiques internes de l'entreprise, le RGPD et d'autres réglementations sur la confidentialité des données.
Notre équipe a immédiatement remarqué les défis suivants :
En raison de cette grande variété, notre équipe a voulu proposer un ensemble de politiques et de processus qui guideraient les différents propriétaires d'ensembles de données sur la façon de masquer leurs données et serviraient de base à notre solution. Par exemple, quelqu'un pourrait proposer une liste de points de données qu'il souhaite obscurcir, une fois ou en continu, et la solution, guidée par ces principes, étudierait les données, sélectionnerait les techniques d'obscurcissement appropriées et les appliquerait.
Nous avons abordé ce projet en arpentant le paysage à travers les questions suivantes :
Après avoir répondu à ces questions, nous avons suggéré de fournir le masquage des données en tant que service principalement parce que le client a trop de sources de données, pour commencer, et qu'il a peut-être fallu des années pour les couvrir toutes.
Au final, nous avons fourni des services de masquage de données à l'aide d'un outil personnalisé basé sur ML qui peut effectuer de manière semi-automatique le masquage des données en quatre étapes :
Cette solution de masquage des données a aidé le client à se conformer au RGPD, à réduire considérablement le temps nécessaire pour créer des environnements hors production et à réduire les coûts de transfert des données de la production vers le bac à sable.
Vos efforts ne s'arrêtent pas lorsque des données confidentielles sont masquées. Encore faut-il l'entretenir dans le temps. Voici les étapes qui vous aideront dans cette initiative :
Le masquage des données protégera vos données dans les environnements de non-production, vous permettra de partager des informations avec des sous-traitants tiers et vous aidera à vous conformer. Vous pouvez acheter et déployer vous-même une solution d'obscurcissement des données si vous disposez d'un service informatique et contrôlez vos flux de données. Cependant, gardez à l'esprit qu'une mauvaise mise en œuvre du masquage des données peut avoir des conséquences plutôt désagréables. Voici quelques-uns des plus importants :
Par conséquent, si une entreprise n'a pas confiance en ses capacités à exécuter des initiatives d'obscurcissement des données, il est préférable de contacter un fournisseur externe qui vous aidera à sélectionner les bonnes techniques de masquage des données et à intégrer le produit final dans vos flux de travail avec un minimum d'interruptions.
Restez protégé !
Vous envisagez de mettre en place une solution de masquage des données ? Contactez-nous ! Nous vous aiderons à hiérarchiser vos données, à créer un outil d'obscurcissement conforme et à le déployer sans interrompre vos processus métier.