機密データの漏洩に関連する罰金は増加しています。たとえば、重大な GDPR 違反は、企業の年間グローバル売上高の最大 4% を犠牲にする可能性がありますが、重大な HIPAA 違反は投獄につながる可能性があります。
本番環境は完全に保護されている可能性があります。しかし、イニシアチブと販売デモのテストについてはどうでしょうか?機密データにアクセスできるサードパーティの請負業者に自信がありますか?彼らはそれを守るために最善を尽くしますか?
コンプライアンスとデータの安全性を確保するために、企業はデータ管理サービス プロバイダーに目を向けています。興味がある場合は、次の 3 つの重要な質問に答えるこのガイドを確認してください。
また、ポートフォリオからの詳細なデータ マスキングの例も示します。この記事を読めば、データ マスキング ベンダーと交渉するための十分な情報が得られます。
では、データマスキングとは何ですか?
データ マスキングは、現実的で構造的に類似しているにもかかわらず、組織データの偽バージョンを構築することと定義されます。同じ形式を維持しながら操作技術を使用して元のデータ値を変更し、リバース エンジニアリングや元の値への追跡が不可能な新しいバージョンを提供します。マスクされたデータの例を次に示します。
社内に保存されているすべてのデータにデータ マスキング アルゴリズムを適用する必要がありますか?ほとんどの場合、そうではありません。絶対に保護する必要があるデータの種類は次のとおりです。
データ マスキングは、非生産的な目的で使用される機密情報を保護します。そのため、トレーニング、テスト、セールス デモ、またはその他の種類の非生産活動で、前のセクションで示した機密データ タイプのいずれかを使用する限り、データ マスキング手法を適用する必要があります。通常、非実稼働環境は保護されておらず、セキュリティの脆弱性がより多く発生するため、これは理にかなっています。
さらに、サードパーティ ベンダーやパートナーとデータを共有する必要がある場合は、元のデータベースにアクセスするための広範なセキュリティ対策を相手に強制する代わりに、マスクされたデータへのアクセスを許可できます。統計によると、データ侵害の 19% は、ビジネス パートナー側の侵害が原因で発生しています。
さらに、データマスキングには次の利点があります。
さまざまな組織のニーズに対応することを目的とした、主に 5 種類のデータ マスキングがあります。
元のデータのバックアップを作成し、本番環境での使用のために別の環境で安全に保管することを意味します。次に、偽の現実的な値を含めることでコピーを偽装し、非生産目的 (テスト、研究など) に利用できるようにし、請負業者と共有します。
データベースへのクエリを受け取ったときに、実行時に元のデータの抜粋を変更することを目的としています。したがって、機密情報の表示を許可されていないユーザーが本番データベースにクエリを実行すると、応答は元の値を変更せずにオンザフライでマスクされます。以下に示すように、データベース プロキシ経由で実装できます。このデータ マスキング タイプは通常、本番データの上書きを防ぐために読み取り専用設定で使用されます。
このデータ マスキング タイプは、本番環境からテスト環境など、ある環境から別の環境にデータを転送するときにデータを偽装します。ソフトウェアを継続的に展開し、大規模なデータ統合を実行する組織に人気があります。
列データを同じ固定値に置き換えます。たとえば、「Olivia」を「Emma」に置き換えたい場合は、現在マスキングしているテーブルだけでなく、関連するすべてのテーブルで行う必要があります。
これは、データセット内のパターンと傾向に関する情報を明らかにするために使用されますが、そこに表されている実際の人物に関する詳細は共有されません。
以下に、最も一般的な 7 つのデータ マスキング手法を示します。それらを組み合わせて、ビジネスのさまざまなニーズをカバーできます。
シャッフル。同じテーブル内でデータ値をシャッフルして再割り当てできます。たとえば、従業員名の列をシャッフルすると、ある従業員の実際の個人情報が別の従業員と一致するようになります。
スクランブリング。データ フィールドの文字と整数をランダムな順序で並べ替えます。従業員の元の ID が 97489376 の場合、シャッフルを適用すると、37798649 のような値が返されます。これは特定のデータ型に制限されています。
ヌルアウト。これは、データ フィールドに null 値が割り当てられる単純なマスキング戦略です。このメソッドは、アプリケーションのロジックに失敗する傾向があるため、使用が制限されています。
代用。元のデータは、偽の現実的な値に置き換えられます。新しい値がすべてのドメイン制約を満たす必要があることを意味します。たとえば、誰かのクレジット カード番号を、発行銀行が実施する規則に準拠する別の番号に置き換えます。
数の差異。これは主に財務情報に適用されます。 1 つの例は、+/-20% の差異を適用して元の給与をマスキングすることです。
日付老化。このメソッドは、結果の日付がアプリケーションの制約を満たすように維持しながら、特定の範囲で日付を増減します。たとえば、すべての契約を 50 日経過させることができます。
平均化。すべての元のデータ値を平均で置き換える必要があります。たとえば、個々の給与フィールドをすべて、このテーブルの平均給与値で置き換えることができます。
これが、5 ステップのデータ マスキングの実装計画です。
始める前に、カバーする側面を特定する必要があります。マスキング イニシアチブに進む前に、データ チームが検討できる一般的な質問のリストを次に示します。
このステップでは、目の前のタスクに最適な手法またはデータ マスキング ツールの組み合わせを特定する必要があります。
まず、名前、日付、財務データなど、マスクする必要があるデータの種類を特定する必要があります。これは、種類によって専用のデータ マスキング アルゴリズムが必要になるためです。それに基づいて、あなたとあなたのベンダーは、どのオープンソース ライブラリを再利用して最適なデータ マスキング ソリューションを作成できるかを選択できます。ソフトウェア ベンダーに相談することをお勧めします。ビジネス プロセスを中断することなく、ソリューションをカスタマイズし、会社全体のワークフローに簡単に統合できるからです。また、会社独自のニーズに合わせてゼロから構築することも可能です。
Oracle Data Masking 、 IRI FieldShield 、 DATPROFなど、購入して自分で展開できる既製のデータ マスキング ツールがあります。すべてのデータを自分で管理し、さまざまなデータ フローがどのように機能するかを理解し、生産性を妨げることなくこの新しいデータ マスキング ソリューションを既存のプロセスに統合できる IT 部門がある場合は、この戦略を選択できます。
機密データのセキュリティは、選択した偽のデータ生成アルゴリズムのセキュリティに大きく依存します。したがって、承認された担当者のみが、どのデータ マスキング アルゴリズムが展開されているかを知ることができます。これらの担当者は、この知識を使用してマスクされたデータを元のデータセットにリバース エンジニアリングできるためです。職務の分離を適用することをお勧めします。たとえば、セキュリティ部門は最適なアルゴリズムとツールを選択しますが、データ所有者はデータのマスキングに適用される設定を維持します。
参照整合性とは、組織内の各データ型が同じ方法でマスクされることを意味します。組織がかなり大きく、複数のビジネス機能と製品ラインがある場合、これは困難な場合があります。この場合、会社はさまざまなタスクに異なるデータ マスキング アルゴリズムを使用する可能性があります。
この問題を解決するには、参照制約を含むすべてのテーブルを特定し、対応する子テーブルの前に親テーブルをマスクする必要があるため、データをマスクする順序を決定します。マスキング処理が完了したら、参照整合性が維持されているかどうかを確認することを忘れないでください。
特定のプロジェクトへの調整、または組織内の単なる一般的な変更により、機密データが変更され、新しいデータ ソースが作成され、マスキング プロセスを繰り返す必要が生じる可能性があります。
小規模なプロジェクトで数か月間使用される特殊なトレーニング データセットを準備する場合など、データ マスキングが 1 回限りの作業で済む場合があります。しかし、長期間にわたって役立つソリューションが必要な場合、データはある時点で古くなる可能性があります。そのため、時間と労力を費やしてマスキング プロセスを形式化し、迅速かつ反復可能で、可能な限り自動化します。
どのデータをマスクする必要があるかなど、一連のマスキング ルールを作成します。この時点で予測できる例外または特殊なケースを特定します。これらのマスキング ルールを一貫した方法で適用するためのスクリプトと自動化ツールを取得/構築します。
選択したソフトウェア ベンダーを使用する場合でも、既製のソリューションを選択する場合でも、最終製品は次のデータ マスキングのベスト プラクティスに従う必要があります。
実装中に直面する可能性のある課題のリストを次に示します。
国際的な医療機関は、複数の形式で提示され、本番環境と非本番環境の両方に存在する個人を特定できる機密情報 (PII) を隠したいと考えていました。彼らは、会社の内部ポリシー、GDPR、およびその他のデータ プライバシー規制に準拠しながら、PII を検出して難読化できるML を利用したデータ マスキング ソフトウェアを構築したいと考えていました。
私たちのチームはすぐに次の課題に気付きました。
この多様性のため、私たちのチームは、データをマスキングする方法についてさまざまなデータセット所有者を導き、私たちのソリューションの基礎となる一連のポリシーとプロセスを考え出したいと考えました.たとえば、難読化したいデータ ポイントのリストを 1 回または継続的に作成すると、これらの原則に基づいてデータを調査し、適切な難読化手法を選択して適用することができます。
私たちは、次の質問を通して景観を調査することで、このプロジェクトに取り組みました。
これらの質問に答えた後、データ マスキングをサービスとして提供することを提案しました。主な理由は、そもそもクライアントのデータ ソースが多すぎて、すべてをカバーするのに何年もかかった可能性があるためです。
最終的に、次の 4 つの手順でデータ マスキングを半自動的に実行できるカスタム ML 駆動型ツールを使用して、データ マスキング サービスを提供しました。
このデータ マスキング ソリューションは、クライアントが GDPR に準拠するのに役立ち、非運用環境の形成に必要な時間を大幅に短縮し、運用環境からサンドボックスへのデータ転送のコストを削減しました。
機密データがマスクされても、あなたの努力は止まりません。あなたはまだそれを時間の経過とともに維持する必要があります.このイニシアチブで役立つ手順は次のとおりです。
データ マスキングは、非運用環境でデータを保護し、サードパーティの請負業者と情報を共有できるようにし、コンプライアンスを支援します。 IT 部門があり、データ フローを制御している場合は、データ難読化ソリューションを自分で購入して展開できます。ただし、不適切なデータ マスキングの実装は、かなり不快な結果につながる可能性があることに注意してください。最も顕著なもののいくつかを次に示します。
したがって、企業がデータの難読化イニシアチブを実行する能力に自信がない場合は、外部ベンダーに連絡して、適切なデータ マスキング手法を選択し、中断を最小限に抑えて最終製品をワークフローに統合するのを手伝ってもらうことをお勧めします。
保護してください!
データ マスキング ソリューションの実装を検討していますか?お問い合わせください!ビジネス プロセスを中断することなく、データの優先順位付け、準拠した難読化ツールの構築、および展開を支援します。