संवेदनशील डेटा एक्सपोजर से जुड़े जुर्माने बढ़ रहे हैं। उदाहरण के लिए, प्रमुख GDPR उल्लंघनों पर कंपनियों को उनके वार्षिक वैश्विक कारोबार का 4% तक खर्च करना पड़ सकता है, जबकि सकल HIPAA उल्लंघनों के परिणामस्वरूप कारावास हो सकता है।
आपका उत्पादन वातावरण पूरी तरह से सुरक्षित हो सकता है। लेकिन परीक्षण पहल और बिक्री डेमो के बारे में क्या है? क्या आप तीसरे पक्ष के ठेकेदारों पर भरोसा करते हैं जिनके पास आपके संवेदनशील डेटा तक पहुंच है? क्या वे इसकी रक्षा के लिए अपनी पूरी कोशिश करेंगे?
अनुपालन और डेटा सुरक्षा सुनिश्चित करने के लिए, कंपनियां डेटा प्रबंधन सेवा प्रदाताओं की ओर रुख कर रही हैं। यदि आप भी रुचि रखते हैं, तो तीन महत्वपूर्ण प्रश्नों के उत्तर देने वाली इस मार्गदर्शिका को देखें:
यह हमारे पोर्टफोलियो से विस्तृत डेटा मास्किंग उदाहरण भी प्रस्तुत करता है। लेख पढ़ने के बाद, आपके पास डेटा मास्किंग विक्रेताओं के साथ मोलभाव करने के लिए पर्याप्त जानकारी होगी।
तो, डेटा मास्किंग क्या है?
डेटा मास्किंग को संगठनात्मक डेटा के यथार्थवादी और संरचनात्मक रूप से समान लेकिन फिर भी नकली संस्करण के निर्माण के रूप में परिभाषित किया गया है। यह समान प्रारूप को बनाए रखते हुए हेरफेर तकनीकों का उपयोग करके मूल डेटा मानों को बदल देता है और एक नया संस्करण प्रदान करता है जिसे रिवर्स-इंजीनियर नहीं किया जा सकता है या प्रामाणिक मूल्यों पर वापस ट्रैक नहीं किया जा सकता है। यहाँ नकाबपोश डेटा का एक उदाहरण है:
क्या आपको अपनी कंपनी के भीतर संग्रहीत सभी डेटा पर डेटा मास्किंग एल्गोरिदम लागू करने की आवश्यकता है? न होने की सम्भावना अधिक। यहां वे डेटा प्रकार हैं जिनकी आपको निश्चित रूप से रक्षा करने की आवश्यकता है:
डेटा मास्किंग गैर-उत्पादक उद्देश्यों के लिए उपयोग की जाने वाली संवेदनशील जानकारी की सुरक्षा करता है। इसलिए, जब तक आप प्रशिक्षण, परीक्षण, बिक्री डेमो, या किसी अन्य प्रकार की गैर-उत्पादन गतिविधियों में पिछले अनुभाग में प्रस्तुत किसी संवेदनशील डेटा प्रकार का उपयोग करते हैं, तब तक आपको डेटा मास्किंग तकनीकों को लागू करने की आवश्यकता होती है। यह समझ में आता है क्योंकि गैर-उत्पादन वातावरण सामान्य रूप से कम संरक्षित होते हैं और अधिक सुरक्षा कमजोरियों का परिचय देते हैं।
इसके अलावा, यदि आपके डेटा को तृतीय-पक्ष विक्रेताओं और भागीदारों के साथ साझा करने की आवश्यकता है, तो आप मूल डेटाबेस तक पहुँचने के लिए अपने व्यापक सुरक्षा उपायों का पालन करने के लिए दूसरे पक्ष को बाध्य करने के बजाय नकाबपोश डेटा तक पहुँच प्रदान कर सकते हैं। आंकड़े बताते हैं कि 19% डेटा उल्लंघन व्यापार भागीदार के पक्ष में समझौता करने के कारण होते हैं।
इसके अतिरिक्त, डेटा मास्किंग निम्नलिखित लाभ प्रदान कर सकता है:
पाँच मुख्य प्रकार के डेटा मास्किंग हैं जिनका उद्देश्य विभिन्न संगठनात्मक आवश्यकताओं को कवर करना है।
मूल डेटा का बैकअप बनाने और इसे उत्पादन उपयोग के मामलों के लिए एक अलग वातावरण में सुरक्षित रखने का तात्पर्य है। फिर यह नकली लेकिन यथार्थवादी मूल्यों को शामिल करके कॉपी को छिपा देता है, और इसे गैर-उत्पादन उद्देश्यों (जैसे, परीक्षण, शोध) के साथ-साथ ठेकेदारों के साथ साझा करने के लिए उपलब्ध कराता है।
डेटाबेस से क्वेरी प्राप्त करते समय रनटाइम पर मूल डेटा के अंश को संशोधित करने का लक्ष्य रखता है। इसलिए, एक उपयोगकर्ता जो संवेदनशील जानकारी को देखने के लिए अधिकृत नहीं है, वह उत्पादन डेटाबेस से पूछताछ करता है, और मूल मूल्यों को बदले बिना मक्खी पर प्रतिक्रिया को नकाबपोश कर दिया जाता है। जैसा कि नीचे प्रस्तुत किया गया है, आप इसे डेटाबेस प्रॉक्सी के माध्यम से कार्यान्वित कर सकते हैं। उत्पादन डेटा को ओवरराइड करने से रोकने के लिए यह डेटा मास्किंग प्रकार आमतौर पर रीड-ओनली सेटिंग्स में उपयोग किया जाता है।
यह डेटा मास्किंग प्रकार डेटा को एक वातावरण से दूसरे वातावरण में स्थानांतरित करते समय, जैसे कि उत्पादन से परीक्षण तक, छिपा देता है। यह उन संगठनों में लोकप्रिय है जो लगातार सॉफ्टवेयर तैनात करते हैं और बड़े डेटा एकीकरण करते हैं।
कॉलम डेटा को समान निश्चित मान से बदलता है। उदाहरण के लिए, यदि आप "ओलिविया" को "एम्मा" से बदलना चाहते हैं, तो आपको इसे सभी संबद्ध तालिकाओं में करना होगा, न कि केवल उस तालिका में जिसे आप वर्तमान में मास्क कर रहे हैं।
इसका उपयोग किसी डेटासेट में मौजूद वास्तविक लोगों पर कोई विवरण साझा किए बिना पैटर्न और रुझानों के बारे में जानकारी प्रकट करने के लिए किया जाता है।
नीचे आप सात सर्वाधिक लोकप्रिय डेटा मास्किंग तकनीकें पा सकते हैं। आप उन्हें अपने व्यवसाय की विभिन्न आवश्यकताओं को पूरा करने के लिए संयोजित कर सकते हैं।
फेरबदल । आप एक ही तालिका में डेटा मानों को शफ़ल और पुन: असाइन कर सकते हैं। उदाहरण के लिए, यदि आप कर्मचारी नाम कॉलम में फेरबदल करते हैं, तो आपको एक कर्मचारी का वास्तविक व्यक्तिगत विवरण दूसरे से मेल खाएगा।
हाथापाई । किसी डेटा फ़ील्ड के वर्णों और पूर्णांकों को यादृच्छिक क्रम में पुनर्व्यवस्थित करता है। यदि किसी कर्मचारी की मूल आईडी 97489376 है, तो शफलिंग लागू करने के बाद, आपको 37798649 जैसा कुछ प्राप्त होगा। यह विशिष्ट डेटा प्रकारों तक सीमित है।
निष्प्रभावी करना । यह एक साधारण मास्किंग रणनीति है जहां डेटा फ़ील्ड को शून्य मान दिया जाता है। इस पद्धति का सीमित उपयोग है क्योंकि यह एप्लिकेशन के तर्क को विफल करने की प्रवृत्ति रखता है।
प्रतिस्थापन । मूल डेटा को नकली लेकिन यथार्थवादी मूल्यों द्वारा प्रतिस्थापित किया जाता है। इसका अर्थ है कि नए मान को अभी भी सभी डोमेन बाधाओं को पूरा करने की आवश्यकता है। उदाहरण के लिए, आप किसी के क्रेडिट कार्ड नंबर को किसी अन्य नंबर से बदलते हैं जो जारीकर्ता बैंक द्वारा लागू नियमों के अनुरूप होता है।
संख्या विचरण । यह ज्यादातर वित्तीय जानकारी पर लागू होता है। एक उदाहरण +/- 20% भिन्नता लागू करके मूल वेतन को छुपाना है।
तिथि उम्र बढ़ने । यह विधि एक विशिष्ट सीमा से एक तिथि को बढ़ाती या घटाती है, यह बनाए रखते हुए कि परिणामी तिथि एप्लिकेशन की बाधाओं को पूरा करती है। उदाहरण के लिए, आप सभी अनुबंधों को 50 दिनों तक पुराना कर सकते हैं।
औसत । सभी मूल डेटा मानों को औसत से बदलना शामिल है। उदाहरण के लिए, आप प्रत्येक व्यक्तिगत वेतन क्षेत्र को इस तालिका में वेतन मूल्यों के औसत से बदल सकते हैं।
यहां आपकी 5-चरणीय डेटा मास्किंग कार्यान्वयन योजना है।
आरंभ करने से पहले, आपको यह पहचानने की आवश्यकता होगी कि आप किन पहलुओं को कवर करेंगे। यहां विशिष्ट प्रश्नों की एक सूची दी गई है जिनका अध्ययन आपकी डेटा टीम मास्किंग पहल के साथ आगे बढ़ने से पहले कर सकती है:
इस चरण के दौरान, आपको यह पहचानने की आवश्यकता है कि कौन सी तकनीक या डेटा मास्किंग टूल का संयोजन हाथ में लिए गए कार्य के लिए सबसे उपयुक्त है।
सबसे पहले, आपको यह पहचानने की आवश्यकता है कि आपको किस डेटा प्रकार को मास्क करने की आवश्यकता है, उदाहरण के लिए, नाम, दिनांक, वित्तीय डेटा इत्यादि, क्योंकि विभिन्न प्रकारों के लिए समर्पित डेटा मास्किंग एल्गोरिदम की आवश्यकता होती है। इसके आधार पर, आप और आपका विक्रेता यह चुन सकते हैं कि कौन-सी ओपन-सोर्स लाइब्रेरी (लायब्रेरी) का सर्वोत्तम-उपयुक्त डेटा मास्किंग समाधान तैयार करने के लिए पुन: उपयोग किया जा सकता है। हम एक सॉफ़्टवेयर विक्रेता की ओर मुड़ने की सलाह देते हैं, क्योंकि वे आपको समाधान को अनुकूलित करने में मदद करेंगे और किसी भी व्यावसायिक प्रक्रियाओं को बाधित किए बिना इसे पूरी कंपनी में आपके वर्कफ़्लोज़ में दर्द रहित रूप से एकीकृत करेंगे। साथ ही, कंपनी की अनूठी जरूरतों को पूरा करने के लिए शून्य से कुछ बनाना संभव है।
रेडीमेड डेटा मास्किंग उपकरण हैं जिन्हें आप स्वयं खरीद और तैनात कर सकते हैं, जैसे Oracle डेटा मास्किंग , IRI फील्डशील्ड , DATPROF , और बहुत कुछ। आप इस रणनीति का विकल्प चुन सकते हैं यदि आप अपने सभी डेटा को स्वयं प्रबंधित करते हैं, आप समझते हैं कि विभिन्न डेटा प्रवाह कैसे काम करते हैं, और आपके पास एक आईटी विभाग है जो इस नए डेटा मास्किंग समाधान को उत्पादकता में बाधा डाले बिना मौजूदा प्रक्रियाओं में एकीकृत करने में मदद कर सकता है।
आपके संवेदनशील डेटा की सुरक्षा काफी हद तक चयनित नकली डेटा-जनरेटिंग एल्गोरिदम की सुरक्षा पर निर्भर करती है। इसलिए, केवल अधिकृत कर्मी ही जान सकते हैं कि कौन से डेटा मास्किंग एल्गोरिदम को तैनात किया गया है, क्योंकि ये लोग इस ज्ञान के साथ मूल डेटासेट में मास्क किए गए डेटा को इंजीनियर कर सकते हैं। कर्तव्यों के पृथक्करण को लागू करना एक अच्छा अभ्यास है। उदाहरण के लिए, सुरक्षा विभाग सर्वोत्तम-उपयुक्त एल्गोरिदम और टूल का चयन करता है, जबकि डेटा स्वामी अपने डेटा को मास्क करने में लागू सेटिंग्स को बनाए रखते हैं।
संदर्भित अखंडता का अर्थ है कि आपके संगठन के भीतर प्रत्येक डेटा प्रकार उसी तरह से नकाबपोश है। यह एक चुनौती हो सकती है यदि आपका संगठन काफी बड़ा है और इसमें कई व्यावसायिक कार्य और उत्पाद लाइनें हैं। इस मामले में, आपकी कंपनी विभिन्न कार्यों के लिए अलग-अलग डेटा मास्किंग एल्गोरिदम का उपयोग कर सकती है।
इस समस्या को दूर करने के लिए, उन सभी तालिकाओं की पहचान करें जिनमें रेफ़रेंशियल बाधाएँ हैं और यह निर्धारित करें कि आप किस क्रम में डेटा को मास्क करेंगे क्योंकि पैरेंट टेबल को संबंधित चाइल्ड टेबल से पहले मास्क किया जाना चाहिए। मास्किंग प्रक्रिया को पूरा करने के बाद, यह जांचना न भूलें कि संदर्भित अखंडता को बनाए रखा गया है या नहीं।
किसी विशेष परियोजना के लिए कोई समायोजन, या आपके संगठन के भीतर केवल सामान्य परिवर्तन, संवेदनशील डेटा को संशोधित करने और मास्किंग प्रक्रिया को दोहराने की आवश्यकता उत्पन्न करने वाले नए डेटा स्रोत बनाने के परिणामस्वरूप हो सकते हैं।
ऐसे उदाहरण हैं जहां डेटा मास्किंग एक बार का प्रयास हो सकता है, जैसे कि एक विशेष प्रशिक्षण डेटासेट तैयार करने के मामले में जिसका उपयोग कुछ महीनों के लिए एक छोटी परियोजना के लिए किया जाएगा। लेकिन अगर आप एक ऐसा समाधान चाहते हैं जो लंबे समय तक आपकी सेवा करे, तो एक बिंदु पर आपका डेटा अप्रचलित हो सकता है। इसलिए, मास्किंग प्रक्रिया को औपचारिक रूप देने में समय और प्रयास का निवेश करें ताकि इसे तेज़, दोहराने योग्य और यथासंभव स्वचालित बनाया जा सके।
मास्किंग नियमों का एक सेट विकसित करें, जैसे कि किस डेटा को मास्क करना है। किसी भी अपवाद या विशेष मामलों की पहचान करें जिन्हें आप इस बिंदु पर देख सकते हैं। इन मास्किंग नियमों को सुसंगत तरीके से लागू करने के लिए स्क्रिप्ट और स्वचालित उपकरण प्राप्त करें / बनाएं।
चाहे आप अपनी पसंद के सॉफ़्टवेयर विक्रेता के साथ काम करते हों या तैयार समाधान चुनते हों, अंतिम उत्पाद को इन डेटा-मास्किंग सर्वोत्तम प्रथाओं का पालन करने की आवश्यकता होती है:
यहां उन चुनौतियों की सूची दी गई है जिनका कार्यान्वयन के दौरान आपको सामना करना पड़ सकता है।
एक अंतरराष्ट्रीय स्वास्थ्य सेवा संगठन संवेदनशील व्यक्तिगत रूप से पहचान योग्य जानकारी (PII) को कई स्वरूपों में प्रस्तुत करने और उत्पादन और गैर-उत्पादन वातावरण दोनों में रहने की तलाश में था। वे एक एमएल-संचालित डेटा मास्किंग सॉफ़्टवेयर बनाना चाहते थे जो कंपनी की आंतरिक नीतियों, GDPR और अन्य डेटा गोपनीयता नियमों का अनुपालन करते हुए PII को खोज और अस्पष्ट कर सके।
हमारी टीम ने तुरंत निम्नलिखित चुनौतियों पर ध्यान दिया:
इस बड़ी विविधता के कारण, हमारी टीम नीतियों और प्रक्रियाओं के एक सेट के साथ आना चाहती थी जो विभिन्न डेटासेट स्वामियों को उनके डेटा को मास्क करने के तरीके पर मार्गदर्शन करेगी और हमारे समाधान के आधार के रूप में काम करेगी। उदाहरण के लिए, कोई व्यक्ति डेटा बिंदुओं की एक सूची के साथ आ सकता है जिसे वे अस्पष्ट करना चाहते हैं, चाहे एक बार या लगातार, और समाधान, इन सिद्धांतों द्वारा निर्देशित, डेटा का अध्ययन करेगा और उपयुक्त आपत्तिजनक तकनीकों का चयन करेगा और उन्हें लागू करेगा।
हमने निम्नलिखित प्रश्नों के माध्यम से परिदृश्य का सर्वेक्षण करके इस परियोजना से संपर्क किया:
इन सवालों के जवाब देने के बाद, हमने मुख्य रूप से सेवा के रूप में डेटा मास्किंग प्रदान करने का सुझाव दिया क्योंकि क्लाइंट के पास शुरू करने के लिए बहुत अधिक डेटा स्रोत हैं, और उन सभी को कवर करने में वर्षों लग सकते हैं।
अंत में, हमने कस्टम एमएल-संचालित टूल की मदद से डेटा मास्किंग सेवाएं प्रदान कीं, जो चार चरणों में अर्ध-स्वचालित रूप से डेटा मास्किंग कर सकता है:
इस डेटा मास्किंग समाधान ने क्लाइंट को GDPR का अनुपालन करने में मदद की, गैर-उत्पादन वातावरण बनाने के लिए आवश्यक समय को नाटकीय रूप से कम कर दिया, और डेटा को उत्पादन से सैंडबॉक्स में स्थानांतरित करने की लागत को कम कर दिया।
जब गोपनीय डेटा को छुपाया जाता है तो आपके प्रयास बंद नहीं होते हैं। आपको अभी भी इसे समय के साथ बनाए रखने की आवश्यकता है। यहां वे चरण दिए गए हैं जो इस पहल में आपकी सहायता करेंगे:
डेटा मास्किंग गैर-उत्पादन परिवेशों में आपके डेटा की सुरक्षा करेगा, आपको तृतीय-पक्ष ठेकेदारों के साथ जानकारी साझा करने में सक्षम करेगा, और अनुपालन में आपकी सहायता करेगा। यदि आपके पास IT विभाग है और आप अपने डेटा प्रवाह को नियंत्रित करते हैं, तो आप स्वयं डेटा अस्पष्टता समाधान खरीद और परिनियोजित कर सकते हैं. हालांकि, ध्यान रखें कि अनुचित डेटा मास्किंग कार्यान्वयन के बजाय अप्रिय परिणाम हो सकते हैं। यहाँ कुछ सबसे प्रमुख हैं:
इसलिए, यदि किसी कंपनी को डेटा अस्पष्टता पहलों को निष्पादित करने की अपनी क्षमताओं पर भरोसा नहीं है, तो बाहरी विक्रेता से संपर्क करना सबसे अच्छा है जो सही डेटा मास्किंग तकनीकों का चयन करने में मदद करेगा और अंतिम उत्पाद को न्यूनतम रुकावटों के साथ आपके वर्कफ़्लोज़ में एकीकृत करेगा।
सुरक्षित रहें!
डेटा मास्किंग समाधान लागू करने पर विचार कर रहे हैं? संपर्क करें ! हम आपके डेटा को प्राथमिकता देने में आपकी मदद करेंगे, एक अनुपालन उपकरण का निर्माण करेंगे, और आपकी व्यावसायिक प्रक्रियाओं को बाधित किए बिना इसे तैनात करेंगे।