लेकिन गोपनीयता सुरक्षा के साथ एक बहुत ही अनोखे तरीके से जुड़ती है: डेटा जिसमें व्यक्तिगत रूप से पहचान योग्य जानकारी शामिल होती है, उसे सुरक्षा के उच्चतम मानक की आवश्यकता होती है। गोपनीयता का अर्थ हमेशा के लिए बदल गया है, क्योंकि बड़ी कम्प्यूटिंग के पास पूरी तरह से "अनाम" डेटासेट के संयोजन से पुनः पहचान का साधन है जिसका उपयोग व्यक्तियों की पहचान करने के लिए आसानी से किया जा सकता है।
कंप्यूट, विशेष रूप से बिग कंप्यूट - विरल सूचनात्मक वैक्टर का उपयोग करके उच्च आयामी डेटा में पैटर्न को अनलॉक करता है ताकि व्यक्तिगत रूप से पहचाने जाने योग्य पैटर्न में सघन हो जाए। यूनिसिटी द्वारा मात्रात्मक रूप से मापने की क्षमता कि कितने व्यक्ति, या समान विशेषताओं वाले समूह हैं, को मात्रात्मक रूप से मापा जाता है।
अंग्रेजी भाषा में यूनिसिटी शब्द का प्रयोग अक्सर दयालुता और खुलेपन के रूप में किया जाता है।
गणित में एकता को गणितीय वस्तु की विशिष्टता के रूप में परिभाषित किया जाता है, जिसका आम तौर पर मतलब होता है कि केवल एक ही वस्तु दी गई गुणों को पूरा करती है, या किसी दिए गए वर्ग की सभी वस्तुएं समान हैं।
क्रिप्टोग्राफ़ी में यूनिसिटी डिस्टेंस आज का फोकस नहीं है, लेकिन यह इस विचार को स्पष्ट करने में मदद कर सकता है: यह हमें बताता है कि एन्क्रिप्शन कुंजी को विशिष्ट रूप से पुनर्प्राप्त करने के लिए कितने सिफरटेक्स्ट की आवश्यकता है, यह मानते हुए कि हमलावर एन्क्रिप्शन एल्गोरिदम जानता है और उसके पास सिफरटेक्स्ट और प्लेनटेक्स्ट के बारे में कुछ आँकड़े दोनों तक पहुँच है। मूल रूप से, यह आपको यह गणना करने देता है कि खुदाई करने से पहले सुई खोजने के लिए घास का ढेर कितना बड़ा होना चाहिए।
बड़े डेटा सेट में एकता को मापने का यह विचार पहली बार एक अध्ययन द्वारा प्रसिद्ध हुआ, जिसमें पाया गया कि 90% से अधिक लोगों को नेटफ्लिक्स पुरस्कार डेटा सेट में विशिष्ट रूप से फिर से पहचाना जा सकता है क्योंकि वे, "यह प्रदर्शित करते हैं कि एक विरोधी जो किसी व्यक्तिगत ग्राहक के बारे में केवल थोड़ा बहुत जानता है, वह डेटासेट में इस ग्राहक के रिकॉर्ड को आसानी से पहचान सकता है। पृष्ठभूमि ज्ञान के स्रोत के रूप में इंटरनेट मूवी डेटाबेस का उपयोग करते हुए, हमने ज्ञात उपयोगकर्ताओं के नेटफ्लिक्स रिकॉर्ड की सफलतापूर्वक पहचान की, उनकी स्पष्ट राजनीतिक प्राथमिकताओं और अन्य संभावित संवेदनशील जानकारी को उजागर किया।"
2021 में मुझे फिर याद दिलाया गया कि “
मैं मानव मस्तिष्क पर सिग्नल प्रोसेसिंग अध्ययन कर रहा था, यह देखने के लिए कि क्या हम बिना किसी सचेतन जागरूकता के मस्तिष्क नेटवर्क को बदल सकते हैं। स्पॉइलर: आप बिल्कुल कर सकते हैं । वह डेटा ऐसा लग सकता है कि यह बहुत संवेदनशील, अत्यधिक पहचान योग्य व्यक्तिगत डेटा हो सकता है - लेकिन ऐसे डेटा सेट हैं जो उससे कहीं ज़्यादा ख़तरनाक हैं। जैसे कि आपका जाना-माना नेफ़्लिक्स उपयोग।
अमेरिकी सरकार द्वारा वित्तपोषित चिकित्सा अनुसंधान के लिए यह आवश्यक है कि डेटा सेट जनता के लिए खुले तौर पर उपलब्ध हो, जब गोपनीयता को उचित रूप से संरक्षित किया जा सके, लेकिन जब आप डेटा सेट के भीतर किसी व्यक्ति की ही नहीं, बल्कि निकटवर्ती भौगोलिक स्थान में आसानी से उपलब्ध किसी भी व्यक्ति की पुनः पहचान के जोखिम की गणना करते हैं।
संपूर्ण सारांश पढना उचित होगा:
“हालांकि अनाम डेटा को व्यक्तिगत डेटा नहीं माना जाता है, लेकिन हाल के शोध से पता चला है कि कैसे व्यक्तियों को अक्सर फिर से पहचाना जा सकता है। विद्वानों ने तर्क दिया है कि पिछले निष्कर्ष केवल छोटे पैमाने के डेटासेट पर लागू होते हैं और गोपनीयता बड़े पैमाने के डेटासेट में संरक्षित होती है। 3 महीने के स्थान डेटा का उपयोग करके , हम (1) डेटासेट के आकार के साथ धीरे-धीरे कम होने के लिए पुनः पहचान के जोखिम को दिखाते हैं, (2) तीन जनसंख्या-व्यापी सीमांत वितरणों को ध्यान में रखते हुए एक सरल मॉडल के साथ इस कमी का अनुमान लगाते हैं, और (3) साबित करते हैं कि एकता उत्तल है और एक रैखिक निचली सीमा प्राप्त करते हैं। हमारे अनुमानों से पता चलता है कि 60 मिलियन लोगों के डेटासेट में 93% लोगों की सहायक जानकारी के चार बिंदुओं का उपयोग करके विशिष्ट रूप से पहचान की जाएगी, जिसमें निचली सीमा 22% है।
यह वह सोना है जिसे हैकर्स आमतौर पर स्वास्थ्य सेवा, वित्त और सरकारी रिकॉर्ड से निकालते हैं। उन्हें चार सुनहरे सहायक डेटा बिंदुओं की आवश्यकता होती है, और वे व्यक्ति को खोज सकते हैं।
यह भूसे के ढेर में सुई ढूंढने जैसा नहीं है।
यह सुइयों के ढेर में से एक विशिष्ट सुई को खोजने जैसा है।
मुझे बस उस सुई के बारे में तीन महीने का स्थान डेटा चाहिए, और बिंगो , मुझे यह मिल गया।
डेटा सेटों में एकरूपता अधिकांश संगठनों के लिए एक बहुत बड़ी समस्या है।
यह एक बड़ा अनुपालन मुद्दा होना चाहिए, लेकिन वहां भी यह एक अंध-बिंदु है।
यह एक बड़ा सुरक्षा जोखिम है, जब तक कि हम इसका निरीक्षण करना नहीं सीखते।
मैंने अभी-अभी IAPP AI गवर्नेंस ट्रेनिंग ली है। यह आर्टिफिशियल इंटेलिजेंस के लिए गोपनीयता संबंधी चिंताओं के बारे में वैश्विक विनियमन को समझने के लिए नया मानक है जिसे अप्रैल 2024 में स्थापित किया गया है। मेरे पास एक तकनीकी पृष्ठभूमि है, मैं उस प्रशिक्षण का उपयोग उन सभी वकीलों, नियामकों और अनुपालन अधिकारियों के दिमाग में जाने के लिए करना चाहता था जिनके साथ मैं अक्सर बातचीत करता हूँ। मैं इस बात से बहुत प्रसन्न हूँ कि यह वर्तमान नियामक परिदृश्य को कैसे सारांशित करता है, और मुझे यह पसंद है कि प्रमाणन के लिए हर साल विषय पर अपने प्रशिक्षण को अपडेट करना आवश्यक है: इस नियामक परिदृश्य में, चीजें तेज़ी से आगे बढ़ती हैं।
काश हमने गोपनीयता बढ़ाने वाली तकनीकों में तकनीकी प्रगति को कवर किया होता, जिस पर आपको विचार करने की आवश्यकता होगी यदि आपके पास ऐसा डेटा सेट है जो यूनिसिटी के उच्च जोखिम में है। काश हमने छोटे या बड़े डेटा सेट में यूनिसिटी के जोखिम को कम करने के लिए किसी भी ज्ञात, मात्रात्मक माप को कवर किया होता। काश हमने यूनिसिटी को कवर किया होता, बस।
काश हमने यह बताया होता कि गोपनीयता बढ़ाने वाली तकनीकों (PETs) का उपयोग कैसे अनोखा है: लिनक्स कर्नेल के आदिम रूपों तक, उस तकनीक को विशेष रूप से गोपनीयता सुरक्षा को ध्यान में रखकर डिज़ाइन किया गया है। PETs उच्च जोखिम वाले डेटा सेट के लिए अनुपालन और सुरक्षा जोखिम दोनों को एक साथ कम कर सकते हैं।
सुरक्षा जोखिमों की समीक्षा अक्सर खतरा मॉडलिंग के रूप में की जाती है। यह तीन कारकों के गुणन की अनुमानित गणना है: खतरे का प्रकार (अंदरूनी अभिनेता, आपूर्ति श्रृंखला भेद्यता), प्रभाव की मात्रा (हितधारकों, अंतिम उपयोगकर्ताओं, व्यावसायिक प्रतिष्ठा के लिए) और संभावना।
आइए संभावना पर ध्यान दें: मैं इसे ज्ञात/अनुमानित परिसंपत्ति मूल्य के रूप में गणना करता हूं, और यहां तक कि एल्गोरिदम जैसी बौद्धिक संपदा पर एक प्रस्तावित मूल्य टैग भी लगाता हूं। यह महत्वपूर्ण है। आपको अपने एल्गोरिदमिक आईपी का मूल्यांकन इस तरह करना चाहिए जैसे कि यह आपका उत्पाद है, क्योंकि विशेष रूप से एआई में, यह निश्चित रूप से आपका उत्पाद है।
यह आपके खतरे के मॉडल पर भी आपका ध्यान स्पष्ट रूप से केंद्रित करता है। यदि आपका व्यवसाय विशेष रूप से जनरेटिव एल्गोरिदम के इर्द-गिर्द बौद्धिक संपदा का निर्माण कर रहा है, तो सुरक्षा के पारंपरिक तरीके काम नहीं करेंगे।
आइये मैं इसका कारण बताता हूं:
अब हम डेटा एन्क्रिप्ट करने में बहुत अच्छे हैं।
दुर्भाग्यवश, एन्क्रिप्टेड डेटा की गणना करना वस्तुतः असंभव है।
यदि आपका व्यवसाय कंप्यूट पर निर्भर करता है (और यदि आपने इसे अब तक पढ़ा है तो संभवतः ऐसा ही है), तो आप अपने क्षेत्र में गोपनीयता से प्रेरित सुरक्षा खतरों के बारे में निर्णय लेने के लिए जिम्मेदार हैं। गोपनीयता प्रौद्योगिकी का एक हिस्सा है जहाँ अनुपालन वास्तव में सुरक्षा के साथ पूरी तरह से संरेखित हो सकता है।
वापस उस कष्टप्रद एन्क्रिप्टेड डेटा पर: इसके एन्क्रिप्टेड होने के कुछ अच्छे कारण हो सकते हैं। PET कॉन्फिडेंशियल कंप्यूटिंग के लिए मेरा पसंदीदा वास्तविक उपयोग मामला वैश्विक मानव तस्करी के खिलाफ लड़ाई में है।
दुनिया में हमेशा से ही अच्छे लोग रहे हैं, जो इस वैश्विक रूप से वितरित समस्या के पीड़ितों के अधिकारों और स्वतंत्रता के लिए लड़ते रहे हैं। परंपरागत रूप से, OSINT तकनीकों का उपयोग सूचना वाले डेटाबेस के स्थानों की पहचान करने के लिए किया जाता था, अक्सर फोटोग्राफिक या वीडियोग्राफिक जानकारी का एक संग्रह, जिसे कानूनी तौर पर, आपको उस साक्ष्य को संग्रहीत करने और रखने की अनुमति नहीं थी, क्योंकि लक्ष्य उन अभिलेखों की किसी भी क्षमता को सीमित करना है जो कभी भी एक नया वितरण वेक्टर हो।
इससे एक समस्या पैदा हुई, क्योंकि शिकारी आसानी से ऑनलाइन जानकारी इधर-उधर ले जा सकते थे, अपनी वास्तुकला को आवश्यकतानुसार केंद्रीकृत और विकेंद्रीकृत कर सकते थे। समस्या से लड़ने वालों के पास उतना लचीलापन नहीं था।
उचित विनियमन, दुर्भाग्यपूर्ण द्वितीयक प्रभाव।
अब, गोपनीय कंप्यूटिंग हमें न्याय की आशा निजी डेटा एक्सचेंज में एक निष्पक्ष मुकाबला देती है: यह एक प्रदर्शन है कि कैसे उन अत्यधिक उच्च जोखिम वाले रिकॉर्डों को एक विश्वसनीय निष्पादन वातावरण में केंद्रीकृत किया जाए, तथा हार्डवेयर-आधारित, प्रमाणित विश्वसनीय निष्पादन वातावरण में संगणना करके उपयोग में आने वाले डेटा की सुरक्षा की जाए: जहां इस डेटा को केवल एल्गोरिदम द्वारा ही देखा जाएगा, मानवीय आंखों द्वारा नहीं।
और यह और भी बेहतर हो जाता है। क्योंकि हम एन्क्रिप्शन में इतने अच्छे हैं, यह अब एक बड़े, संघबद्ध डेटा पारिस्थितिकी तंत्र का हिस्सा बन सकता है। दुनिया भर के संगठन अपने रिकॉर्ड को एक साथ लाने और केवल चार सुनहरे सहायक उपायों के जादू का उपयोग करने में सक्षम हैं, ताकि न केवल व्यक्तियों के बारे में, बल्कि स्थानों और संभावित रूप से आंदोलन के पैटर्न के बारे में संभावित रूप से व्यक्तिगत रूप से पहचान योग्य जानकारी प्राप्त की जा सके। एक निष्पक्ष लड़ाई, जहां गोपनीयता एक अलग निष्पादन वातावरण द्वारा संरक्षित है: केवल एल्गोरिदमिक आंखें ही उन छवियों को फिर से देख पाएंगी।
यूनिसिटी एक उपकरण है, वास्तव में एक अच्छा उपकरण। यूनिसिटी आपके ब्लाइंडस्पॉट को गणना से बदल देता है। अपने संगठन के AI अनुरूपता मूल्यांकन के पहले प्रयासों पर एक नज़र डालें: जोखिम प्रबंधन, डेटा शासन और साइबर सुरक्षा अभ्यास। वर्तमान विनियमन से परे सोचें और उस कुल जोखिम के बारे में सोचें जो आपका सिस्टम वास्तव में अंतिम उपयोगकर्ताओं के लिए प्रस्तुत कर सकता है, और डेटा सघन दुनिया के लिए खतरा मॉडलिंग शुरू करें। आइए इसे सही समझें।
हमने AI विनियमन के हर ढांचे को कवर करने में कई दिन बिताए, जिससे मैंने बहुत कुछ सीखा । AIGP प्रशिक्षण में दिए गए विनियमन के ढांचे के आधार पर, यहाँ मेरी वर्तमान सिफारिश है कि किसी भी मध्यम से बड़े आकार के संगठन में इसे कैसे संभाला जाए।
एक समृद्ध एआई गवर्नेंस फ्रेमवर्क
यदि हम व्यक्तियों की पहचान करना चाहते हैं, तो हमें उन सतह क्षेत्रों को सुरक्षित बनाना होगा।
यदि हम व्यक्तियों की पहचान नहीं करना चाहते हैं, तो अपने सिस्टम के आउटपुट में पुनः पहचान के जोखिम की निगरानी करने का कोई तरीका लागू करें।
सार्वजनिक और उल्लंघन किए गए डेटासेट में एकता का निम्न स्तर हम सभी के लिए बहुत अच्छा होगा। यह एक डेटा स्वच्छता अभ्यास है जिसे आपकी टीम कर सकती है, जो गोपनीयता से प्रेरित प्रतिकूल द्वारा अभिसरण डेटा उपयोग के जोखिम के मात्रात्मक माप के साथ कर सकती है । हम निश्चित रूप से व्यक्तिगत डेटा को फिर से पहचाने जाने से बचाने के लिए मानक बढ़ा सकते हैं और हमें ऐसा करना चाहिए। हम ऐसा तभी शुरू कर सकते हैं जब हम इसे अपने डेटा में मापें। यदि आप गोपनीयता बढ़ाने वाली तकनीकों और कंप्यूट में विनियमन के बदलते ज्वार के बारे में गंभीर हैं, तो मुझे इसके बारे में एक दिलचस्प प्रश्न भेजें । यदि आपके सिस्टम प्रशिक्षण में आवश्यक रूप से उच्च जोखिम वाले डेटा से जुड़ते हैं, तो आपको इस बारे में भी चिंता हो सकती है