601 रीडिंग

बड़े कंप्यूटर के युग में गोपनीयता का प्रबंधन

द्वारा Sal Kimmich9m2024/05/30

बहुत लंबा; पढ़ने के लिए

व्यक्तिगत रूप से पहचान योग्य जानकारी वाले डेटा के लिए उच्चतम सुरक्षा मानक की आवश्यकता होती है। गोपनीयता का अर्थ हमेशा के लिए बदल गया है, क्योंकि बड़ी कम्प्यूट ने पूरी तरह से "अनाम" डेटासेट के संयोजन से पुनः पहचान की है जिसका उपयोग व्यक्तियों की पहचान करने के लिए किया जा सकता है। अगर हम ऑनलाइन गोपनीयता को बनाए रखना चाहते हैं तो हमें अपनी मानसिकता बदलने की जरूरत है।

featured image - बड़े कंप्यूटर के युग में गोपनीयता का प्रबंधन

देखो, मैं समझता हूँ कि अनुपालन सुरक्षा नहीं है .

लेकिन गोपनीयता सुरक्षा के साथ एक बहुत ही अनोखे तरीके से जुड़ती है: डेटा जिसमें व्यक्तिगत रूप से पहचान योग्य जानकारी शामिल होती है, उसे सुरक्षा के उच्चतम मानक की आवश्यकता होती है। गोपनीयता का अर्थ हमेशा के लिए बदल गया है, क्योंकि बड़ी कम्प्यूटिंग के पास पूरी तरह से "अनाम" डेटासेट के संयोजन से पुनः पहचान का साधन है जिसका उपयोग व्यक्तियों की पहचान करने के लिए आसानी से किया जा सकता है।

यदि हम ऑनलाइन गोपनीयता को बनाए रखना चाहते हैं तो हमें अपनी मानसिकता बदलनी होगी।

कंप्यूट, विशेष रूप से बिग कंप्यूट - विरल सूचनात्मक वैक्टर का उपयोग करके उच्च आयामी डेटा में पैटर्न को अनलॉक करता है ताकि व्यक्तिगत रूप से पहचाने जाने योग्य पैटर्न में सघन हो जाए। यूनिसिटी द्वारा मात्रात्मक रूप से मापने की क्षमता कि कितने व्यक्ति, या समान विशेषताओं वाले समूह हैं, को मात्रात्मक रूप से मापा जाता है।

अंग्रेजी भाषा में यूनिसिटी शब्द का प्रयोग अक्सर दयालुता और खुलेपन के रूप में किया जाता है।

गणित में एकता को गणितीय वस्तु की विशिष्टता के रूप में परिभाषित किया जाता है, जिसका आम तौर पर मतलब होता है कि केवल एक ही वस्तु दी गई गुणों को पूरा करती है, या किसी दिए गए वर्ग की सभी वस्तुएं समान हैं।

क्रिप्टोग्राफ़ी में यूनिसिटी डिस्टेंस आज का फोकस नहीं है, लेकिन यह इस विचार को स्पष्ट करने में मदद कर सकता है: यह हमें बताता है कि एन्क्रिप्शन कुंजी को विशिष्ट रूप से पुनर्प्राप्त करने के लिए कितने सिफरटेक्स्ट की आवश्यकता है, यह मानते हुए कि हमलावर एन्क्रिप्शन एल्गोरिदम जानता है और उसके पास सिफरटेक्स्ट और प्लेनटेक्स्ट के बारे में कुछ आँकड़े दोनों तक पहुँच है। मूल रूप से, यह आपको यह गणना करने देता है कि खुदाई करने से पहले सुई खोजने के लिए घास का ढेर कितना बड़ा होना चाहिए।

बड़े डेटा सेट में एकता को मापने का यह विचार पहली बार एक अध्ययन द्वारा प्रसिद्ध हुआ, जिसमें पाया गया कि 90% से अधिक लोगों को नेटफ्लिक्स पुरस्कार डेटा सेट में विशिष्ट रूप से फिर से पहचाना जा सकता है क्योंकि वे, "यह प्रदर्शित करते हैं कि एक विरोधी जो किसी व्यक्तिगत ग्राहक के बारे में केवल थोड़ा बहुत जानता है, वह डेटासेट में इस ग्राहक के रिकॉर्ड को आसानी से पहचान सकता है। पृष्ठभूमि ज्ञान के स्रोत के रूप में इंटरनेट मूवी डेटाबेस का उपयोग करते हुए, हमने ज्ञात उपयोगकर्ताओं के नेटफ्लिक्स रिकॉर्ड की सफलतापूर्वक पहचान की, उनकी स्पष्ट राजनीतिक प्राथमिकताओं और अन्य संभावित संवेदनशील जानकारी को उजागर किया।"

बड़े विरल डेटासेट का सुदृढ़ डी-अनामीकरण

2021 में मुझे फिर याद दिलाया गया कि “ देश-स्तरीय स्थान डेटासेट में भी पुनः पहचान का जोखिम उच्च बना हुआ है .” यह जानकारी मेरे अपने संस्थान, नेशनल इंस्टीट्यूट्स ऑफ हेल्थ से आई है।

मैं मानव मस्तिष्क पर सिग्नल प्रोसेसिंग अध्ययन कर रहा था, यह देखने के लिए कि क्या हम बिना किसी सचेतन जागरूकता के मस्तिष्क नेटवर्क को बदल सकते हैं। स्पॉइलर: आप बिल्कुल कर सकते हैं । वह डेटा ऐसा लग सकता है कि यह बहुत संवेदनशील, अत्यधिक पहचान योग्य व्यक्तिगत डेटा हो सकता है - लेकिन ऐसे डेटा सेट हैं जो उससे कहीं ज़्यादा ख़तरनाक हैं। जैसे कि आपका जाना-माना नेफ़्लिक्स उपयोग।

अमेरिकी सरकार द्वारा वित्तपोषित चिकित्सा अनुसंधान के लिए यह आवश्यक है कि डेटा सेट जनता के लिए खुले तौर पर उपलब्ध हो, जब गोपनीयता को उचित रूप से संरक्षित किया जा सके, लेकिन जब आप डेटा सेट के भीतर किसी व्यक्ति की ही नहीं, बल्कि निकटवर्ती भौगोलिक स्थान में आसानी से उपलब्ध किसी भी व्यक्ति की पुनः पहचान के जोखिम की गणना करते हैं।

संपूर्ण सारांश पढना उचित होगा:

“हालांकि अनाम डेटा को व्यक्तिगत डेटा नहीं माना जाता है, लेकिन हाल के शोध से पता चला है कि कैसे व्यक्तियों को अक्सर फिर से पहचाना जा सकता है। विद्वानों ने तर्क दिया है कि पिछले निष्कर्ष केवल छोटे पैमाने के डेटासेट पर लागू होते हैं और गोपनीयता बड़े पैमाने के डेटासेट में संरक्षित होती है। 3 महीने के स्थान डेटा का उपयोग करके , हम (1) डेटासेट के आकार के साथ धीरे-धीरे कम होने के लिए पुनः पहचान के जोखिम को दिखाते हैं, (2) तीन जनसंख्या-व्यापी सीमांत वितरणों को ध्यान में रखते हुए एक सरल मॉडल के साथ इस कमी का अनुमान लगाते हैं, और (3) साबित करते हैं कि एकता उत्तल है और एक रैखिक निचली सीमा प्राप्त करते हैं। हमारे अनुमानों से पता चलता है कि 60 मिलियन लोगों के डेटासेट में 93% लोगों की सहायक जानकारी के चार बिंदुओं का उपयोग करके विशिष्ट रूप से पहचान की जाएगी, जिसमें निचली सीमा 22% है।

यह वह सोना है जिसे हैकर्स आमतौर पर स्वास्थ्य सेवा, वित्त और सरकारी रिकॉर्ड से निकालते हैं। उन्हें चार सुनहरे सहायक डेटा बिंदुओं की आवश्यकता होती है, और वे व्यक्ति को खोज सकते हैं।

यह भूसे के ढेर में सुई ढूंढने जैसा नहीं है।
यह सुइयों के ढेर में से एक विशिष्ट सुई को खोजने जैसा है।
मुझे बस उस सुई के बारे में तीन महीने का स्थान डेटा चाहिए, और बिंगो , मुझे यह मिल गया।

डेटा सेटों में एकरूपता अधिकांश संगठनों के लिए एक बहुत बड़ी समस्या है।

यह एक बड़ा अनुपालन मुद्दा होना चाहिए, लेकिन वहां भी यह एक अंध-बिंदु है।

यह एक बड़ा सुरक्षा जोखिम है, जब तक कि हम इसका निरीक्षण करना नहीं सीखते।

मैंने अभी-अभी IAPP AI गवर्नेंस ट्रेनिंग ली है। यह आर्टिफिशियल इंटेलिजेंस के लिए गोपनीयता संबंधी चिंताओं के बारे में वैश्विक विनियमन को समझने के लिए नया मानक है जिसे अप्रैल 2024 में स्थापित किया गया है। मेरे पास एक तकनीकी पृष्ठभूमि है, मैं उस प्रशिक्षण का उपयोग उन सभी वकीलों, नियामकों और अनुपालन अधिकारियों के दिमाग में जाने के लिए करना चाहता था जिनके साथ मैं अक्सर बातचीत करता हूँ। मैं इस बात से बहुत प्रसन्न हूँ कि यह वर्तमान नियामक परिदृश्य को कैसे सारांशित करता है, और मुझे यह पसंद है कि प्रमाणन के लिए हर साल विषय पर अपने प्रशिक्षण को अपडेट करना आवश्यक है: इस नियामक परिदृश्य में, चीजें तेज़ी से आगे बढ़ती हैं।

मैं एक क्षण के लिए इस बात पर ध्यान केन्द्रित करना चाहूँगा कि मैं क्या चाहता हूँ कि एआई गवर्नेंस प्रोफेशनल्स यह समझें।

काश हमने गोपनीयता बढ़ाने वाली तकनीकों में तकनीकी प्रगति को कवर किया होता, जिस पर आपको विचार करने की आवश्यकता होगी यदि आपके पास ऐसा डेटा सेट है जो यूनिसिटी के उच्च जोखिम में है। काश हमने छोटे या बड़े डेटा सेट में यूनिसिटी के जोखिम को कम करने के लिए किसी भी ज्ञात, मात्रात्मक माप को कवर किया होता। काश हमने यूनिसिटी को कवर किया होता, बस।

काश हमने यह बताया होता कि गोपनीयता बढ़ाने वाली तकनीकों (PETs) का उपयोग कैसे अनोखा है: लिनक्स कर्नेल के आदिम रूपों तक, उस तकनीक को विशेष रूप से गोपनीयता सुरक्षा को ध्यान में रखकर डिज़ाइन किया गया है। PETs उच्च जोखिम वाले डेटा सेट के लिए अनुपालन और सुरक्षा जोखिम दोनों को एक साथ कम कर सकते हैं।

सुरक्षा जोखिमों की समीक्षा अक्सर खतरा मॉडलिंग के रूप में की जाती है। यह तीन कारकों के गुणन की अनुमानित गणना है: खतरे का प्रकार (अंदरूनी अभिनेता, आपूर्ति श्रृंखला भेद्यता), प्रभाव की मात्रा (हितधारकों, अंतिम उपयोगकर्ताओं, व्यावसायिक प्रतिष्ठा के लिए) और संभावना।

जोखिम = खतरा x प्रभाव x संभावना.

आइए संभावना पर ध्यान दें: मैं इसे ज्ञात/अनुमानित परिसंपत्ति मूल्य के रूप में गणना करता हूं, और यहां तक कि एल्गोरिदम जैसी बौद्धिक संपदा पर एक प्रस्तावित मूल्य टैग भी लगाता हूं। यह महत्वपूर्ण है। आपको अपने एल्गोरिदमिक आईपी का मूल्यांकन इस तरह करना चाहिए जैसे कि यह आपका उत्पाद है, क्योंकि विशेष रूप से एआई में, यह निश्चित रूप से आपका उत्पाद है।

यह आपके खतरे के मॉडल पर भी आपका ध्यान स्पष्ट रूप से केंद्रित करता है। यदि आपका व्यवसाय विशेष रूप से जनरेटिव एल्गोरिदम के इर्द-गिर्द बौद्धिक संपदा का निर्माण कर रहा है, तो सुरक्षा के पारंपरिक तरीके काम नहीं करेंगे।

आइये मैं इसका कारण बताता हूं:

अब हम डेटा एन्क्रिप्ट करने में बहुत अच्छे हैं।
दुर्भाग्यवश, एन्क्रिप्टेड डेटा की गणना करना वस्तुतः असंभव है।

यदि आपका व्यवसाय कंप्यूट पर निर्भर करता है (और यदि आपने इसे अब तक पढ़ा है तो संभवतः ऐसा ही है), तो आप अपने क्षेत्र में गोपनीयता से प्रेरित सुरक्षा खतरों के बारे में निर्णय लेने के लिए जिम्मेदार हैं। गोपनीयता प्रौद्योगिकी का एक हिस्सा है जहाँ अनुपालन वास्तव में सुरक्षा के साथ पूरी तरह से संरेखित हो सकता है।

वापस उस कष्टप्रद एन्क्रिप्टेड डेटा पर: इसके एन्क्रिप्टेड होने के कुछ अच्छे कारण हो सकते हैं। PET कॉन्फिडेंशियल कंप्यूटिंग के लिए मेरा पसंदीदा वास्तविक उपयोग मामला वैश्विक मानव तस्करी के खिलाफ लड़ाई में है।

दुनिया में हमेशा से ही अच्छे लोग रहे हैं, जो इस वैश्विक रूप से वितरित समस्या के पीड़ितों के अधिकारों और स्वतंत्रता के लिए लड़ते रहे हैं। परंपरागत रूप से, OSINT तकनीकों का उपयोग सूचना वाले डेटाबेस के स्थानों की पहचान करने के लिए किया जाता था, अक्सर फोटोग्राफिक या वीडियोग्राफिक जानकारी का एक संग्रह, जिसे कानूनी तौर पर, आपको उस साक्ष्य को संग्रहीत करने और रखने की अनुमति नहीं थी, क्योंकि लक्ष्य उन अभिलेखों की किसी भी क्षमता को सीमित करना है जो कभी भी एक नया वितरण वेक्टर हो।

इससे एक समस्या पैदा हुई, क्योंकि शिकारी आसानी से ऑनलाइन जानकारी इधर-उधर ले जा सकते थे, अपनी वास्तुकला को आवश्यकतानुसार केंद्रीकृत और विकेंद्रीकृत कर सकते थे। समस्या से लड़ने वालों के पास उतना लचीलापन नहीं था।

उचित विनियमन, दुर्भाग्यपूर्ण द्वितीयक प्रभाव।

अब, गोपनीय कंप्यूटिंग हमें न्याय की आशा निजी डेटा एक्सचेंज में एक निष्पक्ष मुकाबला देती है: यह एक प्रदर्शन है कि कैसे उन अत्यधिक उच्च जोखिम वाले रिकॉर्डों को एक विश्वसनीय निष्पादन वातावरण में केंद्रीकृत किया जाए, तथा हार्डवेयर-आधारित, प्रमाणित विश्वसनीय निष्पादन वातावरण में संगणना करके उपयोग में आने वाले डेटा की सुरक्षा की जाए: जहां इस डेटा को केवल एल्गोरिदम द्वारा ही देखा जाएगा, मानवीय आंखों द्वारा नहीं।

और यह और भी बेहतर हो जाता है। क्योंकि हम एन्क्रिप्शन में इतने अच्छे हैं, यह अब एक बड़े, संघबद्ध डेटा पारिस्थितिकी तंत्र का हिस्सा बन सकता है। दुनिया भर के संगठन अपने रिकॉर्ड को एक साथ लाने और केवल चार सुनहरे सहायक उपायों के जादू का उपयोग करने में सक्षम हैं, ताकि न केवल व्यक्तियों के बारे में, बल्कि स्थानों और संभावित रूप से आंदोलन के पैटर्न के बारे में संभावित रूप से व्यक्तिगत रूप से पहचान योग्य जानकारी प्राप्त की जा सके। एक निष्पक्ष लड़ाई, जहां गोपनीयता एक अलग निष्पादन वातावरण द्वारा संरक्षित है: केवल एल्गोरिदमिक आंखें ही उन छवियों को फिर से देख पाएंगी।

एकता कोई बड़ी बुराई नहीं है।

यूनिसिटी एक उपकरण है, वास्तव में एक अच्छा उपकरण। यूनिसिटी आपके ब्लाइंडस्पॉट को गणना से बदल देता है। अपने संगठन के AI अनुरूपता मूल्यांकन के पहले प्रयासों पर एक नज़र डालें: जोखिम प्रबंधन, डेटा शासन और साइबर सुरक्षा अभ्यास। वर्तमान विनियमन से परे सोचें और उस कुल जोखिम के बारे में सोचें जो आपका सिस्टम वास्तव में अंतिम उपयोगकर्ताओं के लिए प्रस्तुत कर सकता है, और डेटा सघन दुनिया के लिए खतरा मॉडलिंग शुरू करें। आइए इसे सही समझें।

हमने AI विनियमन के हर ढांचे को कवर करने में कई दिन बिताए, जिससे मैंने बहुत कुछ सीखा । AIGP प्रशिक्षण में दिए गए विनियमन के ढांचे के आधार पर, यहाँ मेरी वर्तमान सिफारिश है कि किसी भी मध्यम से बड़े आकार के संगठन में इसे कैसे संभाला जाए।

एआई गवर्नेंस के लिए मौजूदा ढांचे को प्राथमिकता देना

एक समृद्ध एआई गवर्नेंस फ्रेमवर्क

व्यापक जोखिम प्रबंधन (NIST AI RMF)

संरचित जोखिम प्रबंधन प्रक्रिया:
- जोखिमों की पहचान करें : संभावित AI-संबंधित जोखिमों की पहचान करने के लिए गहन जोखिम आकलन करें।
- जोखिमों का आकलन करें : पहचाने गए जोखिमों की गंभीरता और संभावना का मूल्यांकन करें।
- जोखिम प्रबंधन : पहचाने गए जोखिमों को कम करने के लिए रणनीतियों को लागू करें।
- निगरानी और अद्यतन : नए जोखिमों के लिए एआई प्रणालियों की निरंतर निगरानी करें और तदनुसार जोखिम प्रबंधन रणनीतियों को अद्यतन करें।

नैतिक एआई विकास (ओईसीडी एआई सिद्धांत)

नैतिक प्रतिपूर्ति :
- मानव-केंद्रित डिजाइन : सुनिश्चित करें कि एआई प्रणालियां मानव इनपुट को प्राथमिकता दें और मानवीय आवश्यकताओं और अनुभवों को संबोधित करें।
- पारदर्शिता और व्याख्यात्मकता : एआई सिस्टम कैसे निर्णय लेते हैं, इसके बारे में स्पष्ट और समझने योग्य जानकारी प्रदान करें।
- जवाबदेही : एआई प्रणालियों के कार्यों और परिणामों के लिए स्पष्ट जवाबदेही स्थापित करें।

विनियामक अनुपालन (GDPR, EU AI अधिनियम)

डेटा संरक्षण और गोपनीयता :
- जीडीपीआर अनुपालन : डेटा न्यूनीकरण और गुमनामीकरण सहित व्यक्तिगत डेटा की सुरक्षा के लिए उपायों को लागू करना।
- यूरोपीय संघ एआई अधिनियम : जोखिम के आधार पर एआई प्रणालियों को वर्गीकृत करना और उच्च जोखिम वाली एआई प्रणालियों के लिए विशिष्ट आवश्यकताओं का अनुपालन सुनिश्चित करना।
- डेटा प्रभाव आकलन : गोपनीयता जोखिमों का मूल्यांकन करने के लिए डेटा संरक्षण प्रभाव आकलन (डीपीआईए) और एआई अनुरूपता आकलन आयोजित करें।

तकनीकी विचार

गोपनीयता बढ़ाने वाली प्रौद्योगिकियाँ (पीईटी) :
- विभेदक गोपनीयता : समूह पैटर्न का विश्लेषण करते समय डेटा गोपनीयता सुनिश्चित करने के लिए विभेदक गोपनीयता को लागू करें।
- फेडरेटेड लर्निंग : व्यक्तिगत डेटा बिंदुओं को साझा किए बिना विकेन्द्रीकृत डेटा पर एआई मॉडल को प्रशिक्षित करने के लिए फेडरेटेड लर्निंग का उपयोग करें।
- होमोमॉर्फिक एन्क्रिप्शन : एन्क्रिप्टेड डेटा पर गणना करने के लिए होमोमॉर्फिक एन्क्रिप्शन का उपयोग करें।
एकरूपता और पुनः पहचान जोखिम :
- एकरूपता मापें : गोपनीयता सुनिश्चित करने के लिए डेटासेट में पुनः पहचान के जोखिम को मात्रात्मक रूप से मापें।
- एकरूपता की निगरानी करें और उसे कम करें : डेटासेट की एकरूपता की निरंतर निगरानी करें और उसे कम करने के लिए रणनीतियों को क्रियान्वित करें।

अपने कार्यान्वयन पर समय के साथ प्रभाव को मापने का प्रयास करें

एक केंद्रीय शासन निकाय की स्थापना करें: एआई शासन के लिए जिम्मेदार एक समर्पित टीम बनाएं, जो GDPR, EU AI अधिनियम, NIST AI RMF और OECD AI सिद्धांतों के अनुपालन को सुनिश्चित करे।
एकीकृत नीतियां और प्रक्रियाएं विकसित करें: ऐसी नीतियां बनाएं जो डेटा संरक्षण, जोखिम प्रबंधन, पारदर्शिता और जवाबदेही पर ध्यान केंद्रित करते हुए सभी चार नियामक ढांचे के सिद्धांतों को एकीकृत करें।
अनुपालन के लिए प्रौद्योगिकी का लाभ उठाएं: अनुपालन और जोखिम प्रबंधन प्रयासों का समर्थन करने के लिए उन्नत प्रौद्योगिकियों, जैसे गोपनीयता बढ़ाने वाली प्रौद्योगिकियों (पीईटी) और एआई निगरानी उपकरणों का उपयोग करें।
एआई गवर्नेंस में विनियामक परिवर्तनों और प्रगति पर अपडेट रहें, यह सुनिश्चित करते हुए कि गवर्नेंस ढांचा नए विकास के साथ विकसित होता रहे। एक विनियामक क्षितिज रेखा बनाए रखें, लेकिन जब तक आप कर सकते हैं, इस समस्या के बारे में अलग ढंग से सोचना शुरू करें। उन सभी तरीकों पर विचार करें जिनसे हम वास्तव में जिम्मेदार कंप्यूटिंग कर सकते हैं।

यदि हम व्यक्तियों की पहचान करना चाहते हैं, तो हमें उन सतह क्षेत्रों को सुरक्षित बनाना होगा।

यदि हम व्यक्तियों की पहचान नहीं करना चाहते हैं, तो अपने सिस्टम के आउटपुट में पुनः पहचान के जोखिम की निगरानी करने का कोई तरीका लागू करें।

सार्वजनिक और उल्लंघन किए गए डेटासेट में एकता का निम्न स्तर हम सभी के लिए बहुत अच्छा होगा। यह एक डेटा स्वच्छता अभ्यास है जिसे आपकी टीम कर सकती है, जो गोपनीयता से प्रेरित प्रतिकूल द्वारा अभिसरण डेटा उपयोग के जोखिम के मात्रात्मक माप के साथ कर सकती है । हम निश्चित रूप से व्यक्तिगत डेटा को फिर से पहचाने जाने से बचाने के लिए मानक बढ़ा सकते हैं और हमें ऐसा करना चाहिए। हम ऐसा तभी शुरू कर सकते हैं जब हम इसे अपने डेटा में मापें। यदि आप गोपनीयता बढ़ाने वाली तकनीकों और कंप्यूट में विनियमन के बदलते ज्वार के बारे में गंभीर हैं, तो मुझे इसके बारे में एक दिलचस्प प्रश्न भेजें । यदि आपके सिस्टम प्रशिक्षण में आवश्यक रूप से उच्च जोखिम वाले डेटा से जुड़ते हैं, तो आपको इस बारे में भी चिंता हो सकती है एआई में अनलर्निंग , या उच्च प्रभाव एलएलएम के लिए सुरक्षा खतरे ।