paint-brush
सार्वजनिक रूप से उपलब्ध गैर-पीआईआई के आधार पर लिंक्डइन पर नैनोटार्गेटिंग का विश्लेषण और कार्यान्वयनद्वारा@netizenship
161 रीडिंग

सार्वजनिक रूप से उपलब्ध गैर-पीआईआई के आधार पर लिंक्डइन पर नैनोटार्गेटिंग का विश्लेषण और कार्यान्वयन

द्वारा Netizenship Meaning in Online Communities7m2024/05/30
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

यह शोधपत्र लिंक्डइन पर नैनोटार्गेटिंग के गोपनीयता जोखिमों की पड़ताल करता है, यह दर्शाता है कि सार्वजनिक रूप से उपलब्ध डेटा से स्थान और पेशेवर कौशल को मिलाकर उपयोगकर्ताओं की विशिष्ट पहचान की जा सकती है और उन्हें हाइपर-वैयक्तिकृत विज्ञापनों के संपर्क में लाया जा सकता है, जो सोशल मीडिया प्लेटफॉर्म पर डेटा गोपनीयता और सुरक्षा के बारे में चिंताओं को उजागर करता है।
featured image - सार्वजनिक रूप से उपलब्ध गैर-पीआईआई के आधार पर लिंक्डइन पर नैनोटार्गेटिंग का विश्लेषण और कार्यान्वयन
Netizenship Meaning in Online Communities HackerNoon profile picture
0-item

लेखक:

(1) एंजेल मेरिनो, टेलीमैटिक इंजीनियरिंग विभाग यूनिवर्सिडाड कार्लोस III डी मैड्रिड {[email protected]};

(2) जोस गोंजालेज-कैबानास, यूसी3एम-सैंटेंडर बिग डेटा इंस्टीट्यूट {[email protected]}

(3) एंजेल क्यूवास, टेलीमैटिक इंजीनियरिंग विभाग यूनिवर्सिडाड कार्लोस III डी मैड्रिड और यूसी3एम-सैंटेंडर बिग डेटा इंस्टीट्यूट {[email protected]};

(4) रुबेन क्यूवास, टेलीमैटिक इंजीनियरिंग विभाग यूनिवर्सिडाड कार्लोस III डी मैड्रिड और यूसी3एम-सैंटेंडर बिग डेटा इंस्टीट्यूट {[email protected]}।

लिंक की तालिका

सार और परिचय

लिंक्डइन विज्ञापन प्लेटफ़ॉर्म पृष्ठभूमि

डेटासेट

क्रियाविधि

लिंक्डइन पर उपयोगकर्ता की विशिष्टता

नैनोटार्गेटिंग अवधारणा का प्रमाण

बहस

संबंधित कार्य

नैतिकता और कानूनी विचार

निष्कर्ष, आभार और संदर्भ

अनुबंध

अमूर्त

साहित्य के एक समूह ने कई बार दिखाया है कि कुछ गैर-व्यक्तिगत पहचान योग्य जानकारी (गैर-PII) आइटमों का संयोजन लाखों या करोड़ों उपयोगकर्ताओं वाले डेटासेट में किसी उपयोगकर्ता को अद्वितीय बनाने के लिए पर्याप्त है। यह कार्य अनुसंधान के इस क्षेत्र का विस्तार करता है, यह दर्शाता है कि कुछ गैर-PII सार्वजनिक रूप से उपलब्ध विशेषताओं के संयोजन को किसी उपयोगकर्ता को हाइपर-वैयक्तिकृत संदेशों के साथ व्यक्तिगत रूप से लक्षित करने के लिए किसी तृतीय पक्ष द्वारा सक्रिय किया जा सकता है। यह पत्र सबसे पहले एक कार्यप्रणाली को लागू करता है जो दर्शाता है कि किसी उपयोगकर्ता द्वारा अपने LinkedIn प्रोफ़ाइल में बताए गए स्थान और 6 दुर्लभ (या 14 यादृच्छिक) व्यावसायिक कौशल का संयोजन 75% की संभावना के साथ ∼800M उपयोगकर्ताओं द्वारा बनाए गए उपयोगकर्ता आधार में अद्वितीय बनने के लिए पर्याप्त है। साहित्य में पिछले कार्यों की तुलना में इस मामले में एक नई विशेषता यह है कि LinkedIn प्रोफ़ाइल में बताए गए स्थान और कौशल प्लेटफ़ॉर्म में पंजीकृत किसी भी अन्य उपयोगकर्ता या कंपनी के लिए सार्वजनिक रूप से सुलभ हैं और इसके अलावा, विज्ञापन अभियानों के माध्यम से सक्रिय किए जा सकते हैं। हमने पेपर के तीन लेखकों को लक्षित करते हुए एक अवधारणा प्रयोग का प्रमाण चलाया। हमने प्रदर्शित किया कि लेखकों के लिंक्डइन प्रोफाइल से प्राप्त स्थान और ≥13 यादृच्छिक व्यावसायिक कौशल के साथ कॉन्फ़िगर किए गए सभी विज्ञापन अभियान सफलतापूर्वक लक्षित उपयोगकर्ता को विशेष रूप से विज्ञापन वितरित करते हैं। इस अभ्यास को नैनोटार्गेटिंग के रूप में संदर्भित किया जाता है और यह लिंक्डइन उपयोगकर्ताओं को संभावित गोपनीयता और सुरक्षा जोखिमों जैसे कि मालविज्ञापन या हेरफेर के लिए उजागर कर सकता है।


कीवर्ड लिंक्डइन · ऑनलाइन विज्ञापन · उपयोगकर्ता गोपनीयता · नैनोटार्गेटिंग

1 परिचय

तीसरे पक्ष की बिना सहमति के बड़े पैमाने पर उपयोगकर्ताओं को विशिष्ट रूप से पहचानने की क्षमता इस बात का एक अच्छा थर्मामीटर है कि नागरिकों की गोपनीयता कितनी नाजुक है। उपयोगकर्ता की पहचान करने का एक स्पष्ट तरीका व्यक्तिगत पहचान योग्य जानकारी (PII) जैसे ईमेल, फोन नंबर, डाक पता आदि है। PII के बड़े गैरकानूनी डेटाबेस बनाना उपयोगकर्ताओं के लिए गोपनीयता जोखिम का प्रतिनिधित्व कर सकता है। यही कारण है कि लगातार जागरूकता अभियान उपयोगकर्ताओं को अज्ञात स्रोतों से आने वाले ईमेल, एसएमएस, व्हाट्सएप संदेश आदि से सावधान रहने का निर्देश देते हैं। वास्तव में, GDPR [1] जैसे वर्तमान डेटा सुरक्षा नियम स्पष्ट रूप से बताते हैं कि PII व्यक्तिगत डेटा है और इसे संसाधित करने के लिए (ज्यादातर मामलों में) उपयोगकर्ता की सहमति की आवश्यकता होती है। विशिष्ट रूप से पहचानने और संभावित रूप से उपयोगकर्ता को लक्षित करने का एक अधिक सूक्ष्म दृष्टिकोण कई गैर-PII आइटमों को जोड़ना है जिन्हें अलगाव में व्यक्तिगत डेटा नहीं माना जाता है।


शोध साहित्य ने बार-बार साबित किया है कि बड़े डेटासेट में किसी उपयोगकर्ता की पहचान करने के लिए कुछ गैर-पीआईआई आइटम पर्याप्त हैं। उदाहरण के लिए, 1.5 मिलियन उपयोगकर्ताओं के डेटासेट में केवल 4 मोबाइल फ़ोन कॉल रिकॉर्ड किसी उपयोगकर्ता की पहचान कर सकते हैं [2]। इसी तरह, 1.1 मिलियन उपयोगकर्ताओं के उपयोगकर्ता आधार में, किसी व्यक्ति को अलग करने के लिए केवल 4 क्रेडिट कार्ड खरीद रिकॉर्ड की आवश्यकता होती है [3]।


इसी तरह, 8 मूवी रेटिंग और अनुमानित समीक्षा तिथियां 480k नेटफ्लिक्स उपयोगकर्ताओं में से किसी एक उपयोगकर्ता को अलग कर सकती हैं [4]। लिंग, ज़िप कोड और जन्म तिथि को मिलाकर 1990 और 2000 की अमेरिकी जनगणना में क्रमशः 87% और 63% नागरिकों की पहचान का पता लगाया जा सकता है [5][6]। साथ ही, 15 जनसांख्यिकीय विशेषताएँ किसी भी डेटासेट में 99.98% अमेरिकियों की फिर से पहचान कर सकती हैं [7]।


ये अध्ययन मानवीय गोपनीयता की नाजुकता का आकलन करने में एक अमूल्य योगदान का प्रतिनिधित्व करते हैं। हालाँकि, वे सभी कार्य सैद्धांतिक बने हुए हैं और इस बात पर चर्चा नहीं करते हैं कि गैर-PII डेटा आइटम उपयोगकर्ताओं की सुरक्षा और/या गोपनीयता से समझौता करने वाले विशिष्ट हमलों में कैसे सक्रिय हो सकते हैं। हमारा मानना है कि अनुसंधान के इस क्षेत्र को पूरा करने के लिए स्वाभाविक कदम यह है कि ऐसे तरीके और प्रयोग विकसित किए जाएँ जो यह प्रदर्शित करें कि गैर-PII आइटम के संयोजन को तीसरे पक्ष द्वारा उपयोगकर्ताओं को व्यक्तिगत रूप से लक्षित करने और (संभावित रूप से) उनकी सुरक्षा और/या गोपनीयता से समझौता करने के लिए व्यवहार में सक्रिय किया जा सकता है।


लेखकों के सर्वोत्तम ज्ञान के अनुसार, क्षेत्र में एकमात्र पूर्व अध्ययन जो व्यावहारिक रूप से दिखाता है कि गैर-पीआईआई वस्तुओं के संयोजन को एक विज्ञापन के साथ विशेष रूप से एकल उपयोगकर्ता तक पहुंचने के लिए सक्रिय किया जा सकता है, वह है [8]। यह कार्य एक अवधारणा प्रयोग का प्रमाण देता है, जिसमें दिखाया गया है कि एक हमलावर एक उपयोगकर्ता से ∼20 यादृच्छिक विज्ञापन वरीयताओं का अनावरण करने में सक्षम है, उन्हें एक नैनो लक्ष्यीकरण विज्ञापन अभियान के साथ लक्षित कर सकता है, अर्थात, विज्ञापन लक्षित उपयोगकर्ता तक विशेष रूप से पहुंचता है। यह पहला ठोस सबूत है कि गैर-पीआईआई जानकारी का फायदा उठाकर व्यक्तिगत उपयोगकर्ताओं को बिना स्पष्ट सहमति के उन तरीकों से विशिष्ट रूप से पहुँचा जा सकता है। हालांकि, बड़े पैमाने पर रिपोर्ट की गई तकनीक के व्यावहारिक उपयोग में एक महत्वपूर्ण सीमा है। इसके लिए हमलावर को उपयोगकर्ताओं की विज्ञापन प्राथमिकताओं तक पहुंच की आवश्यकता होती है, जो एक जटिल कार्य है क्योंकि वे सार्वजनिक रूप से उपलब्ध नहीं हैं हालाँकि संदर्भित कार्य एक बहुत ही महत्वपूर्ण शोध योगदान है, लेकिन हमारा मानना है कि यह महत्वपूर्ण है कि शोध समुदाय आगे के अध्ययनों में योगदान दे, जिससे पता चले कि उपयोगकर्ताओं द्वारा सक्रिय रूप से प्रकट किए गए सार्वजनिक रूप से उपलब्ध गैर-पीआईआई आइटम के अधीन हाइपर-पर्सनलाइज्ड हमलों को लागू करना संभव है। ऐसे अध्ययन यह साबित करेंगे कि गैर-पीआईआई आइटम, जिन्हें अक्सर व्यक्तिगत डेटा नहीं माना जाता है, उनमें उपयोगकर्ताओं के लिए गंभीर गोपनीयता और/या सुरक्षा जोखिम शामिल हो सकते हैं।


हमारा काम दिखाता है कि कुछ गैर-PII सार्वजनिक रूप से उपलब्ध डेटा आइटम को मिलाकर हाइपर-पर्सनलाइज़्ड संदेशों के ज़रिए करोड़ों उपयोगकर्ताओं को व्यक्तिगत रूप से लक्षित किया जा सकता है। इस उद्देश्य से, इस शोध में, हमने खुद पर तीन ज़रूरतें लगाईं: (i) उपयोगकर्ता आधार में दुनिया भर में फैले दसियों या सैकड़ों मिलियन उपयोगकर्ता शामिल होने चाहिए; (ii) किसी व्यक्तिगत उपयोगकर्ता को लक्षित करने के लिए आवश्यक गैर-PII डेटा आइटम सार्वजनिक रूप से उपलब्ध होने चाहिए, और (iii) गैर-PII आइटम बाहरी तृतीय-पक्षों द्वारा हाइपर-पर्सनलाइज़्ड संदेशों के साथ उपयोगकर्ताओं तक व्यक्तिगत रूप से पहुँचने के लिए सक्रिय किए जा सकते हैं। हमारे सर्वोत्तम ज्ञान के अनुसार, साहित्य में पिछले कोई भी कार्य इन तीन आवश्यकताओं को एक साथ पूरा नहीं करता है।


हमारा शोधपत्र यह साबित करता है कि किसी व्यक्तिगत उपयोगकर्ता को लिंक्डइन पर स्थान (देश, क्षेत्र या शहर) और उनकी प्रोफ़ाइल में उपलब्ध व्यावसायिक कौशल के संयोजन का उपयोग करके विज्ञापन के साथ नैनोटारगेट किया जा सकता है। यह निम्नलिखित तीन पिछली आवश्यकताओं को पूरा करता है: (i) लिंक्डइन के लगभग 800 मिलियन उपयोगकर्ता हैं, यानी, दुनिया भर की आबादी का लगभग 10% उपलब्ध है, (ii) इसके उपयोगकर्ताओं का स्थान और व्यावसायिक कौशल लिंक्डइन पर लॉग इन करने वाले किसी भी व्यक्ति के लिए सार्वजनिक रूप से उपलब्ध गैर-PII आइटम हैं। इसलिए, कोई भी व्यक्ति आसानी से आवश्यक जानकारी प्राप्त कर सकता है जो लिंक्डइन पर किसी उपयोगकर्ता को विशिष्ट रूप से पहचानती है, और (iii) उपयोगकर्ताओं को हाइपर-वैयक्तिकृत विज्ञापन देने के लिए लिंक्डइन विज्ञापन प्रबंधक के माध्यम से व्यावसायिक कौशल और स्थान के संयोजन को सक्रिय किया जा सकता है। व्यवहार में, इसका मतलब है कि किसी उपयोगकर्ता को नैनोटारगेट करने के लिए बस एक लिंक्डइन खाता होना चाहिए, लक्षित उपयोगकर्ता प्रोफ़ाइल से स्थान और व्यावसायिक कौशल प्राप्त करना और उस जानकारी का उपयोग करके एक विज्ञापन अभियान कॉन्फ़िगर करना होगा। यह एक बहुत ही सरल ऑपरेशन है जो कई तृतीय पक्षों को लिंक्डइन पर गैर-PII आइटम का शोषण करके नैनोटारगेटिंग अभियान/हमले चलाने में सक्षम बना सकता है।


हमने अपने काम को दो भागों में विभाजित किया है। पेपर के पहले भाग में, हम 1699 उपयोगकर्ताओं से एकत्रित 39k कौशलों की जानकारी सहित एक डेटासेट का उपयोग करते हैं, और हम एक डेटा-संचालित मॉडल विकसित करते हैं जो लिंक्डइन पर उपयोगकर्ता की विशिष्टता की संभावना को उनके प्रोफ़ाइल में सार्वजनिक रूप से उपलब्ध स्थान और N पेशेवर कौशल को मिलाकर परिभाषित करता है। पेपर के दूसरे भाग में, हम इस पेपर के तीन लेखकों को लक्षित करते हुए अवधारणा प्रयोग के प्रमाण को लागू करने के लिए मॉडल के परिणाम का उपयोग करते हैं, यह प्रदर्शित करते हुए कि लिंक्डइन पर नैनोटार्गेटिंग अभियान चलाना व्यवहार्य है।


लिंक्डइन अपने विज्ञापन दिशा-निर्देशों में दावा करता है कि अभियान शुरू करने के लिए लक्षित सदस्यों की न्यूनतम संख्या 300 है, लेकिन इस सीमा को आसानी से दरकिनार किया जा सकता है, जिसे हम कार्यान्वयन बग मानते हैं। हमने लिंक्डइन को उनके अनुशंसित प्रक्रिया का पालन करते हुए हमारे शोध द्वारा उजागर की गई गोपनीयता भेद्यता की सूचना दी। दुर्भाग्य से, जिन प्लेटफ़ॉर्म प्रबंधकों को हमारी रिपोर्ट मिली, उन्होंने हमारे शोध परिणामों को भेद्यता का प्रतिनिधित्व करने वाला नहीं माना।


इस कार्य से कई महत्वपूर्ण निष्कर्ष सामने आए हैं:


• उपयोगकर्ताओं के स्थान को उनके रिपोर्ट किए गए कौशल सेट से 14 (23) यादृच्छिक रूप से चयनित कौशल के साथ संयोजित करने से उन्हें लिंक्डइन पर 75% (90%) संभावना के साथ अद्वितीय बनाया जाता है। यदि हम इसके बजाय सबसे कम लोकप्रिय कौशल का उपयोग करते हैं, तो हमें विशिष्टता के समान स्तर को प्राप्त करने के लिए केवल 6 (8) कौशल की आवश्यकता होती है।


• हमारी अवधारणा प्रमाण प्रयोग से पता चलता है कि स्थान और ≥13 यादृच्छिक कौशल का उपयोग करने वाले सभी अभियानों ने तीन लक्षित लेखकों को सफलतापूर्वक नैनो-लक्ष्यित किया।


• हमारी जानकारी के अनुसार, यह पहला अध्ययन है जो इस बात का प्रमाण देता है कि सार्वजनिक रूप से उपलब्ध गैर-पीआईआई डेटा का उपयोग बड़े पैमाने पर विशिष्ट नागरिकों को प्रभावी ढंग से लक्षित करने के लिए किया जा सकता है।


चित्र 1: हमारे डेटा नमूने में प्रति उपयोगकर्ता प्रोफ़ाइल कौशल की संख्या का CDF.


चित्र 2: हमारे डेटासेट में 4941 अद्वितीय व्यावसायिक कौशल से जुड़े विश्वव्यापी दर्शक आकार का सीडीएफ।


चित्र 3: व्यावसायिक कौशल की संख्या के अनुसार हमारी कार्यप्रणाली में प्रयुक्त सदिशों की लंबाई N=1 से N=50 कौशल तक है।