paint-brush
क्या वेब स्क्रैपिंग चोरी है?द्वारा@mysteriumnetwork
3,037 रीडिंग
3,037 रीडिंग

क्या वेब स्क्रैपिंग चोरी है?

द्वारा Mysterium Network2022/06/20
Read on Terminal Reader
Read this story w/o Javascript

बहुत लंबा; पढ़ने के लिए

वेब स्क्रैपिंग एक विशिष्ट उद्देश्य के लिए वर्ल्ड वाइड वेब से डेटा माइनिंग है। सबसे सरल रूप में, यह अभिलेखीय उपयोग, वैज्ञानिक विश्लेषण या किसी अन्य उपयोग के लिए जानकारी के एक विशिष्ट सेट को स्थानीय डेटाबेस में कॉपी और पेस्ट कर रहा है। उच्च सामाजिक प्रभाव के साथ, वेब स्क्रैपिंग का उपयोग आकर्षक तरीकों से भी किया जा सकता है। लोग मूल्य तुलना साइट या छाया पुस्तकालय बनाते हैं जो पेवॉल को बायपास करते हैं। हाल ही में लिथुआनियाई कार्यकर्ताओं ने एक वेबसाइट बनाने के लिए नियमित रूसी नागरिकों के सार्वजनिक रूप से उपलब्ध फोन नंबर डेटा एकत्र किया है जो दुनिया भर के रूसी वक्ताओं को एक यादृच्छिक रूसी को कॉल करने की अनुमति देता है ताकि देश में जागरूकता बढ़ाने के प्रयास में युद्ध के बारे में बात की जा सके। युद्ध।

People Mentioned

Mention Thumbnail

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - क्या वेब स्क्रैपिंग चोरी है?
Mysterium Network HackerNoon profile picture


वेब स्क्रैपिंग की मूल बातें, विवाद और अवसर


हमें यकीन है कि आपने यह दावा सुना होगा कि "डेटा नया तेल है"।


डेटा माइनिंग उर्फ वेब स्क्रैपिंग क्या है?

वेब स्क्रैपिंग एक विशिष्ट उद्देश्य के लिए वर्ल्ड वाइड वेब से डेटा माइनिंग की प्रक्रिया है। सबसे सरल रूप में, यह अभिलेखीय उपयोग, वैज्ञानिक विश्लेषण, या किसी अन्य उपयोग के लिए जानकारी के एक विशिष्ट सेट को स्थानीय डेटाबेस में कॉपी और पेस्ट कर रहा है।


कुछ सबसे व्यापक रूप से उपयोग किए जाने वाले उदाहरणों में एग्रीगेटर वेबसाइटें शामिल हैं जो ऑनलाइन सामानों के लिए मूल्य तुलना प्रदान करती हैं।



जैसी साइट्स भी हैं archive.org जो सार्वजनिक रूप से उपलब्ध जानकारी को स्क्रैप करते हैं और मूल साइट को हटाए जाने के बाद भी इसे स्टोर करते हैं या शैडो लाइब्रेरी जो पेवॉल के पीछे किताबें या लेख बनाते हैं, सार्वजनिक रूप से मुफ्त में उपलब्ध हैं।

लेकिन उच्च सामाजिक प्रभाव के साथ वेब स्क्रैपिंग का उपयोग आकर्षक तरीकों से भी किया जा सकता है।

हाल ही में, लिथुआनियाई कार्यकर्ताओं के एक समूह ने एक वेबसाइट बनाई जो दुनिया भर के रूसी वक्ताओं को यूक्रेन में युद्ध के बारे में समाचारों तक सीमित पहुंच वाले रूस में रहने वाले लोगों को कॉल करने की अनुमति देती है।


फोन पर आमने-सामने बातचीत का उपयोग करके व्यक्तिगत मानवीय संबंध बनाने का विचार था, और लोगों को युद्ध के अत्याचारों के बारे में बताना था जो उनकी सरकार यूक्रेन में कर रही थी।


वेबसाइट, रूस को बुलाओ , वेब से सार्वजनिक रूप से उपलब्ध फ़ोन नंबर डेटा को स्क्रैप करके और उसका पुन: उपयोग करके संभव बनाया गया था।

यह कैसे काम करता है?

वेब पेजों में टेक्स्ट फॉर्म (एचटीएमएल या एक्सएचटीएमएल पर निर्मित) में बहुत सारी उपयोगी जानकारी शामिल होती है। आमतौर पर, एक बॉट जिसे वेब क्रॉलर कहा जाता है, एक साइट से डेटा "स्क्रैप्स" (एकत्रित) करता है।

वेब क्रॉलर को डेटा स्क्रैप करने से रोकने के लिए कुछ वेब पेजों में अंतर्निहित तंत्र होते हैं। जवाब में, कुछ वेब स्क्रैपिंग सिस्टम डीओएम पार्सिंग, कंप्यूटर दृष्टि, और यहां तक कि प्राकृतिक भाषा प्रसंस्करण जैसी तकनीकों का उपयोग करके मानव ब्राउज़िंग को अनुकरण करने के लिए विकसित हुए हैं।

यदि आप अधिक सीखने में रुचि रखते हैं तो यहां 5 मिनट का वीडियो है।


https://www.youtube.com/watch?v=CDXOcvUNBaA

स्क्रैपिंग का एक सुपर लघु इतिहास

पहली बार वेब क्रॉलर को वांडेक्स कहा जाता था, और इसे एमआईटी छात्र द्वारा प्रोग्राम किया गया था। क्रॉलर का मुख्य उद्देश्य इंटरनेट के आकार को मापना था और यह 1993 से 1995 तक संचालित होता था।


पांच साल बाद पहला एपीआई (एप्लीकेशन प्रोग्रामिंग इंटरफेस) क्रॉलर आया। आज ट्विटर जैसी कई प्रमुख वेबसाइटें लोगों को अपने सार्वजनिक डेटाबेस तक पहुंचने के लिए वेब एपीआई प्रदान करती हैं।




लेकिन हम पहली बार में डेटा को स्क्रैप या माइन क्यों करना चाहेंगे, और दूसरी पार्टी हमें ऐसा करने से रोकने की कोशिश क्यों करेगी?


वेब स्क्रैपिंग एप्लिकेशन वास्तव में सफल व्यावसायिक विचारों जैसे मूल्य तुलना टूल से लेकर कई अन्य उपयोग के मामलों, जैसे सामाजिक न्याय और नैतिक बड़े डेटा तक होते हैं।


वेब स्क्रैपिंग से हमें कुछ महत्वपूर्ण प्रश्नों का सामना करना पड़ता है। क्या सभी जानकारी सार्वजनिक होनी चाहिए - और सभी के लिए समान रूप से सुलभ होनी चाहिए? कॉपीराइट के मुद्दे के बारे में क्या?


व्यावसायिक पक्ष पर, मूल्य तुलना उपकरण बनाने से कुछ व्यवसाय ग्राहकों को प्रतिस्पर्धा में खो सकते हैं। कभी-कभी एयरलाइंस जैसे प्रमुख निगम इन आधारों पर कॉपीराइट उल्लंघन के लिए स्क्रैपर्स और डेटा माइनर पर मुकदमा करते हैं।

भले ही स्क्रैपर्स तकनीकी रूप से डेटा एकत्र कर रहे हैं और पहले से ही सार्वजनिक रूप से उपलब्ध डेटा प्रदर्शित कर रहे हैं, सूट कॉपीराइट उल्लंघन के लिए तर्क देते हैं। इस प्रकार के मुकदमों के लिए कोई मानक परिणाम नहीं है। यह आमतौर पर कई कारकों पर निर्भर करता है जैसे एकत्र की गई जानकारी की सीमा या हुए नुकसान।

वेब स्क्रैपिंग लीगल है या नहीं?

वेब स्क्रैपिंग की वैधता अभी भी पूरी तरह से समाप्त नहीं हुई है। किसी विशिष्ट साइट पर उपयोग की शर्तें इसे "प्रतिबंधित" कर सकती हैं, लेकिन यह सभी मामलों में कानून द्वारा बिल्कुल लागू नहीं है। डेटा के खनन को गैरकानूनी होने के लिए, इसे पहले से मौजूद कानून के खिलाफ जाना होगा।

अमेरिका में, यह आमतौर पर कॉपीराइट उल्लंघन के आधार पर हो सकता है। अन्य उदाहरणों में डेनमार्क शामिल है, जहां अदालतों ने डेनिश कानून के अनुसार वेब स्क्रैपिंग या क्रॉलिंग को कानूनी पाया।

फ्रांस में, फ्रांसीसी डेटा संरक्षण प्राधिकरण ने फैसला सुनाया कि सार्वजनिक रूप से उपलब्ध होने पर भी, व्यक्तिगत डेटा अभी भी एकत्र नहीं किया जा सकता है और/या उस व्यक्ति के ज्ञान के बिना पुनर्व्यवस्थित किया जा सकता है जिससे वह संबंधित है।


सूचना की स्वतंत्रता


जब गैर-लाभकारी संगठनों और ओपन एक्सेस अधिवक्ताओं की बात आती है, तो चीजें और भी दिलचस्प हो जाती हैं।


इंटरनेट आर्काइव (archive.org) एक प्रसिद्ध वेब स्क्रैपिंग प्रोजेक्ट है। यह एक गैर-लाभकारी संगठन है जो शोधकर्ताओं, छात्रों और रुचि लेने वाले किसी भी व्यक्ति के लिए वेब पेज, डिजिटल संग्रह, किताबें, पीडीएफ, और वीडियो संग्रह (कभी-कभी हटा दिया जाता है)।


वे कभी-कभी कानूनी ग्रे क्षेत्रों में फंस जाते हैं, जब व्यक्ति या सरकारें कुछ विशिष्ट सामग्री को हटाने के लिए कानूनी कार्रवाई करती हैं।

जब सूचना तक सार्वभौमिक खुली पहुंच की वकालत करने से आप मुश्किल में पड़ जाते हैं

कई वेब स्क्रैपिंग परियोजनाएं हैं जो PACER परियोजना जैसी सूचनाओं के लिए सार्वभौमिक खुली पहुंच की वकालत करती हैं।

एनवाईटी लेख का लिंक


PACER उस वेबसाइट का नाम है जिसमें अमेरिकी अदालतों के कानूनी दस्तावेज हैं। इसका मतलब पब्लिक एक्सेस टू कोर्ट इलेक्ट्रॉनिक रिकॉर्ड्स है लेकिन कुछ चुनिंदा पब्लिक लाइब्रेरी को छोड़कर यह एक्सेस फ्री नहीं है।

स्वर्गीय हारून स्वार्ट्ज, एक ओपन-एक्सेस एडवोकेट और शुरुआती इंटरनेट कौतुक, लाखों PACER को डाउनलोड करने के लिए वेब स्क्रैपिंग प्रोग्राम का उपयोग किया इन सार्वजनिक पुस्तकालयों में से एक से दस्तावेज और अमेरिकी सरकार और एफबीआई के साथ बहुत परेशानी हुई।


वेब स्क्रैपिंग को गैरकानूनी घोषित करने के लिए निगमों और सरकारों को प्रोत्साहित किया जा सकता है। हालाँकि, यह एक महत्वपूर्ण उपकरण है जिसका उपयोग पत्रकार और शोधकर्ता अन्याय को उजागर करने के लिए करते हैं।


वेब स्क्रैपिंग का उपयोग करने वाली पत्रकारिता जांच की एक सूची

डेटा एकत्र करना और विश्लेषण करना सभी प्रकार के शोध और अकादमिक अध्ययन के लिए अविश्वसनीय रूप से सहायक हो सकता है, जिससे डेटा विज्ञान में एक नया आंदोलन हो सकता है। पत्रकार भी अब हमारे समाजों और समुदायों के बारे में नई चीजों को प्रकट करने के लिए सावधानीपूर्वक डेटा विश्लेषण पर भरोसा करते हैं।


__ प्रकट करें __ ने अमेरिकी पुलिस का खुलासा करने वाली एक परियोजना को अंजाम दिया जो फेसबुक पर चरमपंथी समूहों के सदस्य थे और नस्लवादी, ज़ेनोफोबिक और इस्लामोफोबिक सामग्री के साथ संलग्न थे।

यह इन चरमपंथी समूहों और फेसबुक पर पुलिस अधिकारियों के समूहों से डेटा को स्क्रैप करके और अतिव्यापी सदस्यों को खोजने के लिए क्रॉस-रेफ़रिंग द्वारा किया गया था - और कई थे।



रॉयटर्स ने उजागर करने के लिए समान डेटा विश्लेषण तकनीकों का इस्तेमाल किया एक चौंकाने वाली कहानी उन साइटों के बारे में जहां अमेरिकी उन बच्चों का "विज्ञापन" करते हैं जिन्हें उन्होंने विदेश से गोद लिया था, उन्हें अजनबियों को देने के उद्देश्य से जब वे उनसे निपटना नहीं चाहते हैं।


स्क्रेपर्स का उपयोग करते हुए, द वर्ज एंड द ट्रेस ने एक जांच की जिसमें खुलासा हुआ लाइसेंस के बिना ऑनलाइन बंदूक की बिक्री या पृष्ठभूमि की जाँच।


यूएसए टुडे ने पाया कि 2010 और 2018 के बीच राष्ट्रव्यापी राज्य के घरों में पेश किए गए 10,000 से अधिक बिल लगभग थे विशेष हितों द्वारा लिखे गए बिलों से पूरी तरह से कॉपी किया गया . यह जांच वेब स्क्रैपिंग से संभव हुई है।


अटलांटिक चलता है a COVID ट्रैकिंग प्रोजेक्ट जो न केवल दैनिक आधार पर कोविड पर वैश्विक डेटा एकत्र करता है, बल्कि महामारी की नस्लीय असमानताओं को भी दर्शाता है।


वेब स्क्रैपिंग का उपयोग वाणिज्यिक और सामाजिक न्याय दोनों उद्देश्यों के लिए कैसे किया जा सकता है, इसके कुछ उदाहरण हैं। वहाँ कई अन्य उपयोग के मामले हैं और कई और एहसास होने की प्रतीक्षा कर रहे हैं।


व्यापक डेटा विश्लेषण और खुला डेटा विज्ञान कई नई सच्चाइयों को अनलॉक कर सकता है, लेकिन क्या हम उस तरह के डेटा के साथ लाइन पार कर रहे हैं जो हम एकत्र करते हैं, और हम इसे एकत्र करने के तरीकों का उपयोग करते हैं?



डेटा संग्रह के आसपास नैतिकता और विचारधारा क्या हैं?


हम खुली पहुंच के साथ गोपनीयता को कैसे संतुलित करते हैं?


हालांकि यह महत्वपूर्ण है कि हम जनता के लिए प्रासंगिक दस्तावेजों तक खुली पहुंच के बारे में बातचीत जारी रखें, हमें गोपनीयता के मुद्दों पर भी विचार करना होगा।


आज कई लोग और संगठन इस बात से सहमत हैं कि किसी की सहमति के बिना उसका व्यक्तिगत डेटा एकत्र करना और उसका उपयोग करना अनैतिक है।


हालांकि, कुछ देशों में सेंसर किए गए समाचार लेखों जैसे सार्वजनिक डेटा के बारे में क्या? या स्वास्थ्य संबंधी आँकड़े और डेटा जिनका उपयोग सार्वजनिक स्वास्थ्य नीति के सुझावों के लिए किया जा सकता है?

अमेरिका में, __ नीति निर्माताओं ने अतिरिक्त देखभाल प्रदान करने के लिए एक निवारक कार्यक्रम के लिए उच्च जोखिम वाले रोगियों की पहचान करने के लिए एक एल्गोरिदम __ का उपयोग किया ताकि ये रोगी ईआर में समाप्त न हों।

https://www.youtube.com/watch?v=Ok5sKLXqynQ


बाद में शोधकर्ताओं ने पाया कि काले लोग गोरे लोगों की तुलना में अधिक बीमार थे, हालांकि एक ही श्रेणी में थे। दूसरे शब्दों में, उच्च गुणवत्ता वाले बीमा तक पहुंच की कमी सहित कई कारणों से एक ही बीमारी वाले श्वेत रोगियों की तुलना में अश्वेत रोगियों को कम खर्च करना पड़ता है।


एक अन्य उदाहरण में, अमेज़ॅन जैसी कंपनियों द्वारा उपयोग किए जाने वाले __ स्वचालित हायरिंग टूल __ महिलाओं के ऊपर पुरुषों और रंग के लोगों पर गोरे लोगों का पक्ष लेते पाए गए।

जब टूल्स ने वेब पर खोज की, तो उन्होंने निर्धारित किया कि कार्यकारी पदों को ज्यादातर गोरे लोगों द्वारा भरा गया था, इसलिए मशीनों को पता चला कि यह एक उम्मीदवार में देखने के लिए गुणवत्ता का प्रकार था।


जनता की भलाई के लिए सार्वजनिक डेटा को स्क्रैप करने से हमेशा समाज के लिए सकारात्मक परिणाम नहीं आते हैं। ऑटोमेशन और मशीन लर्निंग के लिए सोच-समझकर हस्तक्षेप की जरूरत है। नई तकनीकी और सामाजिक प्रणालियों के निर्माता के रूप में, हमें यह सुनिश्चित करने की आवश्यकता है कि हमारे सभी डेटा विश्लेषण उपकरण नैतिक रूप से डिज़ाइन किए गए हैं और अन्याय और भेदभाव की हमारी ऐतिहासिक प्रणाली को जारी नहीं रखते हैं।



स्क्रैपिंग उस कार्य के लिए अत्यधिक प्रासंगिक है जो हम मिस्टीरियम में करते हैं। हम एक सुलभ वेब बनाने की परवाह करते हैं जहां सूचना की स्वतंत्रता और खुला डेटा विज्ञान नए वेब के मूलभूत स्तंभ बन जाते हैं।

हम वेब3 बनाने के लिए डेवलपर्स के साथ सहयोग कर रहे हैं। जिस तरह से मिस्टीरियम वेब 3 स्पेस में बिल्डरों को उद्देश्य-संचालित परियोजनाओं के लिए सशक्त बनाता है, उसके बारे में अधिक जानने के लिए हमारी साइट देखें।