हमें यकीन है कि आपने यह दावा सुना होगा कि "डेटा नया तेल है"।
वेब स्क्रैपिंग एक विशिष्ट उद्देश्य के लिए वर्ल्ड वाइड वेब से डेटा माइनिंग की प्रक्रिया है। सबसे सरल रूप में, यह अभिलेखीय उपयोग, वैज्ञानिक विश्लेषण, या किसी अन्य उपयोग के लिए जानकारी के एक विशिष्ट सेट को स्थानीय डेटाबेस में कॉपी और पेस्ट कर रहा है।
कुछ सबसे व्यापक रूप से उपयोग किए जाने वाले उदाहरणों में एग्रीगेटर वेबसाइटें शामिल हैं जो ऑनलाइन सामानों के लिए मूल्य तुलना प्रदान करती हैं।
जैसी साइट्स भी हैं
लेकिन उच्च सामाजिक प्रभाव के साथ वेब स्क्रैपिंग का उपयोग आकर्षक तरीकों से भी किया जा सकता है।
हाल ही में, लिथुआनियाई कार्यकर्ताओं के एक समूह ने एक वेबसाइट बनाई जो दुनिया भर के रूसी वक्ताओं को यूक्रेन में युद्ध के बारे में समाचारों तक सीमित पहुंच वाले रूस में रहने वाले लोगों को कॉल करने की अनुमति देती है।
फोन पर आमने-सामने बातचीत का उपयोग करके व्यक्तिगत मानवीय संबंध बनाने का विचार था, और लोगों को युद्ध के अत्याचारों के बारे में बताना था जो उनकी सरकार यूक्रेन में कर रही थी।
वेबसाइट,
वेब पेजों में टेक्स्ट फॉर्म (एचटीएमएल या एक्सएचटीएमएल पर निर्मित) में बहुत सारी उपयोगी जानकारी शामिल होती है। आमतौर पर, एक बॉट जिसे वेब क्रॉलर कहा जाता है, एक साइट से डेटा "स्क्रैप्स" (एकत्रित) करता है।
वेब क्रॉलर को डेटा स्क्रैप करने से रोकने के लिए कुछ वेब पेजों में अंतर्निहित तंत्र होते हैं। जवाब में, कुछ वेब स्क्रैपिंग सिस्टम डीओएम पार्सिंग, कंप्यूटर दृष्टि, और यहां तक कि प्राकृतिक भाषा प्रसंस्करण जैसी तकनीकों का उपयोग करके मानव ब्राउज़िंग को अनुकरण करने के लिए विकसित हुए हैं।
यदि आप अधिक सीखने में रुचि रखते हैं तो यहां 5 मिनट का वीडियो है।
https://www.youtube.com/watch?v=CDXOcvUNBaA
पहली बार वेब क्रॉलर को वांडेक्स कहा जाता था, और इसे एमआईटी छात्र द्वारा प्रोग्राम किया गया था। क्रॉलर का मुख्य उद्देश्य इंटरनेट के आकार को मापना था और यह 1993 से 1995 तक संचालित होता था।
पांच साल बाद पहला एपीआई (एप्लीकेशन प्रोग्रामिंग इंटरफेस) क्रॉलर आया। आज ट्विटर जैसी कई प्रमुख वेबसाइटें लोगों को अपने सार्वजनिक डेटाबेस तक पहुंचने के लिए वेब एपीआई प्रदान करती हैं।
लेकिन हम पहली बार में डेटा को स्क्रैप या माइन क्यों करना चाहेंगे, और दूसरी पार्टी हमें ऐसा करने से रोकने की कोशिश क्यों करेगी?
वेब स्क्रैपिंग एप्लिकेशन वास्तव में सफल व्यावसायिक विचारों जैसे मूल्य तुलना टूल से लेकर कई अन्य उपयोग के मामलों, जैसे सामाजिक न्याय और नैतिक बड़े डेटा तक होते हैं।
वेब स्क्रैपिंग से हमें कुछ महत्वपूर्ण प्रश्नों का सामना करना पड़ता है। क्या सभी जानकारी सार्वजनिक होनी चाहिए - और सभी के लिए समान रूप से सुलभ होनी चाहिए? कॉपीराइट के मुद्दे के बारे में क्या?
व्यावसायिक पक्ष पर, मूल्य तुलना उपकरण बनाने से कुछ व्यवसाय ग्राहकों को प्रतिस्पर्धा में खो सकते हैं। कभी-कभी एयरलाइंस जैसे प्रमुख निगम इन आधारों पर कॉपीराइट उल्लंघन के लिए स्क्रैपर्स और डेटा माइनर पर मुकदमा करते हैं।
भले ही स्क्रैपर्स तकनीकी रूप से डेटा एकत्र कर रहे हैं और पहले से ही सार्वजनिक रूप से उपलब्ध डेटा प्रदर्शित कर रहे हैं, सूट कॉपीराइट उल्लंघन के लिए तर्क देते हैं। इस प्रकार के मुकदमों के लिए कोई मानक परिणाम नहीं है। यह आमतौर पर कई कारकों पर निर्भर करता है जैसे एकत्र की गई जानकारी की सीमा या हुए नुकसान।
वेब स्क्रैपिंग की वैधता अभी भी पूरी तरह से समाप्त नहीं हुई है। किसी विशिष्ट साइट पर उपयोग की शर्तें इसे "प्रतिबंधित" कर सकती हैं, लेकिन यह सभी मामलों में कानून द्वारा बिल्कुल लागू नहीं है। डेटा के खनन को गैरकानूनी होने के लिए, इसे पहले से मौजूद कानून के खिलाफ जाना होगा।
अमेरिका में, यह आमतौर पर कॉपीराइट उल्लंघन के आधार पर हो सकता है। अन्य उदाहरणों में डेनमार्क शामिल है, जहां अदालतों ने डेनिश कानून के अनुसार वेब स्क्रैपिंग या क्रॉलिंग को कानूनी पाया।
फ्रांस में, फ्रांसीसी डेटा संरक्षण प्राधिकरण ने फैसला सुनाया कि सार्वजनिक रूप से उपलब्ध होने पर भी, व्यक्तिगत डेटा अभी भी एकत्र नहीं किया जा सकता है और/या उस व्यक्ति के ज्ञान के बिना पुनर्व्यवस्थित किया जा सकता है जिससे वह संबंधित है।
जब गैर-लाभकारी संगठनों और ओपन एक्सेस अधिवक्ताओं की बात आती है, तो चीजें और भी दिलचस्प हो जाती हैं।
इंटरनेट आर्काइव (archive.org) एक प्रसिद्ध वेब स्क्रैपिंग प्रोजेक्ट है। यह एक गैर-लाभकारी संगठन है जो शोधकर्ताओं, छात्रों और रुचि लेने वाले किसी भी व्यक्ति के लिए वेब पेज, डिजिटल संग्रह, किताबें, पीडीएफ, और वीडियो संग्रह (कभी-कभी हटा दिया जाता है)।
वे कभी-कभी कानूनी ग्रे क्षेत्रों में फंस जाते हैं, जब व्यक्ति या सरकारें कुछ विशिष्ट सामग्री को हटाने के लिए कानूनी कार्रवाई करती हैं।
कई वेब स्क्रैपिंग परियोजनाएं हैं जो PACER परियोजना जैसी सूचनाओं के लिए सार्वभौमिक खुली पहुंच की वकालत करती हैं।
PACER उस वेबसाइट का नाम है जिसमें अमेरिकी अदालतों के कानूनी दस्तावेज हैं। इसका मतलब पब्लिक एक्सेस टू कोर्ट इलेक्ट्रॉनिक रिकॉर्ड्स है लेकिन कुछ चुनिंदा पब्लिक लाइब्रेरी को छोड़कर यह एक्सेस फ्री नहीं है।
स्वर्गीय हारून स्वार्ट्ज, एक ओपन-एक्सेस एडवोकेट और शुरुआती इंटरनेट कौतुक,
वेब स्क्रैपिंग को गैरकानूनी घोषित करने के लिए निगमों और सरकारों को प्रोत्साहित किया जा सकता है। हालाँकि, यह एक महत्वपूर्ण उपकरण है जिसका उपयोग पत्रकार और शोधकर्ता अन्याय को उजागर करने के लिए करते हैं।
डेटा एकत्र करना और विश्लेषण करना सभी प्रकार के शोध और अकादमिक अध्ययन के लिए अविश्वसनीय रूप से सहायक हो सकता है, जिससे डेटा विज्ञान में एक नया आंदोलन हो सकता है। पत्रकार भी अब हमारे समाजों और समुदायों के बारे में नई चीजों को प्रकट करने के लिए सावधानीपूर्वक डेटा विश्लेषण पर भरोसा करते हैं।
__ प्रकट करें __ ने अमेरिकी पुलिस का खुलासा करने वाली एक परियोजना को अंजाम दिया जो फेसबुक पर चरमपंथी समूहों के सदस्य थे और नस्लवादी, ज़ेनोफोबिक और इस्लामोफोबिक सामग्री के साथ संलग्न थे।
यह इन चरमपंथी समूहों और फेसबुक पर पुलिस अधिकारियों के समूहों से डेटा को स्क्रैप करके और अतिव्यापी सदस्यों को खोजने के लिए क्रॉस-रेफ़रिंग द्वारा किया गया था - और कई थे।
रॉयटर्स ने उजागर करने के लिए समान डेटा विश्लेषण तकनीकों का इस्तेमाल किया
स्क्रेपर्स का उपयोग करते हुए, द वर्ज एंड द ट्रेस ने एक जांच की जिसमें खुलासा हुआ
यूएसए टुडे ने पाया कि 2010 और 2018 के बीच राष्ट्रव्यापी राज्य के घरों में पेश किए गए 10,000 से अधिक बिल लगभग थे
अटलांटिक चलता है a
वेब स्क्रैपिंग का उपयोग वाणिज्यिक और सामाजिक न्याय दोनों उद्देश्यों के लिए कैसे किया जा सकता है, इसके कुछ उदाहरण हैं। वहाँ कई अन्य उपयोग के मामले हैं और कई और एहसास होने की प्रतीक्षा कर रहे हैं।
व्यापक डेटा विश्लेषण और खुला डेटा विज्ञान कई नई सच्चाइयों को अनलॉक कर सकता है, लेकिन क्या हम उस तरह के डेटा के साथ लाइन पार कर रहे हैं जो हम एकत्र करते हैं, और हम इसे एकत्र करने के तरीकों का उपयोग करते हैं?
डेटा संग्रह के आसपास नैतिकता और विचारधारा क्या हैं?
हालांकि यह महत्वपूर्ण है कि हम जनता के लिए प्रासंगिक दस्तावेजों तक खुली पहुंच के बारे में बातचीत जारी रखें, हमें गोपनीयता के मुद्दों पर भी विचार करना होगा।
आज कई लोग और संगठन इस बात से सहमत हैं कि किसी की सहमति के बिना उसका व्यक्तिगत डेटा एकत्र करना और उसका उपयोग करना अनैतिक है।
हालांकि, कुछ देशों में सेंसर किए गए समाचार लेखों जैसे सार्वजनिक डेटा के बारे में क्या? या स्वास्थ्य संबंधी आँकड़े और डेटा जिनका उपयोग सार्वजनिक स्वास्थ्य नीति के सुझावों के लिए किया जा सकता है?
अमेरिका में, __ नीति निर्माताओं ने अतिरिक्त देखभाल प्रदान करने के लिए एक निवारक कार्यक्रम के लिए उच्च जोखिम वाले रोगियों की पहचान करने के लिए एक एल्गोरिदम __ का उपयोग किया ताकि ये रोगी ईआर में समाप्त न हों।
https://www.youtube.com/watch?v=Ok5sKLXqynQ
बाद में शोधकर्ताओं ने पाया कि काले लोग गोरे लोगों की तुलना में अधिक बीमार थे, हालांकि एक ही श्रेणी में थे। दूसरे शब्दों में, उच्च गुणवत्ता वाले बीमा तक पहुंच की कमी सहित कई कारणों से एक ही बीमारी वाले श्वेत रोगियों की तुलना में अश्वेत रोगियों को कम खर्च करना पड़ता है।
एक अन्य उदाहरण में, अमेज़ॅन जैसी कंपनियों द्वारा उपयोग किए जाने वाले __ स्वचालित हायरिंग टूल __ महिलाओं के ऊपर पुरुषों और रंग के लोगों पर गोरे लोगों का पक्ष लेते पाए गए।
जब टूल्स ने वेब पर खोज की, तो उन्होंने निर्धारित किया कि कार्यकारी पदों को ज्यादातर गोरे लोगों द्वारा भरा गया था, इसलिए मशीनों को पता चला कि यह एक उम्मीदवार में देखने के लिए गुणवत्ता का प्रकार था।
जनता की भलाई के लिए सार्वजनिक डेटा को स्क्रैप करने से हमेशा समाज के लिए सकारात्मक परिणाम नहीं आते हैं। ऑटोमेशन और मशीन लर्निंग के लिए सोच-समझकर हस्तक्षेप की जरूरत है। नई तकनीकी और सामाजिक प्रणालियों के निर्माता के रूप में, हमें यह सुनिश्चित करने की आवश्यकता है कि हमारे सभी डेटा विश्लेषण उपकरण नैतिक रूप से डिज़ाइन किए गए हैं और अन्याय और भेदभाव की हमारी ऐतिहासिक प्रणाली को जारी नहीं रखते हैं।
स्क्रैपिंग उस कार्य के लिए अत्यधिक प्रासंगिक है जो हम मिस्टीरियम में करते हैं। हम एक सुलभ वेब बनाने की परवाह करते हैं जहां सूचना की स्वतंत्रता और खुला डेटा विज्ञान नए वेब के मूलभूत स्तंभ बन जाते हैं।
हम वेब3 बनाने के लिए डेवलपर्स के साथ सहयोग कर रहे हैं। जिस तरह से मिस्टीरियम वेब 3 स्पेस में बिल्डरों को उद्देश्य-संचालित परियोजनाओं के लिए सशक्त बनाता है, उसके बारे में अधिक जानने के लिए हमारी साइट देखें।