डेटासेट बनाने का एक शानदार तरीका वेब को स्क्रैप करना है। यह विशेष रूप से प्रासंगिक हो जाता है जब सामान्य क्रॉल या आधिकारिक एपीआई जैसे स्रोत आपकी परियोजना की आवश्यकताओं को पूरा करने में विफल होते हैं (उदाहरण के लिए, डेटा पर्याप्त हालिया नहीं है या ट्विटर आपको कीमत देता है)। हालांकि, वेब स्क्रैपिंग कैप्चा और भू-प्रतिबंधों जैसी अपनी चुनौतियों के साथ आता है। यह वह जगह है जहां हमारे नायक - प्रतिनिधि - दृश्य में प्रवेश करते हैं।
एक प्रॉक्सी सर्वर एक अन्य कंप्यूटर (एक सर्वर, फोन, या यहाँ तक कि IoT डिवाइस) है जो आपको स्वयं के माध्यम से वेब तक पहुँचने देता है। इस तरह, आपको वैकल्पिक रूप से भिन्न स्थान से एक नया IP पता मिलता है। प्रॉक्सी काफी हद तक वीपीएन की तरह होते हैं - अंतर यह है कि आप उनमें से कई का उपयोग केवल एक या दो कनेक्शन के बजाय एक बार में कर सकते हैं।
प्रॉक्सी सर्वर अधिक से अधिक आवश्यक होते जा रहे हैं क्योंकि वेबसाइट स्वचालित पहुंच को रोकने के लिए दर सीमित और अधिक परिष्कृत प्रतिबंध लागू करती हैं। कभी-कभी, अच्छे कारणों से, हालाँकि अक्सर यह उनके व्यावसायिक हितों की रक्षा करने या डेटा पर एकाधिकार करने के लिए होता है। प्रॉक्सी आपकी सभी समस्याओं का समाधान नहीं करेंगे; लेकिन बुनियादी स्वच्छता के अलावा, जैसे यथार्थवादी उपयोगकर्ता-एजेंटों का उपयोग करना, वे आपके वेब स्क्रैपर को चालू रखने का सबसे प्रभावी तरीका हैं।
यह गाइड आपको वेब स्क्रैपिंग के संदर्भ में प्रॉक्सी सर्वर की एक मजबूत समझ प्रदान करेगी। यह हमारे वार्षिक प्रॉक्सी बाजार अनुसंधान के लिए एकत्र किए गए कुछ व्यावहारिक डेटा के साथ सैद्धांतिक ज्ञान के साथ आता है।
जब वेब स्क्रेपर्स (लोगों) को प्रॉक्सी की आवश्यकता का सामना करना पड़ता है, तो उनका पहला आवेग एक मुफ्त प्रॉक्सी सूची को आज़माना होता है। ये सूचियाँ सार्वजनिक रूप से ऑनलाइन उपलब्ध हैं; उनमें से अधिकांश प्रॉक्सी असुरक्षित या कुप्रबंधित सर्वर से आते हैं।
मुफ्त प्रॉक्सी सूचियों के साथ एक बड़ी समस्या यह है कि आप कभी नहीं जान पाते कि उन्हें कौन चलाता है। ऑपरेटर के दुर्भावनापूर्ण इरादे हो सकते हैं, जो विज्ञापन इंजेक्शन, ट्रैफिक लॉगिंग और अन्य खराब चीजों में प्रकट हो सकते हैं। यह डरावना लगता है, लेकिन यह एक डेटा वैज्ञानिक के रूप में आपको अधिक प्रभावित करने की संभावना नहीं है: आप शायद ऑपरेटिंग सिस्टम स्तर पर प्रॉक्सी कॉन्फ़िगर नहीं करेंगे या अपने बैंक खाते तक पहुंचने के लिए उनका उपयोग नहीं करेंगे।
एक अधिक उबाऊ - हालांकि यथार्थवादी - मुद्दा यह है कि मुफ्त परदे के पीछे बस अविश्वसनीय हैं।
वे विरले ही लंबे समय तक ऑनलाइन रहते हैं; जो चलते हैं वे असहनीय रूप से धीमे होते हैं क्योंकि उनके पास सैकड़ों किराएदार होते हैं; और क्योंकि उनके पास सैकड़ों किराएदार हैं, ऐसे प्रॉक्सी बहुत जल्दी किसी भी प्रासंगिक वेबसाइट के साथ खुद को बाहर कर लेते हैं। साथ काम करने के लिए एक महान उपकरण नहीं है।
इस कारण से, मैं व्यावसायिक प्रॉक्सी सेवा के लिए भुगतान करने की पुरजोर अनुशंसा करता हूं।
प्रॉक्सी सर्वर को अक्सर आईपी स्रोत द्वारा वर्गीकृत किया जाता है। वेब स्क्रैपिंग उद्देश्यों के लिए, आप सबसे अधिक संभावना तीन प्रकारों के बीच चुनेंगे: डेटासेंटर, आवासीय, या आईएसपी (स्थैतिक आवासीय भी कहा जाता है) प्रॉक्सी।
ये प्रॉक्सी डेटा केंद्रों में सर्वर पर होस्ट किए जाते हैं। वे Amazon Cloud Services (AWS) के उदाहरण हो सकते हैं या किसी अन्य क्लाउड होस्टिंग प्रदाता से आ सकते हैं। IP डेटाबेस डेटासेंटर प्रॉक्सी को होस्टिंग या डेटासेंटर रेंज से संबंधित के रूप में देखते हैं।
डेटासेंटर प्रॉक्सी आमतौर पर शक्तिशाली हार्डवेयर और इंटरनेट कनेक्शन पर चलते हैं, जिससे आप बहुत सारा डेटा तेजी से खंगाल सकते हैं। वे उन लक्ष्यों के लिए बहुत कुशल विकल्प हो सकते हैं जो आईपी प्रतिष्ठा की निगरानी नहीं करते हैं लेकिन ऐसा करने वाली वेबसाइटों के साथ संघर्ष करते हैं।
ये प्रतिनिधि वास्तविक लोगों के आवासीय उपकरणों (इसलिए नाम) से आते हैं। उदाहरण के लिए, वे विंडोज लैपटॉप, एंड्रॉइड फोन या वाई-फाई पर स्मार्ट फ्रिज चला सकते हैं। आईपी डेटाबेस आवासीय प्रॉक्सी को लैंडलाइन या मोबाइल कनेक्शन के रूप में वर्गीकृत करता है।
आवासीय प्रतिनिधि हमेशा दुनिया भर के पतों के बड़े पूल में आते हैं। वे डेटासेंटर आईपी की तुलना में कम अनुमानित हैं क्योंकि वे कनेक्शन की गुणवत्ता और होस्ट डिवाइस की उपलब्धता पर भरोसा करते हैं। हालाँकि, यह सुविधा सभी प्रकार की वेबसाइटों के साथ आवासीय प्रॉक्सी को बहुत प्रभावी बनाती है, क्योंकि वे नियमित आगंतुकों की तरह दिखती हैं।
ये प्रॉक्सी डेटा केंद्रों में सर्वर पर होस्ट किए जाते हैं लेकिन वेरिज़ोन जैसे उपभोक्ता इंटरनेट सेवा प्रदाताओं के तहत पंजीकृत हैं। यह एक आईएसपी के साथ एक अनुबंध पर हस्ताक्षर करके और अपने नेटवर्क पर आईपी की घोषणा करने के लिए प्राप्त किया जाता है। आदर्श रूप से, आईपी डेटाबेस को ऐसे प्रॉक्सी की पहचान लैंडलाइन या मोबाइल कनेक्शन के रूप में करनी चाहिए। हालांकि, कभी-कभी, छोटे क्षेत्रीय ISP को अभी भी डेटा केंद्रों के रूप में वर्गीकृत किया जाता है।
आईएसपी प्रॉक्सी डेटासेंटर प्रॉक्सी के गुणों को बरकरार रखते हैं लेकिन बेहतर आईपी प्रतिष्ठा के कारण अधिक प्रभावी ढंग से परिमार्जन करने में सक्षम हैं।
इस बिंदु पर, आप सोच रहे होंगे, “वाह, एक मिनट रुकिए! Android फ़ोन? एक बॉटनेट की तरह भयानक लगता है! क्या यह कानूनी भी है? पूछने के लिए यह एक अच्छा प्रश्न है, और यह दर्शाता है कि आप परवाह करते हैं। बहुत से नहीं।
तथ्य यह है कि व्यावसायिक प्रॉक्सी सर्वर और बॉटनेट के बीच एक महीन रेखा होती है। यह डेटासेंटर प्रॉक्सी पर कम लागू होता है जहां आपूर्ति श्रृंखला बहुत स्पष्ट है: क्लाउड होस्ट आईपी खरीदता है, उन्हें सर्वर पर रखता है, और पते को प्रॉक्सी प्रदाता को किराए पर देता है। लेकिन आवासीय प्रॉक्सी नेटवर्क के साथ नैतिकता का प्रश्न बहुत प्रासंगिक हो जाता है।
विषय में बहुत गहराई में जाने के बिना, आवासीय प्रतिनिधि कई तरीकों से प्राप्त किए जा सकते हैं। डेस्कटॉप और मोबाइल एप्लिकेशन में एसडीके के माध्यम से सबसे लोकप्रिय तरीका है। यह वीडियो कैसा दिखता है इसका ठोस उदाहरण देता है।
दूसरा तरीका किसी सेवा के लिए सीधे ट्रैफ़िक का आदान-प्रदान करना है (जैसे कि मुफ़्त वीपीएन, ब्राइटवीपीएन देखें) या पैसा (बैंडविड्थ-साझाकरण ऐप जैसे हनीगैन का उपयोग करके)।
किसी भी मामले में, यह सुनिश्चित करने की जिम्मेदारी प्रॉक्सी प्रदाता की होती है कि आईपी स्रोत व्यवस्था से अवगत है और इसके लिए सहमति देता है। आपको प्रदाता की वेबसाइट पर प्रॉक्सी सोर्सिंग और उपयोग के तरीकों के बारे में जानकारी प्राप्त करने में सक्षम होना चाहिए। इससे आपके द्वारा बॉटनेट का उपयोग करने की संभावना काफी कम हो जाती है।
प्रॉक्सी सर्वर के किरायेदारी और रोटेशन के आधार पर अलग-अलग कॉन्फ़िगरेशन हो सकते हैं।
पहला मानदंड बताता है कि कितने लोग एक ही समय में एक ही प्रॉक्सी सर्वर का उपयोग कर सकते हैं। सभी मुफ्त प्रॉक्सी सूचियों में संभावित रूप से सैकड़ों किरायेदार हैं, जबकि वाणिज्यिक प्रॉक्सी प्रदाता सीमाएं लगाते हैं। बाजार की भाषा में, साझा या अर्ध-साझा का मतलब है कि आप एक ही प्रॉक्सी सर्वर का उपयोग कई अन्य लोगों (अक्सर एक से चार) के साथ करेंगे। निजी या समर्पित का अर्थ है कि आप अकेले ही सभी या विशेष डोमेन के लिए प्रॉक्सी का उपयोग करेंगे।
किरायेदारी चुनने की क्षमता डेटासेंटर और आईएसपी प्रॉक्सी की एक विशेषता है, क्योंकि प्रदाताओं का उन पर पूर्ण स्वामित्व होता है। यह आवासीय प्रॉक्सी के साथ उपलब्ध नहीं है, लेकिन कम प्रासंगिक भी है - आवासीय उपयोगकर्ताओं के पास अधिक प्राकृतिक ब्राउज़िंग पैटर्न हैं और अनुरोधों के साथ वेबसाइटों को अधिभारित करने की संभावना कम है।
दूसरा मानदंड, रोटेशन, दिखाता है कि प्रॉक्सी सर्वर स्वचालित रूप से स्विच करते हैं या नहीं। वे जो प्राय: आईपी: पोर्ट (1) के रूप में स्वरूपित प्रॉक्सी सूची में नहीं आते हैं। जो एंडपॉइंट का प्रारूप लेते हैं: पोर्ट (2):
192.168.0.1:10000
en.proxyprovider.net:10000
समापन बिंदु प्रदाता के प्रॉक्सी पूल के प्रवेश द्वार के रूप में कार्य करता है। यह बैकएंड में विभिन्न पतों के माध्यम से आपके अनुरोधों को स्वचालित रूप से रूट करता है। यहां तक कि जब कोई आईपी पता बदलता है, तो समापन बिंदु वही रहता है।
वेब स्क्रैपिंग के लिए रोटेटिंग प्रॉक्सी बहुत सुविधाजनक हैं, क्योंकि आपको प्रभावी रूप से अनंत संख्या में आईपी (हजारों से लाखों) तक पहुंच प्राप्त होती है। हालांकि, ऐसी सेवाएं अक्सर ट्रैफ़िक व्यय के लिए शुल्क लेती हैं, जबकि स्थिर प्रॉक्सी सूची असीमित ट्रैफ़िक की पेशकश करती है।
आइए चर्चा किए गए प्रॉक्सी प्रकारों की उनकी विभिन्न विशेषताओं के आधार पर तुलना करें।
प्रॉक्सी नेटवर्क को घुमाने के मामले में, आवासीय प्रॉक्सी की लागत डेटासेंटर पतों की तुलना में लगभग आठ से 10 गुना अधिक और आईएसपी प्रॉक्सी नेटवर्क को घुमाने से थोड़ी कम है।
स्टेटिक प्रॉक्सी नेटवर्क आमतौर पर प्रति आईपी एड्रेस चार्ज करते हैं। ISP प्रॉक्सी की तुलना में, डेटासेंटर प्रॉक्सी सर्वर की लागत दो से तीन गुना कम होती है, यह इस बात पर निर्भर करता है कि आप कितना खरीदते हैं।
अप्रत्याशित एंड-यूज़र उपकरणों के माध्यम से ट्रैफ़िक को रूट करने के बावजूद, प्रमुख आवासीय प्रॉक्सी नेटवर्क बहुत अच्छी तरह से काम करते हैं। वेब स्क्रैपिंग उद्देश्यों के लिए (जब आईपी प्रत्येक कनेक्शन अनुरोध के साथ घूमता है), वे लगभग डेटासेंटर प्रॉक्सी के साथ-साथ डेटा स्थानांतरित करते हैं:
हम विलंबता में बड़ा अंतर देखने में भी विफल रहे। वैश्विक सीडीएन (प्रतिक्रिया आकार कई किलोबाइट है) और अमेज़ॅन (लगभग 1 एमबी प्रतिक्रिया आकार) के निकटतम सर्वर के लिए किए गए अनुरोधों के लिए प्रतिक्रिया समय नीचे दिया गया है:
एक क्षेत्र जहां डेटासेंटर और आईएसपी प्रॉक्सी का प्रभुत्व है, वह थ्रूपुट है। उनके पास डेटा स्थानांतरित करने के लिए व्यापक पाइप हैं। कुछ आवासीय प्रॉक्सी बहुत तेज हो सकते हैं, लेकिन आप ऐसे सर्वरों का भी सामना कर सकते हैं जो 1 एमबीपीएस तक पहुंचने में विफल रहते हैं। बहुत कम भविष्यवाणी है।
डेटासेंटर और आईएसपी प्रॉक्सी लगभग 24/7 बने रह सकते हैं, केवल आउटेज या रखरखाव होने पर ही ऑफ़लाइन हो सकते हैं। आवासीय प्रॉक्सी का अपटाइम विभिन्न कारकों पर निर्भर करता है, जैसे कि यह विंडोज या एंड्रॉइड डिवाइस से आता है या नहीं। किसी भी मामले में, सर्वर-आधारित प्रॉक्सी की तुलना में यह बहुत छोटा और कम भरोसेमंद है।
हमने एक स्क्रिप्ट लिखी है जो हर 20 सेकंड में एक आईपी डेटाबेस को पिंग करती है यह देखने के लिए कि एक आवासीय आईपी पता कितनी बार बदलेगा। यहाँ कुछ परिणाम दिए गए हैं:
डेटासेंटर प्रॉक्सी Google या सोशल मीडिया जैसी संरक्षित या अत्यधिक लोकप्रिय वेबसाइटों के विरुद्ध संघर्ष करता है। साफ-सुथरे उपयोग के इतिहास वाले समर्पित आईपी को चुनकर इसे कुछ हद तक कम किया जा सकता है।
कभी-कभी, किसी डेटासेंटर IP रेंज से कनेक्ट करना वेबसाइटों के लिए पर्याप्त होता है कि वे आपको अंदर न आने दें। ऐसे मामलों में, एक अलग प्रॉक्सी प्रकार का उपयोग करने का एकमात्र सहारा है।
आईएसपी प्रॉक्सी की डिफ़ॉल्ट रूप से बेहतर आईपी प्रतिष्ठा होती है, इसलिए उन्हें कम प्रारंभिक जांच का सामना करना पड़ता है। हालांकि, वास्तविक आवासीय पते की तुलना में उनके पास अभी भी कम वास्तविक ब्राउज़िंग पैटर्न हैं। आवासीय प्रॉक्सी सर्वर बड़े पूल बनाते हैं, बहुत विविध होते हैं, और वास्तविक लोगों के साथ ब्राउज़िंग इतिहास साझा करते हैं। इन गुणों के कारण उन्हें वेबसाइट के व्यापक दर्शकों से अलग पहचान पाना बहुत कठिन हो जाता है।
डेटासेंटर और आईएसपी प्रॉक्सी डेटा केंद्रों में होस्ट किए जाते हैं, और उपलब्ध डेटासेंटरों की संख्या सीमित होती है। सबसे लगातार स्थान शायद एशबर्न है, हालांकि प्रमुख प्रदाता आपको दर्जनों देशों के डेटासेंटर आईपी प्राप्त कर सकते हैं। हालाँकि, यदि आपको छोटे स्थानों और विशेष रूप से उनके गैर-राजधानी शहरों में पते की आवश्यकता है, तो आप भाग्य से बाहर होंगे।
आवासीय प्रतिनिधि के पास ऐसा कोई प्रतिबंध नहीं है — जब तक कोई उपकरण और इच्छुक प्रतिभागी है, कोई भी कहीं से भी शामिल हो सकता है। नतीजतन, प्रमुख प्रदाता शहर, एएसएन, और कभी-कभी ज़िप कोड लक्ष्यीकरण के साथ सभी देशों में आईपी की पेशकश कर सकते हैं।
प्रमुख प्रॉक्सी प्रदाताओं के हमारे सर्वेक्षण के आधार पर, अधिकांश आवासीय प्रॉक्सी को अपने सबसे लोकप्रिय उत्पाद के रूप में चुनते हैं। केवल दो प्रदाताओं ने निर्दिष्ट डेटासेंटर प्रॉक्सी सर्वर, और कोई भी ISP प्रॉक्सी नहीं।
अमेज़ॅन, Google, लिंक्डइन और अन्य जैसे प्रमुख लक्ष्यों के रूप में डेटासेंटर प्रॉक्सी हाल के वर्षों में गिर रहे हैं, और अन्य ने अपनी सुरक्षा प्रणालियों को कड़ा कर दिया है। आईएसपी प्रॉक्सी के पास उनकी जगह लेने की क्षमता है, लेकिन सोर्सिंग की कठिनाइयों से उनका उत्थान बाधित होता है - प्रतिष्ठित आईएसपी ऑनबोर्ड प्राप्त करना मुश्किल है।
लेकिन पर्याप्त सिद्धांत। आप इस ज्ञान को अपनी परियोजना में कैसे लागू कर सकते हैं? मैंने प्रॉक्सी सर्वर सुझावों के साथ कई परिदृश्यों का मॉडल तैयार किया है।
इस लेख को व्यावसायिक हितों से मुक्त रखने के लिए, मैं विशेष प्रदाताओं का उल्लेख नहीं करूँगा। यदि आप कुछ सिफारिशें चाहते हैं, तो हम अपनी वेबसाइट पर प्रमुख प्रदाताओं की तुलना करते हैं (अस्वीकरण: हम उन अधिकांश कंपनियों के साथ संबद्ध संबंध में हैं। हालांकि, इसका हमारी बाजार रिपोर्ट पर कोई प्रभाव नहीं पड़ता है।)
उदाहरण: एक मामूली समाचार पोर्टल, ई-कॉमर्स वेबसाइट, या यहां तक कि गैर-Google खोज इंजन को स्क्रैप करना।
सिफारिश: रोटेटिंग डेटासेंटर प्रॉक्सी। आप $0.7/GB या उससे कम में 2,000–100,000 रोटेटिंग IP के पूल तक पहुंच प्राप्त कर सकते हैं। आपको अवरुद्ध आईपी को बदलने के बारे में चिंता करने की ज़रूरत नहीं होगी, और कुछ गंभीर डेटा निष्कर्षण के लिए यातायात की लागत काफी कम है।
उदाहरण: संग्रहण उद्देश्यों के लिए स्ट्रीमिंग सेवा से वीडियो या छवि एग्रीगेटर से चित्र डाउनलोड करना।
सिफारिश: स्टेटिक डाटासेंटर या आईएसपी प्रॉक्सी। वे तेज हैं और यातायात व्यय की गणना नहीं करते हैं। डेटासेंटर प्रॉक्सी के लिए जाएं जब वेबसाइट इसकी अनुमति देती है और आईएसपी प्रॉक्सी अन्यथा।
उदाहरण: पूरे वेब पर ब्रांड उल्लेखों की खोज करना।
सिफारिश: स्टेटिक डाटासेंटर या आईएसपी प्रॉक्सी। क्रॉलिंग के लिए बहुत अधिक डेटा की आवश्यकता होती है, इसलिए एक प्रॉक्सी प्रकार चुनना सबसे अच्छा होता है जो ट्रैफ़िक को मुख्य मीट्रिक के रूप में उपयोग नहीं करता है। साथ ही, जब आप लक्ष्य बदलते हैं तो IP की एक सीमित संख्या भी आपको बहुत दूर ले जाएगी।
उदाहरण: LinkedIn से नौकरी के विज्ञापन निकालना, G2 से कंपनी की जानकारी, या किसी सोशल मीडिया नेटवर्क से हैशटैग पोस्ट करना।
सिफारिश: आवासीय प्रॉक्सी। प्रभावी रूप से अनंत संख्या में IP के साथ, आप अपने प्रॉक्सी को प्रतिबंधित करने का जोखिम नहीं उठाएंगे। इसके अलावा, आप अन्य प्रॉक्सी प्रकारों की तुलना में उच्च सफलता दर का अनुभव करेंगे।
उदाहरण: शेयर की कीमतों में उतार-चढ़ाव को ट्रैक करना।
अनुशंसाएँ: यदि वेबसाइट उन्हें अनुमति देती है तो डेटासेंटर प्रॉक्सी करता है; अन्यथा, आईएसपी प्रॉक्सी **। ** उनकी तेज कनेक्शन गति सुनिश्चित करती है कि आप डेटा को प्रकट होने के रूप में निकाल देंगे।
उदाहरण: स्थानीयकृत Google प्रश्नों के लिए खोज इंजन पृष्ठ स्थिति की निगरानी करना।
सिफारिश: आवासीय प्रॉक्सी, क्योंकि वे शहर-स्तरीय आईपी फ़िल्टरिंग का समर्थन करते हैं।
इस लेख में आपको वेब स्क्रैपिंग उद्देश्यों के लिए प्रॉक्सी सर्वर का संक्षिप्त परिचय दिया गया है। इसे पढ़ने के बाद, आपको मुख्य प्रॉक्सी प्रकारों, कॉन्फ़िगरेशन, और किस सेटअप से आपके डेटा साइंस प्रोजेक्ट को सबसे अधिक लाभ होगा, के बीच अंतर करने में सक्षम होना चाहिए।