ডেটাসেট তৈরি করার একটি চমৎকার উপায় হল ওয়েব স্ক্র্যাপ করা। এটি বিশেষভাবে প্রাসঙ্গিক হয়ে ওঠে যখন সাধারণ ক্রল বা অফিসিয়াল API-এর মতো উৎসগুলি আপনার প্রকল্পের প্রয়োজনীয়তাগুলি পূরণ করতে ব্যর্থ হয় (উদাহরণস্বরূপ, ডেটা যথেষ্ট সাম্প্রতিক নয় বা টুইটারে আপনার দাম কম)। যাইহোক, ওয়েব স্ক্র্যাপিং ক্যাপচা এবং জিও-সীমাবদ্ধতার মতো নিজস্ব চ্যালেঞ্জ নিয়ে আসে। এখানেই আমাদের নায়ক - প্রক্সি - দৃশ্যে প্রবেশ করে।
একটি প্রক্সি সার্ভার হল অন্য একটি কম্পিউটার (একটি সার্ভার, ফোন, এমনকি IoT ডিভাইস) যা আপনাকে নিজের মাধ্যমে ওয়েবে অ্যাক্সেস করতে দেয়। এইভাবে, আপনি ঐচ্ছিকভাবে ভিন্ন অবস্থান থেকে একটি নতুন আইপি ঠিকানা পাবেন। প্রক্সিগুলি অনেকটা ভিপিএন-এর মতো - পার্থক্য হল আপনি শুধুমাত্র এক বা দুটি সংযোগের পরিবর্তে তাদের অনেকগুলি একবারে ব্যবহার করতে পারেন৷
প্রক্সি সার্ভারগুলি আরও বেশি প্রয়োজনীয় হয়ে উঠছে কারণ ওয়েবসাইটগুলি রেট সীমিতকরণ এবং স্বয়ংক্রিয় অ্যাক্সেস রোধ করতে আরও পরিশীলিত বিধিনিষেধ প্রয়োগ করে৷ কখনও কখনও, ভাল কারণে, যদিও প্রায়শই এটি তাদের বাণিজ্যিক স্বার্থ রক্ষা বা ডেটা একচেটিয়া করার জন্য। প্রক্সি আপনার সব সমস্যার সমাধান করবে না; কিন্তু মৌলিক স্বাস্থ্যবিধি বাদ দিয়ে, যেমন বাস্তবসম্মত ব্যবহারকারী-এজেন্ট ব্যবহার করা, তারা আপনার ওয়েব স্ক্র্যাপার চালু রাখার সবচেয়ে কার্যকর উপায়।
এই নির্দেশিকা আপনাকে ওয়েব স্ক্র্যাপিংয়ের প্রসঙ্গে প্রক্সি সার্ভারগুলির একটি শক্তিশালী বোঝার দেবে। এটি তাত্ত্বিক জ্ঞানের সাথে কিছু ব্যবহারিক তথ্যের সাথে আসে যা আমরা আমাদের বার্ষিক প্রক্সি বাজার গবেষণার জন্য সংগ্রহ করেছি।
যখন ওয়েব স্ক্র্যাপাররা (লোকেরা) প্রক্সির প্রয়োজনের সম্মুখীন হয়, তখন তাদের প্রথম প্রবণতা হল একটি বিনামূল্যের প্রক্সি তালিকা চেষ্টা করা। এই তালিকাগুলি সর্বজনীনভাবে অনলাইনে উপলব্ধ; তাদের মধ্যে বেশিরভাগ প্রক্সি আসে দুর্বল বা অব্যবস্থাপিত সার্ভার থেকে।
বিনামূল্যের প্রক্সি তালিকাগুলির একটি বড় সমস্যা হল যে আপনি কখনই জানেন না যে সেগুলি কে চালায়৷ অপারেটরের দূষিত উদ্দেশ্য থাকতে পারে, যা বিজ্ঞাপন ইনজেকশন, ট্রাফিক লগিং এবং অন্যান্য বাজে জিনিসের মধ্যে প্রকাশ করতে পারে। এটি ভীতিকর শোনাচ্ছে, তবে এটি একজন ডেটা বিজ্ঞানী হিসাবে আপনাকে প্রভাবিত করার সম্ভাবনা কম: আপনি সম্ভবত অপারেটিং সিস্টেম স্তরে প্রক্সিগুলি কনফিগার করবেন না বা আপনার ব্যাঙ্ক অ্যাকাউন্ট অ্যাক্সেস করতে সেগুলি ব্যবহার করবেন না৷
একটি আরো বিরক্তিকর - যদিও বাস্তবসম্মত - সমস্যা হল যে বিনামূল্যে প্রক্সিগুলি কেবল অবিশ্বস্ত।
তারা খুব কমই বেশি দিন অনলাইনে থাকে; যারা চালায় তারা অসহনীয়ভাবে ধীর কারণ তাদের শত শত ভাড়াটে আছে; এবং যেহেতু তাদের শত শত ভাড়াটে আছে, এই ধরনের প্রক্সি খুব দ্রুত যেকোনো প্রাসঙ্গিক ওয়েবসাইটের সাথে নিজেদের স্ট্রাইক করে। কাজ করার জন্য একটি দুর্দান্ত সরঞ্জাম নয়।
এই কারণে, আমি দৃঢ়ভাবে একটি বাণিজ্যিক প্রক্সি পরিষেবার জন্য অর্থ প্রদানের সুপারিশ করি৷
প্রক্সি সার্ভারগুলি প্রায়শই আইপি উত্স দ্বারা শ্রেণীবদ্ধ করা হয়। ওয়েব স্ক্র্যাপিং উদ্দেশ্যে, আপনি সম্ভবত তিনটি প্রকারের মধ্যে বেছে নেবেন: ডেটাসেন্টার, আবাসিক বা আইএসপি (স্ট্যাটিক আবাসিকও বলা হয়) প্রক্সি।
এই প্রক্সিগুলি ডেটা সেন্টারে সার্ভারে হোস্ট করা হয়। এগুলি Amazon Cloud Services (AWS) এর উদাহরণ হতে পারে বা অন্য কোন ক্লাউড হোস্টিং প্রদানকারীর কাছ থেকে আসতে পারে। আইপি ডেটাবেসগুলি ডেটাসেন্টার প্রক্সিগুলিকে হোস্টিং বা ডেটাসেন্টার রেঞ্জের অন্তর্গত হিসাবে দেখে।
ডেটাসেন্টার প্রক্সিগুলি সাধারণত শক্তিশালী হার্ডওয়্যার এবং ইন্টারনেট সংযোগে চালিত হয়, তাই আপনি অনেক ডেটা দ্রুত স্ক্র্যাপ করতে পারেন। আইপি খ্যাতি নিরীক্ষণ করে না তবে এমন ওয়েবসাইটগুলির সাথে লড়াই করে এমন লক্ষ্যগুলির জন্য তারা একটি খুব দক্ষ পছন্দ হতে পারে।
এই প্রক্সিগুলি প্রকৃত মানুষের আবাসিক ডিভাইস থেকে আসে (তাই নাম)। উদাহরণস্বরূপ, তারা একটি উইন্ডোজ ল্যাপটপ, অ্যান্ড্রয়েড ফোন, বা ওয়াই-ফাইতে একটি স্মার্ট ফ্রিজে চলতে পারে। আইপি ডাটাবেসগুলি আবাসিক প্রক্সিগুলিকে ল্যান্ডলাইন বা মোবাইল সংযোগ হিসাবে শ্রেণীবদ্ধ করে।
আবাসিক প্রক্সিগুলি সর্বদা সারা বিশ্ব থেকে ঠিকানার বড় পুলে আসে। তারা ডেটাসেন্টার আইপিগুলির তুলনায় কম অনুমানযোগ্য কারণ তারা হোস্ট ডিভাইসের সংযোগের গুণমান এবং উপলব্ধতার উপর নির্ভর করে। যাইহোক, এই বৈশিষ্ট্যটি আবাসিক প্রক্সিগুলিকে সব ধরণের ওয়েবসাইটের সাথে খুব কার্যকর করে তোলে, কারণ তারা দেখতে নিয়মিত দর্শকদের মতো।
এই প্রক্সিগুলি ডেটা সেন্টারের সার্ভারে হোস্ট করা হয় কিন্তু Verizon-এর মতো ভোক্তা ইন্টারনেট পরিষেবা প্রদানকারীর অধীনে নিবন্ধিত। এটি একটি আইএসপির সাথে একটি চুক্তি স্বাক্ষর করে এবং এটিকে তার নেটওয়ার্কে আইপি ঘোষণা করার মাধ্যমে অর্জন করা হয়। আদর্শভাবে, আইপি ডেটাবেসগুলিকে ল্যান্ডলাইন বা মোবাইল সংযোগের মতো প্রক্সিগুলি সনাক্ত করা উচিত। কখনও কখনও, যদিও, ছোট আঞ্চলিক আইএসপিগুলি এখনও ডেটা সেন্টার হিসাবে শ্রেণীবদ্ধ করা হয়।
আইএসপি প্রক্সিগুলি ডেটাসেন্টার প্রক্সিগুলির গুণাবলী ধরে রাখে তবে একটি ভাল আইপি খ্যাতির কারণে আরও কার্যকরভাবে স্ক্র্যাপ করতে সক্ষম হয়।
এই মুহুর্তে, আপনি ভাবতে পারেন, "ওহ, এক মিনিট অপেক্ষা করুন! অ্যান্ড্রয়েড ফোন? একটি botnet মত ভয়ঙ্কর শব্দ! এটাও কি বৈধ?” এটি জিজ্ঞাসা করা একটি ভাল প্রশ্ন, এবং এটি দেখায় যে আপনি যত্নশীল। অনেকেই করে না।
আসল বিষয়টি হল একটি বাণিজ্যিক প্রক্সি সার্ভার এবং একটি বটনেটের মধ্যে একটি সূক্ষ্ম লাইন রয়েছে। এটি ডেটাসেন্টার প্রক্সিগুলিতে কম প্রযোজ্য যেখানে সাপ্লাই চেইনটি বেশ পরিষ্কার: একটি ক্লাউড হোস্ট আইপি কিনে, একটি সার্ভারে রাখে এবং প্রক্সি প্রদানকারীর কাছে ঠিকানাগুলি ভাড়া দেয়৷ কিন্তু নৈতিকতার প্রশ্নটি আবাসিক প্রক্সি নেটওয়ার্কের সাথে খুব প্রাসঙ্গিক হয়ে ওঠে।
বিষয়টির গভীরে না গিয়ে, আবাসিক প্রক্সিগুলি বিভিন্ন উপায়ে পাওয়া যেতে পারে। ডেস্কটপ এবং মোবাইল অ্যাপ্লিকেশনে SDK-এর মাধ্যমে সবচেয়ে জনপ্রিয় পদ্ধতি। এই ভিডিওটি দেখতে কেমন তার নির্দিষ্ট উদাহরণ দেয়৷
আরেকটি উপায় হল একটি পরিষেবা (যেমন একটি বিনামূল্যের ভিপিএন, ব্রাইটভিপিএন দেখুন) বা অর্থ (হানিগেইনের মতো ব্যান্ডউইথ-শেয়ারিং অ্যাপ ব্যবহার করে) জন্য সরাসরি ট্রাফিক বিনিময় করা।
যে কোনও ক্ষেত্রে, আইপি উত্সটি ব্যবস্থা সম্পর্কে সচেতন এবং এতে সম্মতি রয়েছে তা নিশ্চিত করার দায়িত্ব প্রক্সি প্রদানকারীর উপর পড়ে। আপনি প্রদানকারীর ওয়েবসাইটে প্রক্সি সোর্সিং এবং ব্যবহারের পদ্ধতি সম্পর্কে তথ্য খুঁজে পেতে সক্ষম হওয়া উচিত। এটি উল্লেখযোগ্যভাবে সম্ভাবনা হ্রাস করে যে আপনি একটি বটনেট ব্যবহার করবেন।
প্রক্সি সার্ভারের ভাড়াটিয়া এবং ঘূর্ণনের উপর ভিত্তি করে বিভিন্ন কনফিগারেশন থাকতে পারে।
প্রথম মানদণ্ডটি বর্ণনা করে যে একই প্রক্সি সার্ভার একসাথে কতজন ব্যবহার করতে পারে। সমস্ত বিনামূল্যের প্রক্সি তালিকায় সম্ভাব্য শত শত ভাড়াটে রয়েছে, যখন বাণিজ্যিক প্রক্সি প্রদানকারীরা সীমা আরোপ করে। মার্কেট লিঙ্গোতে, শেয়ার্ড বা আধা-শেয়ার করা মানে আপনি একই প্রক্সি সার্ভার ব্যবহার করবেন অন্য অনেক লোকের সাথে (প্রায়ই এক থেকে চারটি)। প্রাইভেট বা ডেডিকেটেড মানে আপনি একাই সমস্ত বা নির্দিষ্ট ডোমেনের জন্য প্রক্সি ব্যবহার করবেন।
ভাড়াটিয়া বাছাই করার ক্ষমতা ডেটাসেন্টার এবং আইএসপি প্রক্সিগুলির একটি বৈশিষ্ট্য, কারণ প্রদানকারীদের তাদের উপর সম্পূর্ণ মালিকানা রয়েছে। এটি আবাসিক প্রক্সিগুলির সাথে অনুপলব্ধ কিন্তু কম প্রাসঙ্গিক — আবাসিক ব্যবহারকারীদের আরও স্বাভাবিক ব্রাউজিং প্যাটার্ন রয়েছে এবং অনুরোধ সহ ওয়েবসাইটগুলিকে ওভারলোড করার সম্ভাবনা কম৷
দ্বিতীয় মানদণ্ড, ঘূর্ণন, দেখায় প্রক্সি সার্ভারগুলি স্বয়ংক্রিয়ভাবে পরিবর্তন হয় কিনা। যেগুলি প্রায়শই আইপি: পোর্ট (1) হিসাবে ফর্ম্যাট করা প্রক্সি তালিকায় আসে না। যেগুলি এন্ডপয়েন্ট:পোর্ট (2) এর বিন্যাস গ্রহণ করে:
192.168.0.1:10000
en.proxyprovider.net:10000
এন্ডপয়েন্ট প্রদানকারীর প্রক্সি পুলের গেটওয়ে হিসেবে কাজ করে। এটি স্বয়ংক্রিয়ভাবে ব্যাকএন্ডে বিভিন্ন ঠিকানার মাধ্যমে আপনার অনুরোধগুলিকে রুট করে। এমনকি যখন একটি IP ঠিকানা পরিবর্তিত হয়, শেষ পয়েন্ট একই থাকে।
ঘোরানো প্রক্সিগুলি ওয়েব স্ক্র্যাপিংয়ের জন্য খুব সুবিধাজনক, কারণ আপনি কার্যকরভাবে অসীম সংখ্যক আইপিগুলিতে অ্যাক্সেস পান (হাজার থেকে মিলিয়ন)। যাইহোক, এই ধরনের পরিষেবাগুলি প্রায়শই ট্র্যাফিক ব্যয়ের জন্য চার্জ করে, যখন স্ট্যাটিক প্রক্সি তালিকাগুলি সীমাহীন ট্র্যাফিক অফার করে।
আসুন আলোচিত প্রক্সি প্রকারের তুলনা করি তাদের বিভিন্ন বৈশিষ্ট্যের উপর ভিত্তি করে।
ঘূর্ণায়মান প্রক্সি নেটওয়ার্কের ক্ষেত্রে, আবাসিক প্রক্সিগুলির দাম ডেটাসেন্টার ঠিকানার চেয়ে প্রায় 8 থেকে 10 গুণ বেশি এবং ঘূর্ণায়মান ISP প্রক্সি নেটওয়ার্কগুলির চেয়ে একটু কম।
স্ট্যাটিক প্রক্সি নেটওয়ার্ক সাধারণত প্রতি IP ঠিকানায় চার্জ করে। ISP প্রক্সির তুলনায়, ডেটাসেন্টার প্রক্সি সার্ভারের দাম দুই থেকে তিন গুণ কম, আপনি কতটা কিনছেন তার উপর নির্ভর করে।
অপ্রত্যাশিত শেষ-ব্যবহারকারী ডিভাইসের মাধ্যমে ট্র্যাফিক রাউটিং করা সত্ত্বেও, প্রধান আবাসিক প্রক্সি নেটওয়ার্কগুলি খুব ভাল কাজ করে। ওয়েব স্ক্র্যাপিং উদ্দেশ্যে (যখন প্রতিটি সংযোগ অনুরোধের সাথে আইপি ঘোরে), তারা প্রায় ডেটাসেন্টার প্রক্সিগুলির পাশাপাশি ডেটা স্থানান্তর করে:
আমরা লেটেন্সিতে একটি বড় পার্থক্য দেখতেও ব্যর্থ হয়েছি। নীচে একটি বিশ্বব্যাপী CDN এর নিকটতম সার্ভারে করা অনুরোধগুলির প্রতিক্রিয়ার সময় (প্রতিক্রিয়ার আকার কয়েক কিলোবাইট) এবং Amazon (প্রায় 1 MB প্রতিক্রিয়া আকার):
একটি এলাকা যেখানে ডেটাসেন্টার এবং আইএসপি প্রক্সি আধিপত্য বিস্তার করে তা হল থ্রুপুট। ডাটা ট্রান্সফার করার জন্য তাদের বিস্তৃত পাইপ আছে। কিছু আবাসিক প্রক্সি খুব দ্রুত হতে পারে, কিন্তু আপনি ঠিক সেইসাথে সার্ভারের মুখোমুখি হতে পারেন যেগুলি 1 Mbps-এ পৌঁছাতে ব্যর্থ হয়। অনেক কম অনুমানযোগ্যতা আছে.
ডেটাসেন্টার এবং আইএসপি প্রক্সিগুলি প্রায় 24/7 থাকতে পারে, শুধুমাত্র বিভ্রাট বা রক্ষণাবেক্ষণ ঘটলেই অফলাইনে যেতে পারে। একটি আবাসিক প্রক্সির আপটাইম বিভিন্ন কারণের উপর নির্ভর করে, যেমন এটি একটি Windows বা Android ডিভাইস থেকে আসে কিনা। যাই হোক না কেন, সার্ভার-ভিত্তিক প্রক্সিগুলির তুলনায় এটি অনেক ছোট এবং কম নির্ভরযোগ্য।
আমরা একটি স্ক্রিপ্ট লিখেছি যেটি প্রতি 20 সেকেন্ডে একটি আইপি ডাটাবেস পিং করে তা দেখতে কত ঘন ঘন একটি আবাসিক আইপি ঠিকানা পরিবর্তন হবে। এখানে কিছু ফলাফল আছে:
ডেটাসেন্টার প্রক্সিগুলি Google বা সোশ্যাল মিডিয়ার মতো সুরক্ষিত বা অত্যন্ত জনপ্রিয় ওয়েবসাইটের বিরুদ্ধে লড়াই করে৷ ক্লিনার ব্যবহারের ইতিহাস সহ ডেডিকেটেড আইপি বেছে নিয়ে এটি কিছুটা প্রশমিত করা যেতে পারে।
কখনও কখনও, একটি ডেটাসেন্টার আইপি পরিসর থেকে সংযোগ করা ওয়েবসাইটগুলি আপনাকে প্রবেশ করতে না দেওয়ার জন্য যথেষ্ট৷ এই ধরনের ক্ষেত্রে, একমাত্র উপায় হল একটি ভিন্ন প্রক্সি টাইপ ব্যবহার করা৷
আইএসপি প্রক্সিগুলির ডিফল্টরূপে একটি ভাল আইপি খ্যাতি রয়েছে, তাই তারা কম প্রাথমিক তদন্তের সম্মুখীন হয়। যাইহোক, সত্যিকারের আবাসিক ঠিকানার তুলনায় তাদের এখনও কম বাস্তবসম্মত ব্রাউজিং প্যাটার্ন রয়েছে। আবাসিক প্রক্সি সার্ভারগুলি বড় পুল গঠন করে, খুব বৈচিত্র্যময় এবং প্রকৃত লোকেদের সাথে ব্রাউজিং ইতিহাস ভাগ করে। এই গুণাবলী তাদের ওয়েবসাইটের বৃহত্তর দর্শকদের থেকে আলাদা করা খুব কঠিন করে তোলে।
ডেটাসেন্টার এবং আইএসপি প্রক্সিগুলি ডেটা সেন্টারে হোস্ট করা হয় এবং উপলভ্য ডেটাসেন্টারের সংখ্যা সীমিত। সর্বাধিক ঘন ঘন অবস্থান সম্ভবত অ্যাশবার্ন, যদিও প্রধান প্রদানকারীরা আপনাকে ডজন ডজন দেশ থেকে ডেটাসেন্টার আইপি পেতে পারে। যাইহোক, যদি আপনার ছোট লোকেলে ঠিকানার প্রয়োজন হয়, এবং বিশেষ করে তাদের অ-রাজধানী শহর, আপনি ভাগ্যের বাইরে হবেন।
আবাসিক প্রক্সিগুলিতে এমন কোনও বিধিনিষেধ নেই — যতক্ষণ পর্যন্ত একটি ডিভাইস এবং একজন ইচ্ছুক অংশগ্রহণকারী থাকে, যে কোনও জায়গা থেকে যে কেউ যোগ দিতে পারে৷ ফলস্বরূপ, প্রধান প্রদানকারীরা শহর, ASN এবং কখনও কখনও জিপ কোড টার্গেটিং সহ সমস্ত দেশে আইপি অফার করতে পারে।
প্রধান প্রক্সি প্রদানকারীদের আমাদের সমীক্ষার উপর ভিত্তি করে, বেশিরভাগই তাদের সবচেয়ে জনপ্রিয় পণ্য হিসাবে আবাসিক প্রক্সি বেছে নিয়েছে। শুধুমাত্র দুটি প্রদানকারী নির্দিষ্ট ডেটাসেন্টার প্রক্সি সার্ভার, এবং কোন আইএসপি প্রক্সি।
সাম্প্রতিক বছরগুলিতে ডেটাসেন্টার প্রক্সিগুলি বন্ধ হয়ে যাচ্ছে, কারণ Amazon, Google, LinkedIn এবং অন্যান্যদের মতো প্রধান লক্ষ্যগুলি তাদের নিরাপত্তা ব্যবস্থাকে কঠোর করেছে৷ আইএসপি প্রক্সিগুলির তাদের জায়গা নেওয়ার ক্ষমতা রয়েছে, তবে তাদের গ্রহণ করা সোর্সিং অসুবিধার দ্বারা বাধাগ্রস্ত হয় — নামীদামী আইএসপিগুলি অনবোর্ডে পাওয়া কঠিন।
কিন্তু যথেষ্ট তত্ত্ব। কিভাবে আপনি আপনার প্রকল্পে এই জ্ঞান প্রয়োগ করতে পারেন? আমি প্রক্সি সার্ভারের পরামর্শ সহ একাধিক পরিস্থিতিতে মডেল করেছি।
এই নিবন্ধটিকে বাণিজ্যিক স্বার্থ থেকে মুক্ত রাখতে, আমি নির্দিষ্ট প্রদানকারীদের উল্লেখ করব না। আপনি যদি কিছু সুপারিশ চান, আমরা আমাদের ওয়েবসাইটে প্রধান প্রদানকারীর তুলনা করি (দাবি: আমরা সেই কোম্পানিগুলির বেশিরভাগের সাথে একটি অধিভুক্ত সম্পর্কের মধ্যে আছি। যাইহোক, এটি আমাদের বাজার প্রতিবেদনে কোন প্রভাব ফেলে না।)
উদাহরণ: একটি ছোটখাট নিউজ পোর্টাল, ই-কমার্স ওয়েবসাইট বা এমনকি নন-গুগল সার্চ ইঞ্জিন স্ক্র্যাপ করা।
সুপারিশ: ডেটাসেন্টার প্রক্সি ঘোরানো। আপনি $0.7/GB বা তার কম মূল্যে 2,000-100,000 ঘূর্ণায়মান IP-এর পুলে অ্যাক্সেস পেতে পারেন। আপনাকে অবরুদ্ধ আইপি প্রতিস্থাপনের বিষয়ে চিন্তা করতে হবে না, এবং কিছু গুরুতর ডেটা নিষ্কাশনের জন্য ট্র্যাফিকের খরচ যথেষ্ট কম।
উদাহরণ: সংরক্ষণাগারের উদ্দেশ্যে একটি স্ট্রিমিং পরিষেবা থেকে ভিডিও ডাউনলোড করা বা ছবি সংযোজনকারী থেকে ছবি।
সুপারিশ: স্ট্যাটিক ডেটাসেন্টার বা আইএসপি প্রক্সি। তারা দ্রুত এবং ট্রাফিক খরচ গণনা না. ওয়েবসাইট যখন অনুমতি দেয় তখন ডেটাসেন্টার প্রক্সিগুলির জন্য যান এবং অন্যথায় আইএসপি প্রক্সিগুলির জন্য যান৷
উদাহরণ: ওয়েব জুড়ে ব্র্যান্ডের উল্লেখ অনুসন্ধান করা।
সুপারিশ: স্ট্যাটিক ডেটাসেন্টার বা আইএসপি প্রক্সি। ক্রলিংয়ের জন্য প্রচুর ডেটার প্রয়োজন হয়, তাই একটি প্রক্সি টাইপ বেছে নেওয়া ভাল যা ট্র্যাফিককে প্রধান মেট্রিক হিসাবে ব্যবহার করে না৷ এছাড়াও, আপনি যখন লক্ষ্য পরিবর্তন করবেন তখন সীমিত সংখ্যক আইপিও আপনাকে অনেক দূর নিয়ে যাবে।
উদাহরণ: LinkedIn থেকে চাকরির বিজ্ঞাপন, G2 থেকে কোম্পানির তথ্য বা একটি সামাজিক মিডিয়া নেটওয়ার্ক থেকে হ্যাশট্যাগ করা পোস্ট।
প্রস্তাবনা: আবাসিক প্রক্সি। কার্যকরভাবে অসীম সংখ্যক আইপি সহ, আপনি আপনার প্রক্সিগুলি নিষিদ্ধ করার ঝুঁকি নেবেন না। এছাড়াও, আপনি অন্যান্য প্রক্সি প্রকারের তুলনায় উচ্চতর সাফল্যের হার অনুভব করবেন।
উদাহরণ: স্টক মূল্যের গতিবিধি ট্র্যাক করা।
সুপারিশ: যদি ওয়েবসাইট তাদের অনুমতি দেয় ডেটাসেন্টার প্রক্সি; অন্যথায়, আইএসপি প্রক্সি**।** তাদের দ্রুত সংযোগের গতি নিশ্চিত করে যে আপনি এটি প্রদর্শিত হিসাবে ডেটা বের করবেন।
উদাহরণ: স্থানীয় Google কোয়েরির জন্য সার্চ ইঞ্জিন পৃষ্ঠার অবস্থান পর্যবেক্ষণ করা।
প্রস্তাবনা: আবাসিক প্রক্সি, কারণ তারা শহর-স্তরের আইপি ফিল্টারিং সমর্থন করে।
এই নিবন্ধটি আপনাকে ওয়েব স্ক্র্যাপিং উদ্দেশ্যে প্রক্সি সার্ভারগুলির একটি সংক্ষিপ্ত ভূমিকা দিয়েছে। এটি পড়ার পরে, আপনি প্রধান প্রক্সি প্রকার, কনফিগারেশন এবং কোন সেটআপ আপনার ডেটা সায়েন্স প্রজেক্টকে সবচেয়ে বেশি উপকৃত করবে তার মধ্যে পার্থক্য করতে সক্ষম হবেন।