paint-brush
আপনার ডেটা বিজ্ঞান প্রকল্পের জন্য প্রক্সি সার্ভার: একটি ব্যাপক নির্দেশিকাদ্বারা@proxyway
1,585 পড়া
1,585 পড়া

আপনার ডেটা বিজ্ঞান প্রকল্পের জন্য প্রক্সি সার্ভার: একটি ব্যাপক নির্দেশিকা

দ্বারা Proxyway10m2023/06/02
Read on Terminal Reader
Read this story w/o Javascript

অতিদীর্ঘ; পড়তে

ওয়েব স্ক্র্যাপিং ক্যাপচা এবং জিও-সীমাবদ্ধতার মতো নিজস্ব চ্যালেঞ্জ নিয়ে আসে। প্রক্সি আপনার সমস্ত সমস্যার সমাধান করবে না; কিন্তু মৌলিক স্বাস্থ্যবিধি বাদে, যেমন বাস্তবসম্মত ব্যবহারকারী-এজেন্ট ব্যবহার করা, এগুলি হল আপনার ওয়েব স্ক্র্যাপার চালু রাখার সবচেয়ে কার্যকর উপায়।
featured image - আপনার ডেটা বিজ্ঞান প্রকল্পের জন্য প্রক্সি সার্ভার: একটি ব্যাপক নির্দেশিকা
Proxyway HackerNoon profile picture
0-item
1-item

ডেটাসেট তৈরি করার একটি চমৎকার উপায় হল ওয়েব স্ক্র্যাপ করা। এটি বিশেষভাবে প্রাসঙ্গিক হয়ে ওঠে যখন সাধারণ ক্রল বা অফিসিয়াল API-এর মতো উৎসগুলি আপনার প্রকল্পের প্রয়োজনীয়তাগুলি পূরণ করতে ব্যর্থ হয় (উদাহরণস্বরূপ, ডেটা যথেষ্ট সাম্প্রতিক নয় বা টুইটারে আপনার দাম কম)। যাইহোক, ওয়েব স্ক্র্যাপিং ক্যাপচা এবং জিও-সীমাবদ্ধতার মতো নিজস্ব চ্যালেঞ্জ নিয়ে আসে। এখানেই আমাদের নায়ক - প্রক্সি - দৃশ্যে প্রবেশ করে।


একটি প্রক্সি সার্ভার হল অন্য একটি কম্পিউটার (একটি সার্ভার, ফোন, এমনকি IoT ডিভাইস) যা আপনাকে নিজের মাধ্যমে ওয়েবে অ্যাক্সেস করতে দেয়। এইভাবে, আপনি ঐচ্ছিকভাবে ভিন্ন অবস্থান থেকে একটি নতুন আইপি ঠিকানা পাবেন। প্রক্সিগুলি অনেকটা ভিপিএন-এর মতো - পার্থক্য হল আপনি শুধুমাত্র এক বা দুটি সংযোগের পরিবর্তে তাদের অনেকগুলি একবারে ব্যবহার করতে পারেন৷


প্রক্সি সার্ভার কিভাবে কাজ করে। লেখক দ্বারা ছবি.


প্রক্সি সার্ভারগুলি আরও বেশি প্রয়োজনীয় হয়ে উঠছে কারণ ওয়েবসাইটগুলি রেট সীমিতকরণ এবং স্বয়ংক্রিয় অ্যাক্সেস রোধ করতে আরও পরিশীলিত বিধিনিষেধ প্রয়োগ করে৷ কখনও কখনও, ভাল কারণে, যদিও প্রায়শই এটি তাদের বাণিজ্যিক স্বার্থ রক্ষা বা ডেটা একচেটিয়া করার জন্য। প্রক্সি আপনার সব সমস্যার সমাধান করবে না; কিন্তু মৌলিক স্বাস্থ্যবিধি বাদ দিয়ে, যেমন বাস্তবসম্মত ব্যবহারকারী-এজেন্ট ব্যবহার করা, তারা আপনার ওয়েব স্ক্র্যাপার চালু রাখার সবচেয়ে কার্যকর উপায়।


প্রক্সি সার্ভার ছাড়া ওয়েবসাইট স্ক্র্যাপ করার সময় একটি ঘন ঘন ঘটনা। লেখকের ছবি, উৎস: trustpilot.com


এই নির্দেশিকা আপনাকে ওয়েব স্ক্র্যাপিংয়ের প্রসঙ্গে প্রক্সি সার্ভারগুলির একটি শক্তিশালী বোঝার দেবে। এটি তাত্ত্বিক জ্ঞানের সাথে কিছু ব্যবহারিক তথ্যের সাথে আসে যা আমরা আমাদের বার্ষিক প্রক্সি বাজার গবেষণার জন্য সংগ্রহ করেছি।

প্রথম জিনিস প্রথম: আপনি সম্ভবত বিনামূল্যে প্রক্সি ব্যবহার করতে চান না

যখন ওয়েব স্ক্র্যাপাররা (লোকেরা) প্রক্সির প্রয়োজনের সম্মুখীন হয়, তখন তাদের প্রথম প্রবণতা হল একটি বিনামূল্যের প্রক্সি তালিকা চেষ্টা করা। এই তালিকাগুলি সর্বজনীনভাবে অনলাইনে উপলব্ধ; তাদের মধ্যে বেশিরভাগ প্রক্সি আসে দুর্বল বা অব্যবস্থাপিত সার্ভার থেকে।


বিনামূল্যে প্রক্সি সার্ভার তালিকাভুক্ত একটি ওয়েবসাইট. লেখকের ছবি, উৎস: free-proxy.cz


বিনামূল্যের প্রক্সি তালিকাগুলির একটি বড় সমস্যা হল যে আপনি কখনই জানেন না যে সেগুলি কে চালায়৷ অপারেটরের দূষিত উদ্দেশ্য থাকতে পারে, যা বিজ্ঞাপন ইনজেকশন, ট্রাফিক লগিং এবং অন্যান্য বাজে জিনিসের মধ্যে প্রকাশ করতে পারে। এটি ভীতিকর শোনাচ্ছে, তবে এটি একজন ডেটা বিজ্ঞানী হিসাবে আপনাকে প্রভাবিত করার সম্ভাবনা কম: আপনি সম্ভবত অপারেটিং সিস্টেম স্তরে প্রক্সিগুলি কনফিগার করবেন না বা আপনার ব্যাঙ্ক অ্যাকাউন্ট অ্যাক্সেস করতে সেগুলি ব্যবহার করবেন না৷


একটি আরো বিরক্তিকর - যদিও বাস্তবসম্মত - সমস্যা হল যে বিনামূল্যে প্রক্সিগুলি কেবল অবিশ্বস্ত।


তারা খুব কমই বেশি দিন অনলাইনে থাকে; যারা চালায় তারা অসহনীয়ভাবে ধীর কারণ তাদের শত শত ভাড়াটে আছে; এবং যেহেতু তাদের শত শত ভাড়াটে আছে, এই ধরনের প্রক্সি খুব দ্রুত যেকোনো প্রাসঙ্গিক ওয়েবসাইটের সাথে নিজেদের স্ট্রাইক করে। কাজ করার জন্য একটি দুর্দান্ত সরঞ্জাম নয়।


এই কারণে, আমি দৃঢ়ভাবে একটি বাণিজ্যিক প্রক্সি পরিষেবার জন্য অর্থ প্রদানের সুপারিশ করি৷

সেখানে প্রক্সি সার্ভারের ধরন

প্রক্সি সার্ভারগুলি প্রায়শই আইপি উত্স দ্বারা শ্রেণীবদ্ধ করা হয়। ওয়েব স্ক্র্যাপিং উদ্দেশ্যে, আপনি সম্ভবত তিনটি প্রকারের মধ্যে বেছে নেবেন: ডেটাসেন্টার, আবাসিক বা আইএসপি (স্ট্যাটিক আবাসিকও বলা হয়) প্রক্সি।

ডেটাসেন্টার প্রক্সি

এই প্রক্সিগুলি ডেটা সেন্টারে সার্ভারে হোস্ট করা হয়। এগুলি Amazon Cloud Services (AWS) এর উদাহরণ হতে পারে বা অন্য কোন ক্লাউড হোস্টিং প্রদানকারীর কাছ থেকে আসতে পারে। আইপি ডেটাবেসগুলি ডেটাসেন্টার প্রক্সিগুলিকে হোস্টিং বা ডেটাসেন্টার রেঞ্জের অন্তর্গত হিসাবে দেখে।


ডেটাসেন্টার প্রক্সিগুলি সাধারণত শক্তিশালী হার্ডওয়্যার এবং ইন্টারনেট সংযোগে চালিত হয়, তাই আপনি অনেক ডেটা দ্রুত স্ক্র্যাপ করতে পারেন। আইপি খ্যাতি নিরীক্ষণ করে না তবে এমন ওয়েবসাইটগুলির সাথে লড়াই করে এমন লক্ষ্যগুলির জন্য তারা একটি খুব দক্ষ পছন্দ হতে পারে।

আবাসিক প্রক্সি

এই প্রক্সিগুলি প্রকৃত মানুষের আবাসিক ডিভাইস থেকে আসে (তাই নাম)। উদাহরণস্বরূপ, তারা একটি উইন্ডোজ ল্যাপটপ, অ্যান্ড্রয়েড ফোন, বা ওয়াই-ফাইতে একটি স্মার্ট ফ্রিজে চলতে পারে। আইপি ডাটাবেসগুলি আবাসিক প্রক্সিগুলিকে ল্যান্ডলাইন বা মোবাইল সংযোগ হিসাবে শ্রেণীবদ্ধ করে।


আবাসিক প্রক্সিগুলি সর্বদা সারা বিশ্ব থেকে ঠিকানার বড় পুলে আসে। তারা ডেটাসেন্টার আইপিগুলির তুলনায় কম অনুমানযোগ্য কারণ তারা হোস্ট ডিভাইসের সংযোগের গুণমান এবং উপলব্ধতার উপর নির্ভর করে। যাইহোক, এই বৈশিষ্ট্যটি আবাসিক প্রক্সিগুলিকে সব ধরণের ওয়েবসাইটের সাথে খুব কার্যকর করে তোলে, কারণ তারা দেখতে নিয়মিত দর্শকদের মতো।

আইএসপি প্রক্সি

এই প্রক্সিগুলি ডেটা সেন্টারের সার্ভারে হোস্ট করা হয় কিন্তু Verizon-এর মতো ভোক্তা ইন্টারনেট পরিষেবা প্রদানকারীর অধীনে নিবন্ধিত। এটি একটি আইএসপির সাথে একটি চুক্তি স্বাক্ষর করে এবং এটিকে তার নেটওয়ার্কে আইপি ঘোষণা করার মাধ্যমে অর্জন করা হয়। আদর্শভাবে, আইপি ডেটাবেসগুলিকে ল্যান্ডলাইন বা মোবাইল সংযোগের মতো প্রক্সিগুলি সনাক্ত করা উচিত। কখনও কখনও, যদিও, ছোট আঞ্চলিক আইএসপিগুলি এখনও ডেটা সেন্টার হিসাবে শ্রেণীবদ্ধ করা হয়।


আইএসপি প্রক্সিগুলি ডেটাসেন্টার প্রক্সিগুলির গুণাবলী ধরে রাখে তবে একটি ভাল আইপি খ্যাতির কারণে আরও কার্যকরভাবে স্ক্র্যাপ করতে সক্ষম হয়।

কিভাবে প্রক্সি সোর্স করা হয় এবং তারা আইনি কিনা

এই মুহুর্তে, আপনি ভাবতে পারেন, "ওহ, এক মিনিট অপেক্ষা করুন! অ্যান্ড্রয়েড ফোন? একটি botnet মত ভয়ঙ্কর শব্দ! এটাও কি বৈধ?” এটি জিজ্ঞাসা করা একটি ভাল প্রশ্ন, এবং এটি দেখায় যে আপনি যত্নশীল। অনেকেই করে না।


আসল বিষয়টি হল একটি বাণিজ্যিক প্রক্সি সার্ভার এবং একটি বটনেটের মধ্যে একটি সূক্ষ্ম লাইন রয়েছে। এটি ডেটাসেন্টার প্রক্সিগুলিতে কম প্রযোজ্য যেখানে সাপ্লাই চেইনটি বেশ পরিষ্কার: একটি ক্লাউড হোস্ট আইপি কিনে, একটি সার্ভারে রাখে এবং প্রক্সি প্রদানকারীর কাছে ঠিকানাগুলি ভাড়া দেয়৷ কিন্তু নৈতিকতার প্রশ্নটি আবাসিক প্রক্সি নেটওয়ার্কের সাথে খুব প্রাসঙ্গিক হয়ে ওঠে।


বিষয়টির গভীরে না গিয়ে, আবাসিক প্রক্সিগুলি বিভিন্ন উপায়ে পাওয়া যেতে পারে। ডেস্কটপ এবং মোবাইল অ্যাপ্লিকেশনে SDK-এর মাধ্যমে সবচেয়ে জনপ্রিয় পদ্ধতি। এই ভিডিওটি দেখতে কেমন তার নির্দিষ্ট উদাহরণ দেয়৷

আরেকটি উপায় হল একটি পরিষেবা (যেমন একটি বিনামূল্যের ভিপিএন, ব্রাইটভিপিএন দেখুন) বা অর্থ (হানিগেইনের মতো ব্যান্ডউইথ-শেয়ারিং অ্যাপ ব্যবহার করে) জন্য সরাসরি ট্রাফিক বিনিময় করা।


প্রক্সি প্রদানকারীরা এই ধরনের অ্যাপে SDK এম্বেড করে। লেখকের ছবি, উৎস: bright-sdk.com


যে কোনও ক্ষেত্রে, আইপি উত্সটি ব্যবস্থা সম্পর্কে সচেতন এবং এতে সম্মতি রয়েছে তা নিশ্চিত করার দায়িত্ব প্রক্সি প্রদানকারীর উপর পড়ে। আপনি প্রদানকারীর ওয়েবসাইটে প্রক্সি সোর্সিং এবং ব্যবহারের পদ্ধতি সম্পর্কে তথ্য খুঁজে পেতে সক্ষম হওয়া উচিত। এটি উল্লেখযোগ্যভাবে সম্ভাবনা হ্রাস করে যে আপনি একটি বটনেট ব্যবহার করবেন।

প্রক্সি সার্ভার কনফিগারেশন

প্রক্সি সার্ভারের ভাড়াটিয়া এবং ঘূর্ণনের উপর ভিত্তি করে বিভিন্ন কনফিগারেশন থাকতে পারে।


প্রথম মানদণ্ডটি বর্ণনা করে যে একই প্রক্সি সার্ভার একসাথে কতজন ব্যবহার করতে পারে। সমস্ত বিনামূল্যের প্রক্সি তালিকায় সম্ভাব্য শত শত ভাড়াটে রয়েছে, যখন বাণিজ্যিক প্রক্সি প্রদানকারীরা সীমা আরোপ করে। মার্কেট লিঙ্গোতে, শেয়ার্ড বা আধা-শেয়ার করা মানে আপনি একই প্রক্সি সার্ভার ব্যবহার করবেন অন্য অনেক লোকের সাথে (প্রায়ই এক থেকে চারটি)। প্রাইভেট বা ডেডিকেটেড মানে আপনি একাই সমস্ত বা নির্দিষ্ট ডোমেনের জন্য প্রক্সি ব্যবহার করবেন।


ভাড়াটিয়া বাছাই করার ক্ষমতা ডেটাসেন্টার এবং আইএসপি প্রক্সিগুলির একটি বৈশিষ্ট্য, কারণ প্রদানকারীদের তাদের উপর সম্পূর্ণ মালিকানা রয়েছে। এটি আবাসিক প্রক্সিগুলির সাথে অনুপলব্ধ কিন্তু কম প্রাসঙ্গিক — আবাসিক ব্যবহারকারীদের আরও স্বাভাবিক ব্রাউজিং প্যাটার্ন রয়েছে এবং অনুরোধ সহ ওয়েবসাইটগুলিকে ওভারলোড করার সম্ভাবনা কম৷


দ্বিতীয় মানদণ্ড, ঘূর্ণন, দেখায় প্রক্সি সার্ভারগুলি স্বয়ংক্রিয়ভাবে পরিবর্তন হয় কিনা। যেগুলি প্রায়শই আইপি: পোর্ট (1) হিসাবে ফর্ম্যাট করা প্রক্সি তালিকায় আসে না। যেগুলি এন্ডপয়েন্ট:পোর্ট (2) এর বিন্যাস গ্রহণ করে:


  1. 192.168.0.1:10000

  2. en.proxyprovider.net:10000


এন্ডপয়েন্ট প্রদানকারীর প্রক্সি পুলের গেটওয়ে হিসেবে কাজ করে। এটি স্বয়ংক্রিয়ভাবে ব্যাকএন্ডে বিভিন্ন ঠিকানার মাধ্যমে আপনার অনুরোধগুলিকে রুট করে। এমনকি যখন একটি IP ঠিকানা পরিবর্তিত হয়, শেষ পয়েন্ট একই থাকে।


ঘোরানো প্রক্সিগুলি ওয়েব স্ক্র্যাপিংয়ের জন্য খুব সুবিধাজনক, কারণ আপনি কার্যকরভাবে অসীম সংখ্যক আইপিগুলিতে অ্যাক্সেস পান (হাজার থেকে মিলিয়ন)। যাইহোক, এই ধরনের পরিষেবাগুলি প্রায়শই ট্র্যাফিক ব্যয়ের জন্য চার্জ করে, যখন স্ট্যাটিক প্রক্সি তালিকাগুলি সীমাহীন ট্র্যাফিক অফার করে।

বিভিন্ন প্রক্সি ধরনের তুলনা

আসুন আলোচিত প্রক্সি প্রকারের তুলনা করি তাদের বিভিন্ন বৈশিষ্ট্যের উপর ভিত্তি করে।

ক্রয়ক্ষমতা

ঘূর্ণায়মান প্রক্সি নেটওয়ার্কের ক্ষেত্রে, আবাসিক প্রক্সিগুলির দাম ডেটাসেন্টার ঠিকানার চেয়ে প্রায় 8 থেকে 10 গুণ বেশি এবং ঘূর্ণায়মান ISP প্রক্সি নেটওয়ার্কগুলির চেয়ে একটু কম।


গিগাবাইট প্রতি গড় মূল্য দুটি মূল্য পয়েন্টে। লেখক দ্বারা ছবি.


স্ট্যাটিক প্রক্সি নেটওয়ার্ক সাধারণত প্রতি IP ঠিকানায় চার্জ করে। ISP প্রক্সির তুলনায়, ডেটাসেন্টার প্রক্সি সার্ভারের দাম দুই থেকে তিন গুণ কম, আপনি কতটা কিনছেন তার উপর নির্ভর করে।

অবকাঠামো কর্মক্ষমতা

অপ্রত্যাশিত শেষ-ব্যবহারকারী ডিভাইসের মাধ্যমে ট্র্যাফিক রাউটিং করা সত্ত্বেও, প্রধান আবাসিক প্রক্সি নেটওয়ার্কগুলি খুব ভাল কাজ করে। ওয়েব স্ক্র্যাপিং উদ্দেশ্যে (যখন প্রতিটি সংযোগ অনুরোধের সাথে আইপি ঘোরে), তারা প্রায় ডেটাসেন্টার প্রক্সিগুলির পাশাপাশি ডেটা স্থানান্তর করে:


প্রতিটি প্রক্সি টাইপের সাথে কমপক্ষে 50,000টি সংযোগের অনুরোধ করার পরে মাঝারি পরিকাঠামোর সাফল্যের হার। লেখক দ্বারা ছবি.


আমরা লেটেন্সিতে একটি বড় পার্থক্য দেখতেও ব্যর্থ হয়েছি। নীচে একটি বিশ্বব্যাপী CDN এর নিকটতম সার্ভারে করা অনুরোধগুলির প্রতিক্রিয়ার সময় (প্রতিক্রিয়ার আকার কয়েক কিলোবাইট) এবং Amazon (প্রায় 1 MB প্রতিক্রিয়া আকার):


একটি CDN-এ কমপক্ষে 50,000টি সংযোগ অনুরোধ এবং Amazon-এ 2,600টি সংযোগ অনুরোধ করার পর মধ্যম প্রতিক্রিয়ার সময়। লেখক দ্বারা ছবি.


একটি এলাকা যেখানে ডেটাসেন্টার এবং আইএসপি প্রক্সি আধিপত্য বিস্তার করে তা হল থ্রুপুট। ডাটা ট্রান্সফার করার জন্য তাদের বিস্তৃত পাইপ আছে। কিছু আবাসিক প্রক্সি খুব দ্রুত হতে পারে, কিন্তু আপনি ঠিক সেইসাথে সার্ভারের মুখোমুখি হতে পারেন যেগুলি 1 Mbps-এ পৌঁছাতে ব্যর্থ হয়। অনেক কম অনুমানযোগ্যতা আছে.

আইপি আপটাইম

ডেটাসেন্টার এবং আইএসপি প্রক্সিগুলি প্রায় 24/7 থাকতে পারে, শুধুমাত্র বিভ্রাট বা রক্ষণাবেক্ষণ ঘটলেই অফলাইনে যেতে পারে। একটি আবাসিক প্রক্সির আপটাইম বিভিন্ন কারণের উপর নির্ভর করে, যেমন এটি একটি Windows বা Android ডিভাইস থেকে আসে কিনা। যাই হোক না কেন, সার্ভার-ভিত্তিক প্রক্সিগুলির তুলনায় এটি অনেক ছোট এবং কম নির্ভরযোগ্য।


আমরা একটি স্ক্রিপ্ট লিখেছি যেটি প্রতি 20 সেকেন্ডে একটি আইপি ডাটাবেস পিং করে তা দেখতে কত ঘন ঘন একটি আবাসিক আইপি ঠিকানা পরিবর্তন হবে। এখানে কিছু ফলাফল আছে:


  • আইপি #1: 43 সেকেন্ড
  • আইপি #2: এক ঘন্টার বেশি
  • আইপি #3: 3 মিনিট, 33 সেকেন্ড
  • IP #4: 8 মিনিট, 31 সেকেন্ড
  • আইপি #5: এক ঘন্টার বেশি

স্ক্র্যাপিং কার্যকারিতা

ডেটাসেন্টার প্রক্সিগুলি Google বা সোশ্যাল মিডিয়ার মতো সুরক্ষিত বা অত্যন্ত জনপ্রিয় ওয়েবসাইটের বিরুদ্ধে লড়াই করে৷ ক্লিনার ব্যবহারের ইতিহাস সহ ডেডিকেটেড আইপি বেছে নিয়ে এটি কিছুটা প্রশমিত করা যেতে পারে।


অ্যামাজনে কমপক্ষে 2,600টি সংযোগের অনুরোধ করার পরে মাঝারি সাফল্যের হার। লেখক দ্বারা ছবি.


কখনও কখনও, একটি ডেটাসেন্টার আইপি পরিসর থেকে সংযোগ করা ওয়েবসাইটগুলি আপনাকে প্রবেশ করতে না দেওয়ার জন্য যথেষ্ট৷ এই ধরনের ক্ষেত্রে, একমাত্র উপায় হল একটি ভিন্ন প্রক্সি টাইপ ব্যবহার করা৷


একটি ওয়েবসাইট ব্লকিং ডেটাসেন্টার আইপি ঠিকানা. লেখক দ্বারা ছবি.


আইএসপি প্রক্সিগুলির ডিফল্টরূপে একটি ভাল আইপি খ্যাতি রয়েছে, তাই তারা কম প্রাথমিক তদন্তের সম্মুখীন হয়। যাইহোক, সত্যিকারের আবাসিক ঠিকানার তুলনায় তাদের এখনও কম বাস্তবসম্মত ব্রাউজিং প্যাটার্ন রয়েছে। আবাসিক প্রক্সি সার্ভারগুলি বড় পুল গঠন করে, খুব বৈচিত্র্যময় এবং প্রকৃত লোকেদের সাথে ব্রাউজিং ইতিহাস ভাগ করে। এই গুণাবলী তাদের ওয়েবসাইটের বৃহত্তর দর্শকদের থেকে আলাদা করা খুব কঠিন করে তোলে।

অবস্থান বৈচিত্র্য

ডেটাসেন্টার এবং আইএসপি প্রক্সিগুলি ডেটা সেন্টারে হোস্ট করা হয় এবং উপলভ্য ডেটাসেন্টারের সংখ্যা সীমিত। সর্বাধিক ঘন ঘন অবস্থান সম্ভবত অ্যাশবার্ন, যদিও প্রধান প্রদানকারীরা আপনাকে ডজন ডজন দেশ থেকে ডেটাসেন্টার আইপি পেতে পারে। যাইহোক, যদি আপনার ছোট লোকেলে ঠিকানার প্রয়োজন হয়, এবং বিশেষ করে তাদের অ-রাজধানী শহর, আপনি ভাগ্যের বাইরে হবেন।


আবাসিক প্রক্সিগুলিতে এমন কোনও বিধিনিষেধ নেই — যতক্ষণ পর্যন্ত একটি ডিভাইস এবং একজন ইচ্ছুক অংশগ্রহণকারী থাকে, যে কোনও জায়গা থেকে যে কেউ যোগ দিতে পারে৷ ফলস্বরূপ, প্রধান প্রদানকারীরা শহর, ASN এবং কখনও কখনও জিপ কোড টার্গেটিং সহ সমস্ত দেশে আইপি অফার করতে পারে।

জনপ্রিয়তা

প্রধান প্রক্সি প্রদানকারীদের আমাদের সমীক্ষার উপর ভিত্তি করে, বেশিরভাগই তাদের সবচেয়ে জনপ্রিয় পণ্য হিসাবে আবাসিক প্রক্সি বেছে নিয়েছে। শুধুমাত্র দুটি প্রদানকারী নির্দিষ্ট ডেটাসেন্টার প্রক্সি সার্ভার, এবং কোন আইএসপি প্রক্সি।


সমীক্ষার প্রতিক্রিয়ার সংখ্যা অনুসারে সর্বাধিক জনপ্রিয় প্রক্সি প্রকার।


সাম্প্রতিক বছরগুলিতে ডেটাসেন্টার প্রক্সিগুলি বন্ধ হয়ে যাচ্ছে, কারণ Amazon, Google, LinkedIn এবং অন্যান্যদের মতো প্রধান লক্ষ্যগুলি তাদের নিরাপত্তা ব্যবস্থাকে কঠোর করেছে৷ আইএসপি প্রক্সিগুলির তাদের জায়গা নেওয়ার ক্ষমতা রয়েছে, তবে তাদের গ্রহণ করা সোর্সিং অসুবিধার দ্বারা বাধাগ্রস্ত হয় — নামীদামী আইএসপিগুলি অনবোর্ডে পাওয়া কঠিন।

আপনার প্রকল্পের জন্য সুপারিশ

কিন্তু যথেষ্ট তত্ত্ব। কিভাবে আপনি আপনার প্রকল্পে এই জ্ঞান প্রয়োগ করতে পারেন? আমি প্রক্সি সার্ভারের পরামর্শ সহ একাধিক পরিস্থিতিতে মডেল করেছি।


এই নিবন্ধটিকে বাণিজ্যিক স্বার্থ থেকে মুক্ত রাখতে, আমি নির্দিষ্ট প্রদানকারীদের উল্লেখ করব না। আপনি যদি কিছু সুপারিশ চান, আমরা আমাদের ওয়েবসাইটে প্রধান প্রদানকারীর তুলনা করি (দাবি: আমরা সেই কোম্পানিগুলির বেশিরভাগের সাথে একটি অধিভুক্ত সম্পর্কের মধ্যে আছি। যাইহোক, এটি আমাদের বাজার প্রতিবেদনে কোন প্রভাব ফেলে না।)

উন্নত সুরক্ষা ছাড়াই ওয়েবসাইটগুলি স্ক্র্যাপ করা

উদাহরণ: একটি ছোটখাট নিউজ পোর্টাল, ই-কমার্স ওয়েবসাইট বা এমনকি নন-গুগল সার্চ ইঞ্জিন স্ক্র্যাপ করা।

সুপারিশ: ডেটাসেন্টার প্রক্সি ঘোরানো। আপনি $0.7/GB বা তার কম মূল্যে 2,000-100,000 ঘূর্ণায়মান IP-এর পুলে অ্যাক্সেস পেতে পারেন। আপনাকে অবরুদ্ধ আইপি প্রতিস্থাপনের বিষয়ে চিন্তা করতে হবে না, এবং কিছু গুরুতর ডেটা নিষ্কাশনের জন্য ট্র্যাফিকের খরচ যথেষ্ট কম।

মাল্টিমিডিয়া কন্টেন্ট ডাউনলোড করা হচ্ছে

উদাহরণ: সংরক্ষণাগারের উদ্দেশ্যে একটি স্ট্রিমিং পরিষেবা থেকে ভিডিও ডাউনলোড করা বা ছবি সংযোজনকারী থেকে ছবি।

সুপারিশ: স্ট্যাটিক ডেটাসেন্টার বা আইএসপি প্রক্সি। তারা দ্রুত এবং ট্রাফিক খরচ গণনা না. ওয়েবসাইট যখন অনুমতি দেয় তখন ডেটাসেন্টার প্রক্সিগুলির জন্য যান এবং অন্যথায় আইএসপি প্রক্সিগুলির জন্য যান৷

অনেক বিভিন্ন ওয়েবসাইট ক্রল করা

উদাহরণ: ওয়েব জুড়ে ব্র্যান্ডের উল্লেখ অনুসন্ধান করা।

সুপারিশ: স্ট্যাটিক ডেটাসেন্টার বা আইএসপি প্রক্সি। ক্রলিংয়ের জন্য প্রচুর ডেটার প্রয়োজন হয়, তাই একটি প্রক্সি টাইপ বেছে নেওয়া ভাল যা ট্র্যাফিককে প্রধান মেট্রিক হিসাবে ব্যবহার করে না৷ এছাড়াও, আপনি যখন লক্ষ্য পরিবর্তন করবেন তখন সীমিত সংখ্যক আইপিও আপনাকে অনেক দূর নিয়ে যাবে।

বড় জনপ্রিয় লক্ষ্য স্ক্র্যাপিং

উদাহরণ: LinkedIn থেকে চাকরির বিজ্ঞাপন, G2 থেকে কোম্পানির তথ্য বা একটি সামাজিক মিডিয়া নেটওয়ার্ক থেকে হ্যাশট্যাগ করা পোস্ট।

প্রস্তাবনা: আবাসিক প্রক্সি। কার্যকরভাবে অসীম সংখ্যক আইপি সহ, আপনি আপনার প্রক্সিগুলি নিষিদ্ধ করার ঝুঁকি নেবেন না। এছাড়াও, আপনি অন্যান্য প্রক্সি প্রকারের তুলনায় উচ্চতর সাফল্যের হার অনুভব করবেন।

রিয়েল-টাইম ডেটা সংগ্রহ করা হচ্ছে

উদাহরণ: স্টক মূল্যের গতিবিধি ট্র্যাক করা।

সুপারিশ: যদি ওয়েবসাইট তাদের অনুমতি দেয় ডেটাসেন্টার প্রক্সি; অন্যথায়, আইএসপি প্রক্সি**।** তাদের দ্রুত সংযোগের গতি নিশ্চিত করে যে আপনি এটি প্রদর্শিত হিসাবে ডেটা বের করবেন।

হাইপার-স্থানীয় পৃষ্ঠাগুলি অ্যাক্সেস করা

উদাহরণ: স্থানীয় Google কোয়েরির জন্য সার্চ ইঞ্জিন পৃষ্ঠার অবস্থান পর্যবেক্ষণ করা।

প্রস্তাবনা: আবাসিক প্রক্সি, কারণ তারা শহর-স্তরের আইপি ফিল্টারিং সমর্থন করে।

উপসংহার

এই নিবন্ধটি আপনাকে ওয়েব স্ক্র্যাপিং উদ্দেশ্যে প্রক্সি সার্ভারগুলির একটি সংক্ষিপ্ত ভূমিকা দিয়েছে। এটি পড়ার পরে, আপনি প্রধান প্রক্সি প্রকার, কনফিগারেশন এবং কোন সেটআপ আপনার ডেটা সায়েন্স প্রজেক্টকে সবচেয়ে বেশি উপকৃত করবে তার মধ্যে পার্থক্য করতে সক্ষম হবেন।