paint-brush
Proxyserver für Ihr Data-Science-Projekt: Ein umfassender Leitfadenvon@proxyway
1,585 Lesungen
1,585 Lesungen

Proxyserver für Ihr Data-Science-Projekt: Ein umfassender Leitfaden

von Proxyway10m2023/06/02
Read on Terminal Reader
Read this story w/o Javascript

Zu lang; Lesen

Web Scraping bringt eigene Herausforderungen wie CAPTCHAs und geografische Beschränkungen mit sich. Proxys werden nicht alle Ihre Probleme lösen; Aber abgesehen von grundlegenden Hygienemaßnahmen, wie der Verwendung realistischer Benutzeragenten, sind sie die effektivste Möglichkeit, Ihren Web Scraper am Laufen zu halten.
featured image - Proxyserver für Ihr Data-Science-Projekt: Ein umfassender Leitfaden
Proxyway HackerNoon profile picture
0-item
1-item

Eine hervorragende Möglichkeit, Datensätze zu erstellen, ist das Scrapen des Webs. Dies wird besonders relevant, wenn Quellen wie Common Crawl oder offizielle APIs die Anforderungen Ihres Projekts nicht erfüllen (z. B. weil die Daten nicht aktuell genug sind oder Twitter Sie preist). Web Scraping bringt jedoch eigene Herausforderungen wie CAPTCHAs und geografische Beschränkungen mit sich. Hier kommen unsere Helden – Stellvertreter – ins Spiel.


Ein Proxyserver ist ein anderer Computer (ein Server, ein Telefon oder sogar ein IoT-Gerät), über den Sie über sich selbst auf das Internet zugreifen können. Auf diese Weise erhalten Sie eine neue IP-Adresse von einem optional anderen Standort. Proxys ähneln VPNs – der Unterschied besteht darin, dass Sie viele davon gleichzeitig verwenden können, anstatt nur eine oder zwei Verbindungen.


So funktionieren Proxyserver. Bild vom Autor.


Proxyserver werden immer notwendiger, da Websites Ratenbegrenzungen und ausgefeiltere Einschränkungen implementieren, um automatisierten Zugriff zu verhindern. Manchmal aus guten Gründen, oft aber auch, um ihre kommerziellen Interessen zu schützen oder Daten zu monopolisieren. Proxys werden nicht alle Ihre Probleme lösen; Aber abgesehen von grundlegenden Hygienemaßnahmen, wie der Verwendung realistischer Benutzeragenten, sind sie die effektivste Möglichkeit, Ihren Web Scraper am Laufen zu halten.


Ein häufiges Problem beim Scraping von Websites ohne Proxyserver. Bild vom Autor, Quelle: trustpilot.com


Dieser Leitfaden vermittelt Ihnen ein umfassendes Verständnis von Proxyservern im Zusammenhang mit Web Scraping. Es enthält theoretisches Wissen sowie einige praktische Daten, die wir für unsere jährliche Proxy-Marktforschung gesammelt haben.

Das Wichtigste zuerst: Sie möchten höchstwahrscheinlich keine kostenlosen Proxys verwenden

Wenn Web-Scraper (die Leute) auf einen Bedarf an Proxys stoßen, besteht ihr erster Impuls darin, eine kostenlose Proxy-Liste auszuprobieren. Diese Listen sind online öffentlich verfügbar; Die meisten darin enthaltenen Proxys stammen von anfälligen oder schlecht verwalteten Servern.


Eine Website, die kostenlose Proxyserver auflistet. Bild vom Autor, Quelle: free-proxy.cz


Ein großes Problem bei kostenlosen Proxy-Listen besteht darin, dass man nie weiß, wer sie betreibt. Der Betreiber könnte böswillige Absichten haben, die sich in der Einschleusung von Werbung, der Protokollierung des Datenverkehrs und anderen bösen Dingen äußern können. Das hört sich beängstigend an, wird Sie als Datenwissenschaftler aber kaum beeinträchtigen: Sie werden wahrscheinlich keine Proxys auf Betriebssystemebene konfigurieren oder sie für den Zugriff auf Ihr Bankkonto verwenden.


Ein langweiligeres – wenn auch realistisches – Problem ist, dass kostenlose Proxys einfach unzuverlässig sind.


Sie bleiben selten lange online; diejenigen, die funktionieren, sind unerträglich langsam, weil sie Hunderte von Mietern haben; Und weil sie Hunderte von Mandanten haben, fallen solche Proxys sehr schnell auf jede relevante Website. Kein gutes Werkzeug zum Arbeiten.


Aus diesem Grund empfehle ich dringend, für einen kommerziellen Proxy-Dienst zu bezahlen.

Es gibt verschiedene Arten von Proxyservern

Proxyserver werden am häufigsten nach der IP-Quelle kategorisiert. Für Web-Scraping-Zwecke werden Sie höchstwahrscheinlich zwischen drei Typen wählen: Rechenzentrums-, Privat- oder ISP-Proxys (auch als statische Privat-Proxys bezeichnet).

Rechenzentrums-Proxys

Diese Proxys werden auf Servern in Rechenzentren gehostet. Sie können Instanzen von Amazon Cloud Services (AWS) sein oder von einem anderen Cloud-Hosting-Anbieter stammen. IP-Datenbanken betrachten Rechenzentrums-Proxys als zu Hosting- oder Rechenzentrumsbereichen gehörend.


Rechenzentrums-Proxys werden in der Regel auf leistungsstarker Hardware und Internetverbindung ausgeführt, sodass Sie viele Daten schnell abrufen können. Sie können eine sehr effiziente Wahl für Ziele sein, die die IP-Reputation nicht überwachen, aber Probleme mit Websites haben, die dies tun.

Wohn-Proxys

Diese Proxys stammen von Wohngeräten realer Menschen (daher der Name). Sie können beispielsweise auf einem Windows-Laptop, einem Android-Telefon oder einem intelligenten Kühlschrank über WLAN ausgeführt werden. IP-Datenbanken klassifizieren Wohn-Proxys als Festnetz- oder Mobilfunkverbindungen .


Wohn-Proxys kommen immer aus großen Adresspools aus der ganzen Welt. Sie sind weniger vorhersehbar als IP-Adressen von Rechenzentren, da sie von der Verbindungsqualität und Verfügbarkeit des Hostgeräts abhängen. Gerade diese Funktion macht private Proxys jedoch bei allen Arten von Websites sehr effektiv, da sie wie normale Besucher aussehen.

ISP-Proxys

Diese Proxys werden auf Servern in Rechenzentren gehostet, sind aber bei privaten Internetdienstanbietern wie Verizon registriert. Dies wird erreicht, indem Sie einen Vertrag mit einem ISP unterzeichnen und ihn dazu veranlassen, IPs in seinem Netzwerk bekannt zu geben. Idealerweise sollten IP-Datenbanken solche Proxys als Festnetz- oder Mobilfunkverbindungen identifizieren. Manchmal werden kleinere regionale ISPs jedoch immer noch als Rechenzentren eingestuft.


ISP-Proxys behalten die Qualitäten von Rechenzentrums-Proxys bei, sind aber aufgrund einer besseren IP-Reputation in der Lage, effektiveres Scraping durchzuführen.

Wie Proxys beschafft werden und ob sie legal sind

An diesem Punkt denken Sie vielleicht: „Wah, warte mal! Android-Telefone? Klingt furchtbar nach einem Botnetz! Ist das überhaupt legal?“ Das ist eine gute Frage, denn sie zeigt, dass es Ihnen wichtig ist. Viele nicht.


Tatsache ist, dass zwischen einem kommerziellen Proxyserver und einem Botnetz ein schmaler Grat besteht. Dies gilt weniger für Proxys in Rechenzentren, bei denen die Lieferkette ziemlich klar ist: Ein Cloud-Host kauft IPs, legt sie auf einem Server ab und vermietet die Adressen an einen Proxy-Anbieter. Aber die Frage der Ethik wird bei Proxy-Netzwerken für Privathaushalte sehr relevant.


Ohne zu tief in das Thema einzutauchen, gibt es verschiedene Möglichkeiten, Proxys für Wohnimmobilien zu beschaffen. Die beliebteste Methode sind SDKs in Desktop- und Mobilanwendungen. Dieses Video zeigt konkrete Beispiele, wie das aussieht.

Eine andere Möglichkeit besteht darin, den Datenverkehr direkt gegen einen Dienst (z. B. ein kostenloses VPN, siehe BrightVPN) oder Geld (mithilfe von Apps zur gemeinsamen Nutzung der Bandbreite wie Honeygain) einzutauschen.


Proxy-Anbieter betten SDKs in solche Apps ein. Bild vom Autor, Quelle: Bright-sdk.com


In jedem Fall liegt die Verantwortung beim Proxy-Anbieter, sicherzustellen, dass die IP-Quelle von der Vereinbarung Kenntnis hat und ihr zustimmt. Informationen zum Proxy-Sourcing und zu Nutzungsansätzen sollten Sie auf der Website des Anbieters finden. Dadurch verringert sich die Wahrscheinlichkeit, dass Sie ein Botnetz nutzen, erheblich.

Proxy-Server-Konfigurationen

Proxyserver können je nach Mandantenverhältnis und Rotation unterschiedliche Konfigurationen haben.


Das erste Kriterium beschreibt, wie viele Personen gleichzeitig denselben Proxyserver nutzen können. Alle kostenlosen Proxy-Listen haben potenziell Hunderte von Mandanten, während kommerzielle Proxy-Anbieter Grenzen setzen. In der Marktsprache bedeutet Shared oder Semi-Shared, dass Sie denselben Proxyserver mit mehreren anderen Personen (häufig ein bis vier) verwenden. Privat oder dediziert bedeutet, dass Sie allein die Proxys für alle oder bestimmte Domänen verwenden.


Die Möglichkeit, den Mandanten zu wählen, ist ein Merkmal von Rechenzentrums- und ISP-Proxys, da die Anbieter das volle Eigentum an ihnen haben. Es ist bei Privat-Proxys nicht verfügbar, aber auch weniger relevant – Privatanwender haben ein natürlicheres Surfverhalten und neigen weniger dazu, Websites mit Anfragen zu überlasten.


Das zweite Kriterium Rotation zeigt an, ob Proxy-Server automatisch wechseln. Diejenigen, die nicht oft in Proxy-Listen im Format IP:Port (1) vorkommen. Diejenigen, die dies tun, haben das Format endpoint:port (2):


  1. 192.168.0.1:10000

  2. de.proxyprovider.net:10000


Der Endpunkt fungiert als Gateway zum Proxy-Pool des Anbieters. Es leitet Ihre Anfragen automatisch über verschiedene Adressen im Backend weiter. Selbst wenn sich eine IP-Adresse ändert, bleibt der Endpunkt derselbe.


Rotierende Proxys sind für Web Scraping sehr praktisch, da Sie Zugriff auf praktisch unendlich viele IPs (Tausende bis Millionen) erhalten. Allerdings erheben solche Dienste oft Gebühren für den Traffic-Aufwand, während statische Proxy-Listen tendenziell unbegrenzten Traffic bieten.

Vergleich der verschiedenen Proxy-Typen

Vergleichen wir die besprochenen Proxy-Typen anhand ihrer verschiedenen Eigenschaften.

Bezahlbarkeit

Bei rotierenden Proxy-Netzwerken kosten Privat-Proxys etwa acht- bis zehnmal mehr als Rechenzentrumsadressen und etwas weniger als rotierende ISP-Proxy-Netzwerke.


Durchschnittspreis pro Gigabyte bei zwei Preispunkten. Bild vom Autor.


Statische Proxy-Netzwerke berechnen normalerweise pro IP-Adresse. Im Vergleich zu ISP-Proxys kosten Rechenzentrums-Proxyserver zwei- bis dreimal weniger, je nachdem, wie viel Sie kaufen.

Infrastrukturleistung

Obwohl der Datenverkehr über unvorhersehbare Endbenutzergeräte geleitet wird, funktionieren große Proxy-Netzwerke für Privathaushalte sehr gut. Für Web-Scraping-Zwecke (wenn die IP bei jeder Verbindungsanfrage wechselt) übertragen sie Daten fast genauso gut wie Rechenzentrums-Proxys:


Mittlere Erfolgsquote der Infrastruktur nach mindestens 50.000 Verbindungsanfragen mit jedem Proxytyp. Bild vom Autor.


Auch bei der Latenz konnten wir keinen großen Unterschied feststellen. Nachfolgend sind die Antwortzeiten für Anfragen aufgeführt, die an den nächstgelegenen Server eines globalen CDN (die Antwortgröße beträgt mehrere Kilobyte) und an Amazon (ca. 1 MB Antwortgröße) gerichtet sind:


Mittlere Antwortzeit nach mindestens 50.000 Verbindungsanfragen an ein CDN und 2.600 Verbindungsanfragen an Amazon. Bild vom Autor.


Ein Bereich, in dem Rechenzentrums- und ISP-Proxys dominieren, ist der Durchsatz. Sie verfügen über breitere Rohre zur Datenübertragung. Einige Privat-Proxys können sehr schnell sein, es kann aber auch vorkommen, dass Server keine 1 Mbit/s erreichen. Es gibt viel weniger Vorhersehbarkeit.

IP-Verfügbarkeit

Rechenzentrums- und ISP-Proxys können nahezu rund um die Uhr aktiv bleiben und gehen nur dann offline, wenn ein Ausfall oder eine Wartung auftritt. Die Betriebszeit eines Privat-Proxys hängt von verschiedenen Faktoren ab, beispielsweise davon, ob er von einem Windows- oder Android-Gerät stammt. Auf jeden Fall ist es im Vergleich zu serverbasierten Proxys viel kürzer und weniger zuverlässig.


Wir haben ein Skript geschrieben, das alle 20 Sekunden eine IP-Datenbank anpingt, um zu sehen, wie oft sich eine private IP-Adresse ändert. Hier einige Ergebnisse:


  • IP #1: 43 Sekunden
  • IP #2: Über eine Stunde
  • IP #3: 3 Minuten, 33 Sekunden
  • IP #4: 8 Minuten, 31 Sekunden
  • IP #5: Über eine Stunde

Kratzeffektivität

Rechenzentrums-Proxys haben mit geschützten oder sehr beliebten Websites wie Google oder sozialen Medien zu kämpfen. Dies kann etwas abgemildert werden, indem dedizierte IPs mit einem saubereren Nutzungsverlauf ausgewählt werden.


Mittlere Erfolgsquote nach mindestens 2.600 Verbindungsanfragen an Amazon. Bild vom Autor.


Manchmal reicht die Verbindung über den IP-Bereich eines Rechenzentrums aus, damit Websites Sie nicht hereinlassen. In solchen Fällen besteht die einzige Möglichkeit darin, einen anderen Proxy-Typ zu verwenden.


Eine Website, die IP-Adressen von Rechenzentren blockiert. Bild vom Autor.


ISP-Proxys haben standardmäßig eine bessere IP-Reputation, sodass sie weniger anfänglicher Prüfung ausgesetzt sind. Allerdings weisen sie im Vergleich zu einer echten Wohnadresse immer noch ein weniger realistisches Surfverhalten auf. Privat-Proxyserver bilden große Pools, sind sehr vielfältig und teilen den Browserverlauf mit echten Menschen. Diese Eigenschaften machen es sehr schwer, sie vom breiteren Publikum der Website zu unterscheiden.

Standortvielfalt

Rechenzentrums- und ISP-Proxys werden in Rechenzentren gehostet und die Anzahl der verfügbaren Rechenzentren ist begrenzt. Der häufigste Standort ist wahrscheinlich Ashburn, obwohl große Anbieter Ihnen Rechenzentrums-IPs aus Dutzenden von Ländern besorgen können. Wenn Sie jedoch Adressen in kleineren Orten und insbesondere in deren Nicht-Hauptstädten benötigen, werden Sie Pech haben.


Für private Proxys gibt es keine derartigen Einschränkungen – solange ein Gerät und ein williger Teilnehmer vorhanden sind, kann jeder von überall aus teilnehmen. Folglich können große Anbieter IPs in allen Ländern mit Stadt-, ASN- und manchmal sogar Postleitzahlen-Targeting anbieten.

Popularität

Basierend auf unserer Umfrage unter großen Proxy-Anbietern wählten die meisten Privat-Proxys als ihr beliebtestes Produkt. Nur zwei Anbieter gaben Proxy-Server für Rechenzentren an, keiner jedoch ISP-Proxys.


Die beliebtesten Proxy-Typen nach Anzahl der Umfrageantworten.


Rechenzentrums-Proxys sind in den letzten Jahren zurückgegangen, da große Angriffsziele wie Amazon, Google, LinkedIn und andere ihre Sicherheitssysteme verschärft haben. ISP-Proxys haben die Kapazität, ihren Platz einzunehmen, aber ihre Akzeptanz wird durch Beschaffungsschwierigkeiten behindert – es ist schwierig, seriöse ISPs an Bord zu holen.

Empfehlungen für Ihre Projekte

Aber genug der Theorie. Wie können Sie dieses Wissen auf Ihr Projekt anwenden? Ich habe mehrere Szenarien mit Proxy-Server-Vorschlägen modelliert.


Um diesen Artikel frei von kommerziellen Interessen zu halten, verzichte ich auf die Nennung einzelner Anbieter. Wenn Sie Empfehlungen wünschen, vergleichen wir die wichtigsten Anbieter auf unserer Website (Haftungsausschluss: Mit den meisten dieser Unternehmen stehen wir in einer Affiliate-Beziehung. Dies hat jedoch keinen Einfluss auf unsere Marktberichte.)

Scraping von Websites ohne erweiterten Schutz

Beispiel: Scraping eines kleineren Nachrichtenportals, einer E-Commerce-Website oder sogar einer Nicht-Google-Suchmaschine.

Empfehlung: Rotierende Rechenzentrums-Proxys. Sie können für 0,7 $/GB oder weniger auf einen Pool von 2.000–100.000 rotierenden IPs zugreifen. Sie müssen sich keine Gedanken darüber machen, blockierte IPs zu ersetzen, und die Kosten für den Datenverkehr sind niedrig genug für eine ernsthafte Datenextraktion.

Herunterladen von Multimedia-Inhalten

Beispiel: Herunterladen von Videos von einem Streaming-Dienst oder Bildern von einem Bildaggregator zu Archivierungszwecken.

Empfehlung: Statisches Rechenzentrum oder ISP-Proxys. Sie sind schnell und zählen keine Verkehrsausgaben. Entscheiden Sie sich für Rechenzentrums-Proxys, wenn die Website dies zulässt, andernfalls für ISP-Proxys.

Crawlen vieler verschiedener Websites

Beispiel: Suche nach Markennamen im gesamten Web.

Empfehlung: Statisches Rechenzentrum oder ISP-Proxys. Für das Crawling sind viele Daten erforderlich. Daher ist es am besten, einen Proxy-Typ zu wählen, der den Datenverkehr nicht als Hauptmetrik verwendet. Auch eine begrenzte Anzahl an IPs bringt Sie weit, wenn Sie das Ziel wechseln.

Kratzen großer, beliebter Ziele

Beispiel: Extrahieren von Stellenanzeigen von LinkedIn, Unternehmensinformationen von G2 oder mit Hashtags versehenen Beiträgen aus einem Social-Media-Netzwerk.

Empfehlung: Wohn-Proxys. Bei einer praktisch unendlichen Anzahl von IPs riskieren Sie nicht, Ihre Proxys zu sperren. Darüber hinaus erzielen Sie im Vergleich zu anderen Proxy-Typen eine höhere Erfolgsquote.

Sammeln von Echtzeitdaten

Beispiel: Verfolgung von Aktienkursbewegungen.

Empfehlungen: Rechenzentrums-Proxys, sofern die Website dies zulässt; andernfalls ISP-Proxys**.** Ihre hohe Verbindungsgeschwindigkeit stellt sicher, dass Sie Daten so extrahieren, wie sie erscheinen.

Zugriff auf hyperlokalisierte Seiten

Beispiel: Überwachung der Seitenpositionen in Suchmaschinen für lokalisierte Google-Anfragen.

Empfehlung: Wohn-Proxys, da sie IP-Filterung auf Stadtebene unterstützen.

Abschluss

Dieser Artikel gab Ihnen eine kurze Einführung in Proxyserver für Web-Scraping-Zwecke. Nachdem Sie es gelesen haben, sollten Sie in der Lage sein, zwischen den wichtigsten Proxy-Typen und -Konfigurationen zu unterscheiden und herauszufinden, welches Setup Ihrem Data-Science-Projekt am meisten nützen würde.