Eine hervorragende Möglichkeit, Datensätze zu erstellen, ist das Scrapen des Webs. Dies wird besonders relevant, wenn Quellen wie Common Crawl oder offizielle APIs die Anforderungen Ihres Projekts nicht erfüllen (z. B. weil die Daten nicht aktuell genug sind oder Twitter Sie preist). Web Scraping bringt jedoch eigene Herausforderungen wie CAPTCHAs und geografische Beschränkungen mit sich. Hier kommen unsere Helden – Stellvertreter – ins Spiel.
Ein Proxyserver ist ein anderer Computer (ein Server, ein Telefon oder sogar ein IoT-Gerät), über den Sie über sich selbst auf das Internet zugreifen können. Auf diese Weise erhalten Sie eine neue IP-Adresse von einem optional anderen Standort. Proxys ähneln VPNs – der Unterschied besteht darin, dass Sie viele davon gleichzeitig verwenden können, anstatt nur eine oder zwei Verbindungen.
Proxyserver werden immer notwendiger, da Websites Ratenbegrenzungen und ausgefeiltere Einschränkungen implementieren, um automatisierten Zugriff zu verhindern. Manchmal aus guten Gründen, oft aber auch, um ihre kommerziellen Interessen zu schützen oder Daten zu monopolisieren. Proxys werden nicht alle Ihre Probleme lösen; Aber abgesehen von grundlegenden Hygienemaßnahmen, wie der Verwendung realistischer Benutzeragenten, sind sie die effektivste Möglichkeit, Ihren Web Scraper am Laufen zu halten.
Dieser Leitfaden vermittelt Ihnen ein umfassendes Verständnis von Proxyservern im Zusammenhang mit Web Scraping. Es enthält theoretisches Wissen sowie einige praktische Daten, die wir für unsere jährliche Proxy-Marktforschung gesammelt haben.
Wenn Web-Scraper (die Leute) auf einen Bedarf an Proxys stoßen, besteht ihr erster Impuls darin, eine kostenlose Proxy-Liste auszuprobieren. Diese Listen sind online öffentlich verfügbar; Die meisten darin enthaltenen Proxys stammen von anfälligen oder schlecht verwalteten Servern.
Ein großes Problem bei kostenlosen Proxy-Listen besteht darin, dass man nie weiß, wer sie betreibt. Der Betreiber könnte böswillige Absichten haben, die sich in der Einschleusung von Werbung, der Protokollierung des Datenverkehrs und anderen bösen Dingen äußern können. Das hört sich beängstigend an, wird Sie als Datenwissenschaftler aber kaum beeinträchtigen: Sie werden wahrscheinlich keine Proxys auf Betriebssystemebene konfigurieren oder sie für den Zugriff auf Ihr Bankkonto verwenden.
Ein langweiligeres – wenn auch realistisches – Problem ist, dass kostenlose Proxys einfach unzuverlässig sind.
Sie bleiben selten lange online; diejenigen, die funktionieren, sind unerträglich langsam, weil sie Hunderte von Mietern haben; Und weil sie Hunderte von Mandanten haben, fallen solche Proxys sehr schnell auf jede relevante Website. Kein gutes Werkzeug zum Arbeiten.
Aus diesem Grund empfehle ich dringend, für einen kommerziellen Proxy-Dienst zu bezahlen.
Proxyserver werden am häufigsten nach der IP-Quelle kategorisiert. Für Web-Scraping-Zwecke werden Sie höchstwahrscheinlich zwischen drei Typen wählen: Rechenzentrums-, Privat- oder ISP-Proxys (auch als statische Privat-Proxys bezeichnet).
Diese Proxys werden auf Servern in Rechenzentren gehostet. Sie können Instanzen von Amazon Cloud Services (AWS) sein oder von einem anderen Cloud-Hosting-Anbieter stammen. IP-Datenbanken betrachten Rechenzentrums-Proxys als zu Hosting- oder Rechenzentrumsbereichen gehörend.
Rechenzentrums-Proxys werden in der Regel auf leistungsstarker Hardware und Internetverbindung ausgeführt, sodass Sie viele Daten schnell abrufen können. Sie können eine sehr effiziente Wahl für Ziele sein, die die IP-Reputation nicht überwachen, aber Probleme mit Websites haben, die dies tun.
Diese Proxys stammen von Wohngeräten realer Menschen (daher der Name). Sie können beispielsweise auf einem Windows-Laptop, einem Android-Telefon oder einem intelligenten Kühlschrank über WLAN ausgeführt werden. IP-Datenbanken klassifizieren Wohn-Proxys als Festnetz- oder Mobilfunkverbindungen .
Wohn-Proxys kommen immer aus großen Adresspools aus der ganzen Welt. Sie sind weniger vorhersehbar als IP-Adressen von Rechenzentren, da sie von der Verbindungsqualität und Verfügbarkeit des Hostgeräts abhängen. Gerade diese Funktion macht private Proxys jedoch bei allen Arten von Websites sehr effektiv, da sie wie normale Besucher aussehen.
Diese Proxys werden auf Servern in Rechenzentren gehostet, sind aber bei privaten Internetdienstanbietern wie Verizon registriert. Dies wird erreicht, indem Sie einen Vertrag mit einem ISP unterzeichnen und ihn dazu veranlassen, IPs in seinem Netzwerk bekannt zu geben. Idealerweise sollten IP-Datenbanken solche Proxys als Festnetz- oder Mobilfunkverbindungen identifizieren. Manchmal werden kleinere regionale ISPs jedoch immer noch als Rechenzentren eingestuft.
ISP-Proxys behalten die Qualitäten von Rechenzentrums-Proxys bei, sind aber aufgrund einer besseren IP-Reputation in der Lage, effektiveres Scraping durchzuführen.
An diesem Punkt denken Sie vielleicht: „Wah, warte mal! Android-Telefone? Klingt furchtbar nach einem Botnetz! Ist das überhaupt legal?“ Das ist eine gute Frage, denn sie zeigt, dass es Ihnen wichtig ist. Viele nicht.
Tatsache ist, dass zwischen einem kommerziellen Proxyserver und einem Botnetz ein schmaler Grat besteht. Dies gilt weniger für Proxys in Rechenzentren, bei denen die Lieferkette ziemlich klar ist: Ein Cloud-Host kauft IPs, legt sie auf einem Server ab und vermietet die Adressen an einen Proxy-Anbieter. Aber die Frage der Ethik wird bei Proxy-Netzwerken für Privathaushalte sehr relevant.
Ohne zu tief in das Thema einzutauchen, gibt es verschiedene Möglichkeiten, Proxys für Wohnimmobilien zu beschaffen. Die beliebteste Methode sind SDKs in Desktop- und Mobilanwendungen. Dieses Video zeigt konkrete Beispiele, wie das aussieht.
Eine andere Möglichkeit besteht darin, den Datenverkehr direkt gegen einen Dienst (z. B. ein kostenloses VPN, siehe BrightVPN) oder Geld (mithilfe von Apps zur gemeinsamen Nutzung der Bandbreite wie Honeygain) einzutauschen.
In jedem Fall liegt die Verantwortung beim Proxy-Anbieter, sicherzustellen, dass die IP-Quelle von der Vereinbarung Kenntnis hat und ihr zustimmt. Informationen zum Proxy-Sourcing und zu Nutzungsansätzen sollten Sie auf der Website des Anbieters finden. Dadurch verringert sich die Wahrscheinlichkeit, dass Sie ein Botnetz nutzen, erheblich.
Proxyserver können je nach Mandantenverhältnis und Rotation unterschiedliche Konfigurationen haben.
Das erste Kriterium beschreibt, wie viele Personen gleichzeitig denselben Proxyserver nutzen können. Alle kostenlosen Proxy-Listen haben potenziell Hunderte von Mandanten, während kommerzielle Proxy-Anbieter Grenzen setzen. In der Marktsprache bedeutet Shared oder Semi-Shared, dass Sie denselben Proxyserver mit mehreren anderen Personen (häufig ein bis vier) verwenden. Privat oder dediziert bedeutet, dass Sie allein die Proxys für alle oder bestimmte Domänen verwenden.
Die Möglichkeit, den Mandanten zu wählen, ist ein Merkmal von Rechenzentrums- und ISP-Proxys, da die Anbieter das volle Eigentum an ihnen haben. Es ist bei Privat-Proxys nicht verfügbar, aber auch weniger relevant – Privatanwender haben ein natürlicheres Surfverhalten und neigen weniger dazu, Websites mit Anfragen zu überlasten.
Das zweite Kriterium Rotation zeigt an, ob Proxy-Server automatisch wechseln. Diejenigen, die nicht oft in Proxy-Listen im Format IP:Port (1) vorkommen. Diejenigen, die dies tun, haben das Format endpoint:port (2):
192.168.0.1:10000
de.proxyprovider.net:10000
Der Endpunkt fungiert als Gateway zum Proxy-Pool des Anbieters. Es leitet Ihre Anfragen automatisch über verschiedene Adressen im Backend weiter. Selbst wenn sich eine IP-Adresse ändert, bleibt der Endpunkt derselbe.
Rotierende Proxys sind für Web Scraping sehr praktisch, da Sie Zugriff auf praktisch unendlich viele IPs (Tausende bis Millionen) erhalten. Allerdings erheben solche Dienste oft Gebühren für den Traffic-Aufwand, während statische Proxy-Listen tendenziell unbegrenzten Traffic bieten.
Vergleichen wir die besprochenen Proxy-Typen anhand ihrer verschiedenen Eigenschaften.
Bei rotierenden Proxy-Netzwerken kosten Privat-Proxys etwa acht- bis zehnmal mehr als Rechenzentrumsadressen und etwas weniger als rotierende ISP-Proxy-Netzwerke.
Statische Proxy-Netzwerke berechnen normalerweise pro IP-Adresse. Im Vergleich zu ISP-Proxys kosten Rechenzentrums-Proxyserver zwei- bis dreimal weniger, je nachdem, wie viel Sie kaufen.
Obwohl der Datenverkehr über unvorhersehbare Endbenutzergeräte geleitet wird, funktionieren große Proxy-Netzwerke für Privathaushalte sehr gut. Für Web-Scraping-Zwecke (wenn die IP bei jeder Verbindungsanfrage wechselt) übertragen sie Daten fast genauso gut wie Rechenzentrums-Proxys:
Auch bei der Latenz konnten wir keinen großen Unterschied feststellen. Nachfolgend sind die Antwortzeiten für Anfragen aufgeführt, die an den nächstgelegenen Server eines globalen CDN (die Antwortgröße beträgt mehrere Kilobyte) und an Amazon (ca. 1 MB Antwortgröße) gerichtet sind:
Ein Bereich, in dem Rechenzentrums- und ISP-Proxys dominieren, ist der Durchsatz. Sie verfügen über breitere Rohre zur Datenübertragung. Einige Privat-Proxys können sehr schnell sein, es kann aber auch vorkommen, dass Server keine 1 Mbit/s erreichen. Es gibt viel weniger Vorhersehbarkeit.
Rechenzentrums- und ISP-Proxys können nahezu rund um die Uhr aktiv bleiben und gehen nur dann offline, wenn ein Ausfall oder eine Wartung auftritt. Die Betriebszeit eines Privat-Proxys hängt von verschiedenen Faktoren ab, beispielsweise davon, ob er von einem Windows- oder Android-Gerät stammt. Auf jeden Fall ist es im Vergleich zu serverbasierten Proxys viel kürzer und weniger zuverlässig.
Wir haben ein Skript geschrieben, das alle 20 Sekunden eine IP-Datenbank anpingt, um zu sehen, wie oft sich eine private IP-Adresse ändert. Hier einige Ergebnisse:
Rechenzentrums-Proxys haben mit geschützten oder sehr beliebten Websites wie Google oder sozialen Medien zu kämpfen. Dies kann etwas abgemildert werden, indem dedizierte IPs mit einem saubereren Nutzungsverlauf ausgewählt werden.
Manchmal reicht die Verbindung über den IP-Bereich eines Rechenzentrums aus, damit Websites Sie nicht hereinlassen. In solchen Fällen besteht die einzige Möglichkeit darin, einen anderen Proxy-Typ zu verwenden.
ISP-Proxys haben standardmäßig eine bessere IP-Reputation, sodass sie weniger anfänglicher Prüfung ausgesetzt sind. Allerdings weisen sie im Vergleich zu einer echten Wohnadresse immer noch ein weniger realistisches Surfverhalten auf. Privat-Proxyserver bilden große Pools, sind sehr vielfältig und teilen den Browserverlauf mit echten Menschen. Diese Eigenschaften machen es sehr schwer, sie vom breiteren Publikum der Website zu unterscheiden.
Rechenzentrums- und ISP-Proxys werden in Rechenzentren gehostet und die Anzahl der verfügbaren Rechenzentren ist begrenzt. Der häufigste Standort ist wahrscheinlich Ashburn, obwohl große Anbieter Ihnen Rechenzentrums-IPs aus Dutzenden von Ländern besorgen können. Wenn Sie jedoch Adressen in kleineren Orten und insbesondere in deren Nicht-Hauptstädten benötigen, werden Sie Pech haben.
Für private Proxys gibt es keine derartigen Einschränkungen – solange ein Gerät und ein williger Teilnehmer vorhanden sind, kann jeder von überall aus teilnehmen. Folglich können große Anbieter IPs in allen Ländern mit Stadt-, ASN- und manchmal sogar Postleitzahlen-Targeting anbieten.
Basierend auf unserer Umfrage unter großen Proxy-Anbietern wählten die meisten Privat-Proxys als ihr beliebtestes Produkt. Nur zwei Anbieter gaben Proxy-Server für Rechenzentren an, keiner jedoch ISP-Proxys.
Rechenzentrums-Proxys sind in den letzten Jahren zurückgegangen, da große Angriffsziele wie Amazon, Google, LinkedIn und andere ihre Sicherheitssysteme verschärft haben. ISP-Proxys haben die Kapazität, ihren Platz einzunehmen, aber ihre Akzeptanz wird durch Beschaffungsschwierigkeiten behindert – es ist schwierig, seriöse ISPs an Bord zu holen.
Aber genug der Theorie. Wie können Sie dieses Wissen auf Ihr Projekt anwenden? Ich habe mehrere Szenarien mit Proxy-Server-Vorschlägen modelliert.
Um diesen Artikel frei von kommerziellen Interessen zu halten, verzichte ich auf die Nennung einzelner Anbieter. Wenn Sie Empfehlungen wünschen, vergleichen wir die wichtigsten Anbieter auf unserer Website (Haftungsausschluss: Mit den meisten dieser Unternehmen stehen wir in einer Affiliate-Beziehung. Dies hat jedoch keinen Einfluss auf unsere Marktberichte.)
Beispiel: Scraping eines kleineren Nachrichtenportals, einer E-Commerce-Website oder sogar einer Nicht-Google-Suchmaschine.
Empfehlung: Rotierende Rechenzentrums-Proxys. Sie können für 0,7 $/GB oder weniger auf einen Pool von 2.000–100.000 rotierenden IPs zugreifen. Sie müssen sich keine Gedanken darüber machen, blockierte IPs zu ersetzen, und die Kosten für den Datenverkehr sind niedrig genug für eine ernsthafte Datenextraktion.
Beispiel: Herunterladen von Videos von einem Streaming-Dienst oder Bildern von einem Bildaggregator zu Archivierungszwecken.
Empfehlung: Statisches Rechenzentrum oder ISP-Proxys. Sie sind schnell und zählen keine Verkehrsausgaben. Entscheiden Sie sich für Rechenzentrums-Proxys, wenn die Website dies zulässt, andernfalls für ISP-Proxys.
Beispiel: Suche nach Markennamen im gesamten Web.
Empfehlung: Statisches Rechenzentrum oder ISP-Proxys. Für das Crawling sind viele Daten erforderlich. Daher ist es am besten, einen Proxy-Typ zu wählen, der den Datenverkehr nicht als Hauptmetrik verwendet. Auch eine begrenzte Anzahl an IPs bringt Sie weit, wenn Sie das Ziel wechseln.
Beispiel: Extrahieren von Stellenanzeigen von LinkedIn, Unternehmensinformationen von G2 oder mit Hashtags versehenen Beiträgen aus einem Social-Media-Netzwerk.
Empfehlung: Wohn-Proxys. Bei einer praktisch unendlichen Anzahl von IPs riskieren Sie nicht, Ihre Proxys zu sperren. Darüber hinaus erzielen Sie im Vergleich zu anderen Proxy-Typen eine höhere Erfolgsquote.
Beispiel: Verfolgung von Aktienkursbewegungen.
Empfehlungen: Rechenzentrums-Proxys, sofern die Website dies zulässt; andernfalls ISP-Proxys**.** Ihre hohe Verbindungsgeschwindigkeit stellt sicher, dass Sie Daten so extrahieren, wie sie erscheinen.
Beispiel: Überwachung der Seitenpositionen in Suchmaschinen für lokalisierte Google-Anfragen.
Empfehlung: Wohn-Proxys, da sie IP-Filterung auf Stadtebene unterstützen.
Dieser Artikel gab Ihnen eine kurze Einführung in Proxyserver für Web-Scraping-Zwecke. Nachdem Sie es gelesen haben, sollten Sie in der Lage sein, zwischen den wichtigsten Proxy-Typen und -Konfigurationen zu unterscheiden und herauszufinden, welches Setup Ihrem Data-Science-Projekt am meisten nützen würde.