paint-brush
Servidores proxy para su proyecto de ciencia de datos: una guíapor@proxyway
1,585 lecturas
1,585 lecturas

Servidores proxy para su proyecto de ciencia de datos: una guía

por Proxyway10m2023/06/02
Read on Terminal Reader

Demasiado Largo; Para Leer

El raspado web viene con sus propios desafíos, como CAPTCHA y restricciones geográficas. Los proxies no resolverán todos sus problemas; pero aparte de la higiene básica, como el uso de agentes de usuario realistas, son la forma más efectiva de mantener su raspador web en funcionamiento.
featured image - Servidores proxy para su proyecto de ciencia de datos: una guía
Proxyway HackerNoon profile picture
0-item
1-item

Una forma excelente de crear conjuntos de datos es raspar la web. Se vuelve especialmente relevante cuando las fuentes como Common Crawl o las API oficiales no cumplen con los requisitos de su proyecto (por ejemplo, los datos no son lo suficientemente recientes o Twitter los cotiza). Sin embargo, el web scraping viene con sus propios desafíos, como CAPTCHA y restricciones geográficas. Aquí es donde nuestro héroe, los representantes, entran en escena.


Un servidor proxy es otra computadora (un servidor, teléfono o incluso un dispositivo IoT) que le permite acceder a la web a través de sí mismo. De esta manera, obtiene una nueva dirección IP desde una ubicación opcionalmente diferente. Los proxies son muy parecidos a las VPN: la diferencia es que puede usar muchos de ellos a la vez en lugar de solo una o dos conexiones.


Cómo funcionan los servidores proxy. Imagen por Autor.


Los servidores proxy son cada vez más necesarios a medida que los sitios web implementan limitaciones de velocidad y restricciones más sofisticadas para evitar el acceso automatizado. A veces, por buenas razones, aunque a menudo es para proteger sus intereses comerciales o monopolizar los datos. Los proxies no resolverán todos sus problemas; pero además de la higiene básica, como el uso de agentes de usuario realistas, son la forma más efectiva de mantener su raspador web en funcionamiento.


Una ocurrencia frecuente al raspar sitios web sin servidores proxy. Imagen del autor, fuente: trustpilot.com


Esta guía le brindará una sólida comprensión de los servidores proxy en el contexto del web scraping. Viene con conocimientos teóricos junto con algunos datos prácticos que recopilamos para nuestra investigación de mercado proxy anual.

Lo primero es lo primero: lo más probable es que no quieras usar proxies gratuitos

Cuando los rastreadores web (las personas) encuentran la necesidad de servidores proxy, su primer impulso es probar una lista de servidores proxy gratuitos. Estas listas están disponibles públicamente en línea; la mayoría de los servidores proxy en ellos provienen de servidores vulnerables o mal administrados.


Un sitio web que enumera servidores proxy gratuitos. Imagen del autor, fuente: free-proxy.cz


Un gran problema con las listas de proxy gratuitas es que nunca se sabe quién las ejecuta. El operador puede tener intenciones maliciosas, que pueden manifestarse en la inyección de anuncios, el registro de tráfico y otras cosas desagradables. Esto suena aterrador, pero es poco probable que lo afecte mucho como científico de datos: probablemente no configurará proxies en el nivel del sistema operativo ni los usará para acceder a su cuenta bancaria.


Un problema más aburrido, aunque realista, es que los proxies gratuitos simplemente no son confiables.


Rara vez permanecen en línea por mucho tiempo; las que funcionan son insoportablemente lentas porque tienen cientos de inquilinos; y debido a que tienen cientos de inquilinos, estos proxies se eliminan rápidamente con cualquier sitio web relevante. No es una gran herramienta para trabajar.


Por esta razón, recomiendo encarecidamente pagar por un servicio de proxy comercial.

Tipos de servidores proxy que existen

Los servidores proxy se clasifican con mayor frecuencia por la fuente de IP. Para fines de web scraping, lo más probable es que elija entre tres tipos: proxy de centro de datos, residencial o ISP (también llamado residencial estático).

Proxies del centro de datos

Estos proxies están alojados en servidores en centros de datos. Pueden ser instancias de Amazon Cloud Services (AWS) o provenir de cualquier otro proveedor de alojamiento en la nube. Las bases de datos de IP consideran que los proxies del centro de datos pertenecen a rangos de alojamiento o centro de datos .


Los proxies del centro de datos generalmente se ejecutan en un hardware potente y una conexión a Internet, por lo que puede obtener una gran cantidad de datos rápidamente. Pueden ser una opción muy eficiente para los objetivos que no monitorean la reputación de IP pero luchan con los sitios web que sí lo hacen.

Proxies residenciales

Estos proxies provienen de dispositivos residenciales de personas reales (de ahí el nombre). Por ejemplo, pueden ejecutarse en una computadora portátil con Windows, un teléfono Android o una nevera inteligente con Wi-Fi. Las bases de datos IP clasifican los proxies residenciales como conexiones fijas o móviles .


Los proxies residenciales siempre vienen en grandes grupos de direcciones de todo el mundo. Son menos predecibles que las direcciones IP del centro de datos porque dependen de la calidad de la conexión y la disponibilidad del dispositivo host. Sin embargo, esta característica hace que los proxies residenciales sean muy efectivos con todo tipo de sitios web, ya que parecen visitantes habituales.

servidores proxy ISP

Estos proxies están alojados en servidores en centros de datos pero registrados bajo proveedores de servicios de Internet para consumidores como Verizon. Esto se logra firmando un contrato con un ISP y haciendo que anuncie IP en su red. Idealmente, las bases de datos IP deberían identificar tales proxies como conexiones fijas o móviles . A veces, sin embargo, los ISP regionales más pequeños aún se clasifican como centros de datos.


Los proxies de ISP conservan las cualidades de los proxies del centro de datos, pero pueden raspar más eficazmente debido a una mejor reputación de IP.

Cómo se obtienen los proxies y si son legales

En este punto, puedes estar pensando: “¡Vaya, espera un minuto! ¿Teléfonos Android? ¡Suena terriblemente como una red de bots! ¿Es eso legal?” Esta es una buena pregunta para hacer, y demuestra que te importa. Muchos no.


El hecho es que hay una delgada línea entre un servidor proxy comercial y una botnet. Se aplica menos a los proxies de centros de datos donde la cadena de suministro es bastante clara: un host en la nube compra direcciones IP, las coloca en un servidor y alquila las direcciones a un proveedor de proxy. Pero la cuestión de la ética se vuelve muy relevante con las redes proxy residenciales.


Sin profundizar demasiado en el tema, los proxies residenciales se pueden obtener de varias maneras. El método más popular es a través de SDK en aplicaciones móviles y de escritorio. Este video da ejemplos concretos de cómo se ve eso.

Otra forma es intercambiar tráfico directamente por un servicio (como una VPN gratuita, consulte BrightVPN) o dinero (utilizando aplicaciones para compartir el ancho de banda como Honeygain).


Los proveedores de proxy incorporan SDK en aplicaciones como estas. Imagen del autor, fuente: bright-sdk.com


En cualquier caso, la responsabilidad recae en el proveedor de proxy para garantizar que la fuente de IP esté al tanto del acuerdo y lo consienta. Debería poder encontrar información sobre el abastecimiento de proxy y los enfoques de uso en el sitio web del proveedor. Esto reduce significativamente la posibilidad de que utilice una red de bots.

Configuraciones del servidor proxy

Los servidores proxy pueden tener diferentes configuraciones según la tenencia y la rotación .


El primer criterio describe cuántas personas pueden usar el mismo servidor proxy a la vez. Todas las listas de proxy gratuitas tienen potencialmente cientos de inquilinos, mientras que los proveedores de proxy comerciales imponen límites. En la jerga del mercado, compartido o semi-compartido significa que usará el mismo servidor proxy con varias otras personas (a menudo de una a cuatro). Privado o dedicado significa que usted solo utilizará los proxies para todos los dominios o en particular.


La capacidad de elegir la tenencia es una característica de los proxies de centros de datos e ISP, ya que los proveedores tienen la propiedad total sobre ellos. No está disponible con proxies residenciales, pero también es menos relevante: los usuarios residenciales tienen patrones de navegación más naturales y es menos probable que sobrecarguen los sitios web con solicitudes.


El segundo criterio, la rotación, muestra si los servidores proxy cambian automáticamente. Los que no suelen aparecer en listas de proxy formateadas como IP:Puerto (1). Los que toman el formato de punto final: puerto (2):


  1. 192.168.0.1:10000

  2. es.proxyprovider.net:10000


El punto final funciona como una puerta de enlace al grupo de servidores proxy del proveedor. Enruta automáticamente sus solicitudes a través de diferentes direcciones en el backend. Incluso cuando cambia una dirección IP, el punto final sigue siendo el mismo.


Los proxies rotativos son muy convenientes para el web scraping, ya que obtienes acceso a un número efectivamente infinito de IP (de miles a millones). Sin embargo, dichos servicios a menudo cobran por los gastos de tráfico, mientras que las listas de proxy estáticas tienden a ofrecer tráfico ilimitado.

Comparando los diferentes tipos de proxy

Comparemos los tipos de proxy discutidos en función de sus diversas características.

asequibilidad

En el caso de las redes proxy rotativas, los proxies residenciales cuestan entre ocho y 10 veces más que las direcciones de centros de datos y un poco menos que las redes proxy ISP rotativas.


Precio promedio por gigabyte en dos puntos de precio. Imagen por Autor.


Las redes proxy estáticas suelen cobrar por dirección IP. En comparación con los proxies de ISP, los servidores proxy del centro de datos cuestan de dos a tres veces menos, dependiendo de cuánto compre.

Desempeño de la infraestructura

A pesar de enrutar el tráfico a través de dispositivos de usuario final impredecibles, las principales redes proxy residenciales funcionan muy bien. Para propósitos de web scraping (cuando la IP rota con cada solicitud de conexión), transfieren datos casi tan bien como los servidores proxy del centro de datos:


Tasa mediana de éxito de la infraestructura después de realizar al menos 50 000 solicitudes de conexión con cada tipo de proxy. Imagen por Autor.


Tampoco pudimos ver una gran diferencia en la latencia. A continuación se muestran los tiempos de respuesta para las solicitudes realizadas al servidor más cercano de una CDN global (el tamaño de respuesta es de varios kilobytes) y Amazon (tamaño de respuesta de alrededor de 1 MB):


Tiempo medio de respuesta después de realizar al menos 50 000 solicitudes de conexión a una CDN y 2600 solicitudes de conexión a Amazon. Imagen por Autor.


Un área en la que dominan los proxies de centros de datos e ISP es el rendimiento. Tienen tuberías más anchas para transferir datos. Algunos proxies residenciales pueden ser muy rápidos, pero también puede encontrarse con servidores que no alcanzan 1 Mbps. Hay mucha menos previsibilidad.

Tiempo de actividad de IP

Los proxies de centros de datos e ISP pueden permanecer activos casi las 24 horas del día, los 7 días de la semana, y se desconectan solo cuando se produce una interrupción o mantenimiento. El tiempo de actividad de un proxy residencial depende de varios factores, como si proviene de un dispositivo Windows o Android. En cualquier caso, es mucho más corto y menos confiable en comparación con los proxies basados en servidor.


Escribimos un script que hacía ping a una base de datos IP cada 20 segundos para ver con qué frecuencia cambiaba una dirección IP residencial. Aquí hay algunos resultados:


  • IP #1: 43 segundos
  • IP #2: Más de una hora
  • IP #3: 3 minutos, 33 segundos
  • IP #4: 8 minutos, 31 segundos
  • IP #5: Más de una hora

Eficacia de raspado

Los proxies de centros de datos luchan contra sitios web protegidos o muy populares como Google o las redes sociales. Esto se puede mitigar un poco eligiendo direcciones IP dedicadas con un historial de uso más limpio.


Tasa de éxito promedio después de realizar al menos 2600 solicitudes de conexión a Amazon. Imagen por Autor.


A veces, conectarse desde un rango de IP del centro de datos es suficiente para que los sitios web no le dejen entrar. En tales casos, el único recurso es usar un tipo de proxy diferente.


Un sitio web que bloquea las direcciones IP del centro de datos. Imagen por Autor.


Los proxies de ISP tienen una mejor reputación de IP de forma predeterminada, por lo que enfrentan menos escrutinio inicial. Sin embargo, todavía tienen patrones de navegación menos realistas en comparación con una verdadera dirección residencial. Los servidores proxy residenciales forman grandes grupos, son muy diversos y comparten el historial de navegación con personas reales. Estas cualidades los hacen muy difíciles de distinguir de la audiencia más amplia del sitio web.

Variedad de ubicación

Los proxies de centro de datos e ISP están alojados en centros de datos y la cantidad de centros de datos disponibles es limitada. La ubicación más frecuente es probablemente Ashburn, aunque los principales proveedores pueden obtener direcciones IP de centros de datos de docenas de países. Sin embargo, si necesita direcciones en lugares más pequeños, y especialmente en ciudades que no son capitales, no tendrá suerte.


Los proxies residenciales no tienen tales restricciones: siempre que haya un dispositivo y un participante dispuesto, cualquier persona de cualquier lugar puede unirse. En consecuencia, los principales proveedores pueden ofrecer direcciones IP en todos los países con orientación por ciudad, ASN y, a veces, incluso por código postal.

Popularidad

Según nuestra encuesta de los principales proveedores de proxy, la mayoría eligió los proxies residenciales como su producto más popular. Solo dos proveedores especificaron servidores proxy de centros de datos y ninguno proxies de ISP.


Los tipos de proxy más populares por número de respuestas a la encuesta.


Los proxies de los centros de datos se han ido cayendo en los últimos años, ya que los principales objetivos como Amazon, Google, LinkedIn y otros reforzaron sus sistemas de seguridad. Los proxies de ISP tienen la capacidad de ocupar su lugar, pero su aceptación se ve obstaculizada por las dificultades de abastecimiento: es difícil incorporar ISP de buena reputación.

Recomendaciones para tus proyectos

Pero basta de teoría. ¿Cómo puedes aplicar este conocimiento a tu proyecto? He modelado varios escenarios con sugerencias de servidores proxy.


Para mantener este artículo libre de intereses comerciales, no mencionaré proveedores particulares. Si desea algunas recomendaciones, comparamos los principales proveedores en nuestro sitio web (Descargo de responsabilidad: tenemos una relación de afiliación con la mayoría de esas empresas. Sin embargo, esto no tiene impacto en nuestros informes de mercado).

Scraping de sitios web sin protección avanzada

Ejemplo: extraer un portal de noticias menor, un sitio web de comercio electrónico o incluso un motor de búsqueda que no sea Google.

Recomendación: rotación de proxies de centros de datos. Puede obtener acceso a un grupo de 2000 a 100 000 direcciones IP rotativas por $0,7/GB o menos. No tendrá que preocuparse por reemplazar las IP bloqueadas, y el costo del tráfico es lo suficientemente bajo para una extracción de datos seria.

Descarga de contenido multimedia

Ejemplo: descargar videos de un servicio de transmisión o imágenes de un agregador de imágenes con fines de archivo.

Recomendación: centros de datos estáticos o proxies ISP. Son rápidos y no cuentan los gastos de tráfico. Elija proxies de centro de datos cuando el sitio web lo permita y proxies de ISP en caso contrario.

Rastreo de muchos sitios web diferentes

Ejemplo: Búsqueda de menciones de marca en toda la web.

Recomendación: centros de datos estáticos o proxies ISP. El rastreo requiere una gran cantidad de datos, por lo que es mejor elegir un tipo de proxy que no use el tráfico como la métrica principal. Además, incluso un número finito de IP lo llevará lejos cuando cambie de objetivo.

Scraping grandes objetivos populares

Ejemplo: extracción de anuncios de trabajo de LinkedIn, información de la empresa de G2 o publicaciones con etiquetas de una red social.

Recomendación: Proxies residenciales. Con un número efectivamente infinito de direcciones IP, no correrá el riesgo de prohibir sus proxies. Además, experimentará una mayor tasa de éxito en comparación con otros tipos de proxy.

Recopilación de datos en tiempo real

Ejemplo: seguimiento de los movimientos del precio de las acciones.

Recomendaciones: Proxies de centro de datos si el sitio web lo permite; de lo contrario, proxies ISP**.** Su alta velocidad de conexión garantiza que extraerá los datos tal como aparecen.

Acceso a páginas hiperlocalizadas

Ejemplo: Supervisar las posiciones de la página del motor de búsqueda para consultas de Google localizadas.

Recomendación: Proxies residenciales, ya que admiten el filtrado de IP a nivel de ciudad.

Conclusión

Este artículo le dio una breve introducción a los servidores proxy para fines de web scraping. Después de leerlo, debería poder distinguir entre los principales tipos de proxy, configuraciones y qué configuración beneficiaría más a su proyecto de ciencia de datos.