❗   : Esta es la tercera parte de nuestra serie de seis artículos sobre Web Scraping avanzado. ¿Es nuevo en la serie?   ! Aviso legal ¡Comience desde el principio leyendo la primera parte  En la segunda parte de nuestra serie sobre raspado web avanzado, aprendiste   . A esta altura, deberías tener todo el conocimiento necesario para crear un raspador que funcione con la mayoría de los sitios web modernos. a raspar datos de SPA, PWA y sitios con tecnología de IA  ¿Qué sigue? ¡Es hora de optimizar tu scraper con algunos consejos y trucos profesionales!  El web scraping se volvió simple... ¿o no?  ¿Cómo crear un raspador web? Todo es cuestión   . 👨‍💻 de programación  Y seamos honestos: si alguna vez escribiste código, sabes que la creación de scripts no es   difícil la mayor parte del tiempo. Unas pocas líneas aquí, un   allá y listo, estás extrayendo datos como un profesional. Suena simple, ¿verdad? 😄 tan for  Pero aquí está el problema: la simplicidad de escribir un pequeño scraper puede hacerte sentir una falsa sensación de seguridad. ¿Por qué molestarse con comentarios adecuados, manejo de errores, registros o incluso una sangría ordenada cuando se trata de solo una docena de líneas de código que cualquiera puede leer?   Lo entendemos: ¿por qué diseñar en exceso algo que no lo necesita? La ingeniería excesiva   enemiga del progreso. Pero, ¿qué sucede cuando necesitas escalar tus scrapers a varias páginas o incluso a sitios enteros? 🤔 es  ¡Ahí es cuando tu raspador rápido y sucio, codificado con espagueti, se desmorona! 🍝   He aquí por qué necesitas algunos consejos avanzados de web scraping.  Optimización del Web Scraping: los 7 mejores consejos y trucos  Seguramente ya habrás escuchado los consejos habituales sobre el web scraping: priorizar primero las páginas con datos críticos, aleatorizar las solicitudes, etc. Son buenos consejos, pero seamos honestos: esos trucos ya no son tan conocidos. 📰  Cuando se trata de situaciones más avanzadas, es posible que esos conceptos básicos no sean suficientes. Si realmente desea mejorar su capacidad de extracción de datos, deberá explorar algunas técnicas de nivel superior.  ¿Estás listo? Abróchate el cinturón: ¡es hora de llevar tus habilidades de web scraping al siguiente nivel! 💪  ⚠️   No te preocupes si algunos de los consejos te resultan familiares. ¡Continúa! ¡A medida que profundizas, encontrarás muchas ideas interesantes! 🤿 Advertencia:  Implementar el manejo de errores  Uno de los errores más comunes en el web scraping es olvidar que Internet no es una tecnología mágica e infalible. Cuando envías una solicitud a un sitio, pueden salir mal (y saldrán mal, en algún momento). ❌  Veamos algunos escenarios comunes:  Tu Wi-Fi o conexión podría fallar momentáneamente  Es posible que el servidor que aloja el sitio web no esté disponible  Es posible que la página que estás buscando ya no exista  Es posible que el sitio de destino esté experimentando una desaceleración temporal, lo que genera un error de tiempo de espera  Ahora, si combinamos el análisis de datos, el preprocesamiento y la exportación a una base de datos, obtenemos una receta perfecta para el caos. 💥   Entonces, ¿cuál es la solución? ¡   ! 🛡️ La gestión de errores  El manejo de errores es tu mejor aliado en el web scraping. Tu script probablemente procesará docenas (o miles) de páginas, y un solo error no debería hacer que toda tu operación se derrumbe.  Recuerda que el bloque   es tu amigo. Úsalo para encapsular tus solicitudes y la lógica de procesamiento. Además, ten en cuenta que la mayoría de las bibliotecas HTTP no generan excepciones para respuestas HTTP incorrectas (como   o   ). 😲 try ... catch 404 500  Si no está familiarizado con   , vea el video a continuación: los códigos de estado HTTP   https://www.youtube.com/watch?v=wJa5CTIFj7U&embedable=true  Por ejemplo, en   debe verificar manualmente el código de estado de respuesta de la siguiente manera: la biblioteca de solicitudes de Python,   import requests response = requests.get("https://example.com") if response.status_code == 200: # handle the successful response... else: # handle the error response...  O, equivalentemente, utilice el método   : raise_for_status()   import requests try: response = requests.get("https://example.com") # raises an HTTPError for bad responses (4xx or 5xx) response.raise_for_status() # handle the successful response... except requests.exceptions.HTTPError as http_err: # handle an HTTP error... except requests.exceptions.RequestException as req_err: # handle a request error...  Recuperación de errores con reintentos de solicitud  Su script de raspado web avanzado no solo debe poder manejar errores, sino también recuperarse de ellos. Dado que la mayoría de los errores relacionados con el raspado web están vinculados a la realización de solicitudes web,   . puede mejorar significativamente la eficacia de su raspador implementando solicitudes que se puedan volver a intentar  El concepto es simple: si una solicitud falla, lo intentas nuevamente (una, dos, tres o más veces) hasta que tenga éxito. 🔄  Pero aquí está el truco: dado que una de las razones más comunes para una solicitud fallida es que el servidor de destino esté temporalmente inactivo o sea lento, no desea sobrecargarlo enviando la misma solicitud repetidamente en un corto período de tiempo.   Si una solicitud falla ahora, es probable que vuelva a fallar de inmediato. ¡Ahí es donde entra en juego   ! el retroceso exponencial  En lugar de volver a intentarlo instantáneamente, esta técnica aumenta gradualmente el tiempo entre reintentos, mejorando sus posibilidades de éxito al darle tiempo al servidor de destino para recuperarse. ⏳  Si bien puedes implementar manualmente estrategias de reintento simples con código personalizado, muchos clientes HTTP vienen con utilidades o bibliotecas integradas para manejar los reintentos automáticamente. Por ejemplo, Axios ofrece la biblioteca   , que puedes usar de la siguiente manera: axios-retry   const axios = require("axios"); const axiosRetry = require("axios-retry"); axiosRetry(axios, { retries: 3, retryDelay: axiosRetry.exponentialDelay }); axios.get('https://example.com') .then(response => console.log(response.data)) .catch(error => console.log("Request failed:", error));  De manera similar, el paquete   de Python viene con una clase   que se integra perfectamente con   . urllib3 Retry la mayoría de los clientes HTTP de Python  Escribir selectores genéricos  Al inspeccionar elementos en DevTools, es posible que sienta la tentación de hacer clic derecho y seleccionar la opción "Copiar selector":   Pero ten cuidado, el resultado podría verse así:   #__next > div > main > div.sc-d7dc08c8-0.fGqCtJ > div.sc-93e186d7-0.eROqxA > h1  Eso definitivamente no es ideal para el web scraping...   ¿El problema? Los selectores demasiado específicos como estos pueden romperse fácilmente cuando cambia la estructura de la página. Cuanto más detallado sea el selector, más frágil se vuelve.  Para que su web scraping sea más resistente, debe mantener sus selectores flexibles. En lugar de depender de clases relacionadas con el estilo (que cambian todo el tiempo),     ,   o   . La mayoría de esos atributos están destinados   y   , por lo que tienden a permanecer constantes a lo largo del tiempo. 💡 concéntrese en atributos que tienen menos probabilidades de cambiar, como id data- aria- a pruebas accesibilidad  Y aunque   son más fáciles de leer y comprender,   ofrece más potencia. Pero no te preocupes: a menudo puedes lograr los mismos resultados con selectores CSS simples, lo que te ahorra la necesidad de usar código XPath complejo. 😌 los selectores CSS XPath  ¡Para obtener más información sobre esto, consulte nuestra guía sobre   ! selectores XPath vs CSS  Prefiera analizadores HTML rápidos  Analizar páginas HTML requiere tiempo y recursos, especialmente si se trata de un DOM grande y anidado. Si el scraper solo analiza unas pocas páginas, no es un gran problema.  Ahora bien, ¿qué sucede cuando su operación de extracción de datos aumenta de escala y tiene que recuperar datos de millones de páginas? Esa pequeña sobrecarga puede agotar rápidamente los recursos del servidor y sumar horas a su tiempo total de extracción de datos. ⏳  Para obtener una comprensión más profunda, consulte estos recursos:   Comparación del rendimiento del analizador HTML de Python   Comparación de las bibliotecas de JavaScript para analizar HTML   Análisis comparativo de analizadores HTML  ¿Buscas una comparación completa? Lee nuestro artículo sobre los   . mejores analizadores HTML  ¿La buena noticia? Cambiar de un analizador a otro no es tan difícil. Por ejemplo, en   , es solo un cambio de parámetro simple: BeautifulSoup   from bs4 import BeautifulSoup # or using html.parser soup = BeautifulSoup(html_content, "html.parser") # or using lxml parser soup = BeautifulSoup(html_content, "lxml")  ¿Y qué pasa con los analizadores HTML integrados en navegadores como Chrome? 🤔  Descubra más en el vídeo a continuación:   https://www.youtube.com/watch?v=LLRig4s1_yA&embedable=true  Aproveche HTTP/2 para realizar solicitudes más rápidas    es una versión actualizada de HTTP que permite múltiples solicitudes en una sola conexión. Esto reduce la latencia y puede mejorar el rendimiento general de la tarea de extracción de datos. HTTP/2  Para comprobar si un sitio admite HTTP/2, simplemente abra DevTools en su navegador, vaya a la pestaña “Red” y busque la columna “Protocolo”: si dice   , el sitio usa HTTP/2:  h2  Lamentablemente, no todos los clientes HTTP y bibliotecas de extracción de datos admiten HTTP/2. Sin embargo, herramientas como   . HTTPX para Python ofrecen compatibilidad total con HTTP/2  Paralelización de tareas  El web scraping es principalmente una   : envías solicitudes al servidor, esperas la respuesta, procesas los datos y repites la operación. Durante el tiempo de espera, el web scraper está básicamente inactivo, lo que es ineficiente.  tarea vinculada a la E/S  ¿La solución?       ! ¡Paralelismo o concurrencia  Al enviar varias solicitudes a la vez, puede minimizar esos tiempos de inactividad y optimizar el uso de la red.  🚨 ¡Pero ten cuidado! 🚨  Bombardear un servidor con demasiadas solicitudes simultáneas puede provocar que se limite la velocidad o que se bloquee tu IP, dos   populares. 😬 medidas anti-scraping    : también puedes paralelizar las tareas de análisis, especialmente si estás usando varias CPU, lo que acelerará el proceso de extracción de datos. ⚡ Consejo profesional  Adopte algoritmos adaptativos basados en IA    aprenden de patrones en datos y estructuras de páginas HTML, ajustando su comportamiento en tiempo real para mantenerse al tanto de los cambios. 😮 Los algoritmos adaptativos basados en IA  ¡Esto es un cambio radical para el web scraping! 🤯  Cuando los sitios web actualizan su diseño o implementan medidas anti-bots, estos algoritmos pueden adaptarse rápidamente, lo que garantiza que su scraper siga funcionando sin problemas. 🧠  En resumen, hacen que los scrapers sean más inteligentes, ayudándote a extraer datos de manera eficiente, incluso cuando el sitio presenta problemas inesperados. ⚾ ¡Con algoritmos adaptativos, es como tener un scraper que evoluciona con el tiempo!  Obtenga más información en el Capítulo 4 de este video de Forrest Knight:   https://www.youtube.com/watch?v=vxk6YPRVg_o&embedable=true  La mejor herramienta para optimizar el web scraping  Por supuesto, todos los consejos y trucos que hemos mencionado hasta ahora pueden hacer que tu scraper sea más rápido, más confiable, más sólido y más efectivo. Pero seamos realistas: también implican mucha complejidad. 😅  La buena noticia es que la mayoría de estas lecciones se aplican a la gran mayoría de proyectos de scraping. Por lo tanto, en lugar de codificar todo desde cero, podría utilizar funciones predefinidas para abordar tareas específicas. ¡Eso es exactamente lo que ofrecen   ! las funciones de scraping de Bright Data  Con más de 73 funciones de JavaScript listas para usar, los usuarios han creado más de 38 000 scrapers que operan en más de 195 países. ¡Eso es una gran potencia de scraping! 📈  Acelere su desarrollo con un entorno de ejecución diseñado para extraer, desbloquear y escalar la recopilación de datos web sin esfuerzo:   https://www.youtube.com/watch?v=Ve04_6gDKvU&embedable=true  Reflexiones finales  ¡Ahora ya sabes cómo mejorar tu scraper con conocimientos de desarrolladores de scraper experimentados!  Recuerde que esta es solo la parte 3, por lo que estamos a mitad de camino de nuestro viaje de seis partes sobre el web scraping avanzado. No se descuide porque estamos a punto de sumergirnos en tecnología aún más avanzada, soluciones inteligentes y consejos de expertos.  ¿Siguiente parada? ¡Aprovechemos el poder de la gestión de proxy impulsada por IA! 🌐

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

2022 - HackerNoon Contributor of the Year - Amazon

Request Your Own Data

Nominated for 2022 - HackerNoon Contributor of the Year - Amazon

Este audio es producido en el idioma original de la historia!

Optimización del web scraping: consejos para que los scrapers sean más rápidos e inteligentes

About Author

COMENTARIOS

ETIQUETAS

ESTE ARTÍCULO FUE PRESENTADO EN

Related Stories

Creación de productos criptográficos centrados en el usuario: la importancia de los comentarios de los clientes

Una breve introducción a la teoría del cerebro de Boltzmann

Nómadas digitales escuchen: lo que necesitan saber sobre la nueva visa DTV de Tailandia

Aumente su productividad con estas 18 herramientas para desarrolladores 🚀🔥

Creación de productos criptográficos centrados en el usuario: la importancia de los comentarios de los clientes

Una breve introducción a la teoría del cerebro de Boltzmann

Nómadas digitales escuchen: lo que necesitan saber sobre la nueva visa DTV de Tailandia

Aumente su productividad con estas 18 herramientas para desarrolladores 🚀🔥

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps