❗   : Esta é a Parte 2 da nossa série de seis partes sobre Advanced Web Scraping. Quer começar do começo?   ! Aviso Legal Recupere-se lendo a Parte 1  Se você gosta de web scraping, provavelmente já está familiarizado com a maioria dos desafios usuais. Mas com a Web mudando em velocidade de dobra — especialmente graças ao boom da IA — há toneladas de novas variáveis no jogo de scraping. Para subir de nível como um especialista em web scraping, você deve dominá-las todas! 🔍  Neste guia, você descobrirá técnicas avançadas de web scraping e decifrará o código sobre como fazer scraping nos sites modernos de hoje, mesmo com SPAs, PWAs e IA na mistura! 💪  Qual é o problema com SPAs, PWAs e sites com tecnologia de IA?  Antigamente, os sites eram apenas um monte de páginas estáticas gerenciadas por um servidor web. Avançando para agora, a Web é mais como uma metrópole movimentada. 🌇  Nós pulamos da renderização do lado do servidor para a do lado do cliente. Por quê? Porque nossos dispositivos móveis estão mais poderosos do que nunca, então deixá-los lidar com parte da carga faz todo o sentido. 📲  Claro, você provavelmente já sabe de tudo isso — mas para chegar onde estamos hoje, precisamos saber onde começamos. Hoje, a Internet é uma mistura de sites estáticos, sites dinâmicos renderizados por servidores, SPAs, PWAs, sites orientados por IA e muito mais. 🕸️  E não se preocupe — SPA, PWA e AI não são siglas secretas para agências governamentais. Vamos decompor essa sopa de letrinhas. 🥣  SPA: Aplicação de página única  SPA (   ) não significa que é literalmente uma página, mas lida com a navegação sem recarregar tudo a cada vez. Pense nisso como   : clique e assista ao conteúdo mudar instantaneamente sem aquele irritante recarregamento de página. 🍿  Single Page Application Netflix  É suave, rápido e permite que você permaneça no fluxo.  PWA: Aplicativo Web Progressivo  Os PWAs são como aplicativos da web com esteroides. 💊  Tecnicamente falando, um PWA (   ) usa recursos de ponta da web para dar a você a sensação de um aplicativo nativo diretamente do seu navegador. Progressive Web App  Funcionalidade offline? ✅  Notificações push? ✅  Carregamento quase instantâneo por meio de cache? ✅  Na maioria dos casos, você também pode instalar PWAs diretamente no seu dispositivo!  Sites com tecnologia de IA  Sites com tecnologia de IA trazem uma pitada de mágica de aprendizado de máquina. De designs e chatbots gerados dinamicamente a recomendações personalizadas, esses sites fazem você sentir como se o site o   . 🤖 ✨ conhecesse  Não é apenas navegar. É uma experiência interativa que se adapta a você.  Aqui está a parte divertida  Essas categorias?    Não são mutuamente exclusivas!  Você pode colocá-los em camadas como um parfait. 🍨 Um PWA também pode ser um SPA, e ambos podem alavancar a IA para tornar as coisas mais inteligentes e rápidas. Então, sim, pode ficar um pouco selvagem lá fora!  Raspagem avançada de dados: navegando na selva da web de hoje  Resumindo, a ascensão de SPAs, PWAs e sites com tecnologia de IA tornou a web muito mais complexa. E, sim, isso significa que a raspagem da web é mais desafiadora do que nunca, com uma tonelada de novos fatores a serem considerados. 😣  E o que dizer   ? Bem, é um pouco cedo para dizer o impacto que ela terá no web scraping, mas  da Web 3.0 alguns especialistas já estão especulando…  Para começar a contornar os obstáculos mais comuns (e irritantes) de hoje em dia na raspagem de sites moderna, dê uma olhada neste vídeo do nosso amigo   . O Capítulo 3 cobre exatamente o que você está procurando. 👇 Forrest Knight   https://www.youtube.com/watch?v=vxk6YPRVg_o&embedable=true  Vamos agora ver o que você precisa considerar ao realizar web scraping avançado em sites modernos!  ⚠️   Não desanime se as primeiras dicas parecerem familiares — continue, porque há muitos insights novos à medida que nos aprofundamos! 🧠 Aviso:  Conteúdo dinâmico via AJAX e renderização do lado do cliente  Hoje em dia, a maioria dos sites é totalmente renderizada no lado do cliente via JavaScript (que é   ) ou tem seções dinâmicas que carregam dados ou alteram o   da página conforme você interage com ela. a renderização do lado do cliente DOM  Se você usou um navegador na última década, sabe do que estamos falando. Essa   não é mágica — é alimentada pela tecnologia AJAX! (E não, não é o clube de futebol Ajax 🔴⚪ — um tipo diferente de mágica aqui 😉) recuperação dinâmica de dados  Você provavelmente já sabe o que é AJAX, mas se não,   . Agora, AJAX é um grande negócio para web scraping?  os documentos do MDN são um ótimo lugar para começar  Com ferramentas de automação de navegador como   ou   , você pode comandar seu script para carregar uma página da web em um navegador, incluindo solicitações AJAX. Basta pegar uma das   e pronto! Playwright, Selenium Puppeteer melhores ferramentas de navegador headless  Para obter mais orientações, leia nosso tutorial completo sobre   . como extrair dados de sites dinâmicos em Python  🚨 Mas, espere… Tem uma dica profissional! 🚨  A maioria das páginas baseadas em AJAX extraem dados dinâmicos por meio de chamadas de API. Você pode capturar essas solicitações abrindo a aba   no DevTools do seu navegador ao carregar uma página:  Network  Você verá:  Uma ou mais   para diferentes endpoints. APIs REST  Uma ou mais chamadas de API GraphQL para um único endpoint, que você pode consultar usando   . GraphQL  Em ambos os casos, isso abre a porta para   Basta interceptar e puxar esses dados — fácil assim! 🎉 scraping ao direcionar essas chamadas de API diretamente.  Veja o vídeo abaixo para um rápido passo a passo:   https://www.youtube.com/watch?v=ji8F8ppY8bs&embedable=true  Carregamento lento, rolagem infinita e interação dinâmica do usuário  As páginas da web estão mais interativas do que nunca, com designers constantemente experimentando novas maneiras de nos manter engajados. Por outro lado, algumas interações, como   , até se tornaram padrão. (Já se viu rolando infinitamente pela Netflix? Certifique-se de   !)  rolagem infinita conferir a série certa  Então, como lidamos com todas essas interações complicadas na web scraping? Rufem os tambores... 🥁    (Sim, de novo! 🎉)  Com ferramentas de automação do navegador!  Os mais modernos, como   , têm métodos incorporados para lidar com interações comuns. E quando algo único aparece que eles não cobrem? Normalmente, você pode adicionar código JavaScript personalizado para fazer o truque. o Playwright  Em particular:  O Playwright oferece o método   para executar JS personalizado diretamente na página. assess()  O Selenium fornece   , que permite executar JavaScript no navegador. execute_script()  Sabemos que você provavelmente já tem uma noção desses conceitos básicos, então não precisa se aprofundar aqui. Mas se quiser saber tudo, veja estes guias completos:   Raspagem da web do dramaturgo   Raspagem de web de selênio  Cache de conteúdo em PWAs  É aqui que as coisas ficam picantes! 🌶️  Os PWAs são criados para funcionar offline e dependem muito de   . Embora isso seja ótimo para usuários finais, cria uma dor de cabeça para web scraping porque você quer recuperar dados novos.  cache  Então, como você lida com o cache ao fazer scraping — especialmente ao lidar com um PWA? Bem, na maioria das vezes, você usará uma ferramenta de automação de navegador. Afinal, os PWAs são tipicamente renderizados do lado do cliente e/ou dependem de recuperação dinâmica de dados.  As boas notícias? Ferramentas de automação de navegador iniciam novas sessões de navegador toda vez que você as executa. E no caso do Puppeteer e do Playwright, elas até iniciam no modo anônimo por padrão. Mas aqui está o problema:   ! 🤯 sessões anônimas/novas não são livres de cache ou cookies  Quanto mais você interage com um site no seu script de scraping, mais provável é que o navegador comece a armazenar em cache as solicitações — mesmo no modo anônimo. Para resolver o problema, você pode reiniciar o navegador headless periodicamente.  Ou, com o Puppeteer,   : você pode desabilitar o cache completamente com um comando simples   await page.setCacheEnabled(enabled)  Mas e se o servidor por trás do PWA estiver armazenando dados em cache em seu final? Bem, isso é outra fera… 👹  Infelizmente, não há muito que você possa fazer sobre o cache do lado do servidor. Ao mesmo tempo, alguns servidores servem respostas em cache com base nos cabeçalhos em solicitações recebidas. Assim, você pode tentar alterar alguns cabeçalhos de solicitação, como o   . 🔄 User-Agent  Descubra o   ! melhor User-Agent para web scraping  Conteúdo específico do contexto  Já se perguntou por que os sites parecem mostrar conteúdo que você está quase interessado   ? Não é mágica — é aprendizado de máquina em ação. 💡 demais  Hoje em dia, mais e mais páginas da web servem conteúdo personalizado adaptado às suas preferências. Com base em suas pesquisas, interações no site, compras, visualizações e outros comportamentos online,   . os algoritmos de ML entendem o que você gosta e as páginas da web servem conteúdo de acordo  É útil? Com certeza — uma grande economia de tempo! ⏱️  É ético? Bem, você concordou com esses termos de serviço, então... vamos com sim. 🤷  Mas aqui está o desafio para web scraping: antigamente, você só se preocupava com sites mudando sua estrutura HTML ocasionalmente. Agora, as páginas da web mudam continuamente, potencialmente entregando uma experiência diferente a cada vez que você as visita.   Então, como você lida com isso? Para obter resultados consistentes, você pode iniciar suas ferramentas de automação de navegador com sessões pré-armazenadas, que ajudam a garantir que o conteúdo permaneça previsível. Ferramentas como Playwright fornecem um objeto   também para esse propósito: BrowserContext   const browserContext = await browser.newContext({ // load the context storage state from a JSON file storageState: "session.json" }); const page = await context.newPage();  Para evitar conteúdo personalizado, você também deve tentar padronizar parâmetros como idioma e localização de IP, pois eles também podem influenciar o conteúdo exibido. 🗺️  E aqui vai uma dica final: sempre inspecione os sites no   antes de fazer scraping. Dessa forma, você tem uma sessão de “folha em branco”, livre de dados personalizados. Isso ajuda você a entender melhor o conteúdo normalmente disponível no site. 🥷 modo anônimo  Sites e páginas da Web gerados por IA  Agora, o assunto do momento:   ! 🔥 IA  A IA está reescrevendo o manual sobre como construímos sites. O que costumava levar meses, agora está acontecendo em segundos ou minutos! ⏱️  Para uma rápida visão geral de como a tecnologia de construção de sites baseada em IA está transformando o jogo, assista ao vídeo a seguir:   https://www.youtube.com/watch?v=z9Asx8vdyP8&embedable=true  O resultado? Os sites estão mudando o layout, a estrutura e o design mais rápido do que nunca. Até mesmo o conteúdo está recebendo o tratamento de IA, com editores produzindo enormes quantidades de texto, imagens e vídeos em um piscar de olhos. ⚡  E isso é só o começo…   Imagine um futuro onde os sites podem gerar páginas dinamicamente com base no que você clica ou pesquisa. É como se elas estivessem se transformando em tempo real, adaptando-se a cada usuário.  Toda essa aleatoriedade é um pesadelo para scripts tradicionais de web scraping. 😱  Mas aqui está o outro lado. Assim como a IA acelera as atualizações de sites, você pode usar   para adaptar seus scripts rapidamente. Quer se aprofundar mais? Leia um guia sobre   . web scraping com tecnologia de IA IA para web scraping  Outra solução possível, especialmente para evitar erros, é criar processos independentes que monitorem as páginas em busca de alterações, alertando você antes que seu script quebre. Por exemplo, por meio de uma mensagem do Telegram. 📩  Veja como criar um   . bot de notificação de mudança de página no Telegram  Detecção de bots por IA: a mãe de todas as tecnologias de proteção contra bots  Quase todas as soluções que cobrimos até agora pressupõem que os sites modernos são altamente interativos. Isso significa que se você quiser raspá-los, você deve usar uma ferramenta de automação do navegador. Mas há um ponto fraco nessa abordagem: o próprio navegador!    😲 Os navegadores não foram feitos para scraping!  Claro, você pode ajustá-los com extensões (como com   ) ou implementar todos os ajustes mencionados acima. Mas com a detecção de bots orientada por IA de hoje, os navegadores tradicionais são cada vez mais fáceis de detectar, especialmente quando os sites adotam tecnologia anti-scraping avançada, como   . Puppeteer Extra análise de comportamento do usuário  Então, qual é a solução? Um poderoso navegador de scraping que:  Funciona no modo orientado como um navegador comum para se misturar aos usuários reais.  Escala facilmente na nuvem, economizando tempo e custos de infraestrutura.  Integra IPs rotativos de uma das maiores e mais confiáveis redes de proxy.  Resolve CAPTCHAs automaticamente, gerencia a impressão digital do navegador e personaliza cookies e cabeçalhos, tudo isso enquanto processa as tentativas para você.  Funciona perfeitamente com as principais ferramentas de automação, como Playwright, Selenium e Puppeteer.  Esta não é apenas uma ideia futurística. Ela está aqui, e é exatamente o que   oferece. Quer uma visão mais aprofundada? Veja este vídeo: o Scraping Browser da Bright Data   https://www.youtube.com/watch?v=kuDuJWvho7Q&embedable=true  Considerações finais  Agora você sabe o que a raspagem da web moderna exige, especialmente quando se trata de enfrentar SPAs e PWAs controlados por IA!  Você definitivamente pegou algumas dicas profissionais aqui, mas lembre-se, esta é apenas a Parte 2 da nossa aventura de seis partes em web scraping avançado! Então, mantenha o cinto de segurança apertado porque estamos prestes a mergulhar em ainda mais tecnologia de ponta, soluções inteligentes e dicas privilegiadas.  Próxima parada? Segredos de otimização para scrapers mais rápidos e inteligentes! 🚀

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

Render

Bright

Catch

Chapter

Even

Make

Near

Netflix

Progressive

Single

Sure

2022 - HackerNoon Contributor of the Year - Amazon

Request Your Own Data

Nominated for 2022 - HackerNoon Contributor of the Year - Amazon

Este áudio é produzido no idioma original da história!

Muito longo; Para ler

Como raspar SPAs modernos, PWAs e sites dinâmicos baseados em IA

Como raspar SPAs modernos, PWAs e sites dinâmicos baseados em IA

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

Aumente sua produtividade com estas 18 ferramentas para desenvolvedores 🚀🔥

Crescimento de Criptomoedas: Criando Personas de Usuários Eficazes

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

Liberando o poder da IA. Uma revisão sistemática de técnicas de ponta: resumo e introdução

Aumente sua produtividade com estas 18 ferramentas para desenvolvedores 🚀🔥

Crescimento de Criptomoedas: Criando Personas de Usuários Eficazes

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

Liberando o poder da IA. Uma revisão sistemática de técnicas de ponta: resumo e introdução

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps