Neste artigo, construiremos um programa que permite que você raspe ou obtenha dados de um site com um script Python. Este método de coleta de dados é chamado de web scraping.  A raspagem da Web tem tudo a ver com o uso programático do Python ou de qualquer outra linguagem de programação para baixar, limpar e usar os dados de uma página da web. A maioria dos sites não quer que você raspe seus dados e, para descobrir o que é legal e permitido para a raspagem, os sites têm uma página dedicada que mostra detalhes dos endpoints permitidos.  Anexe robots.txt ao final de qualquer link para saber mais sobre os endpoints permitidos. Por exemplo, vamos usar   . https://news.ycombinator.com/robots.txt  O resultado deve ficar assim com este arquivo de texto abaixo:   A captura de tela indica quais endpoints podemos e não podemos extrair do site do YCombinator. Um atraso de rastreamento significa uma pausa ao coletar dados do site com programas, não sobrecarregando seus servidores e diminuindo a velocidade do site devido à captura constante.  Neste exercício, raspamos a página inicial do conteúdo de notícias, o que podemos fazer de acordo com o agente do usuário.  Começando  O raspador da web Python requer dois módulos necessários para raspar os dados:  bela sopa  solicitações de  bela sopa  Beautiful Soup é uma biblioteca Python para extrair dados de arquivos HTML. Ele modifica o arquivo usando um analisador, transforma os dados em um documento valioso e economiza horas de trabalho manual e repetitivo dos programadores.  solicitações de  A biblioteca HTTP request é para baixar arquivos HTML usando o link para o site com o  função.   .get()  Criando um Web Scraper  Agora, para o âmago da questão deste projeto. Crie um novo diretório e, nele, um arquivo que conterá todos os scripts do programa web scraper.  Copie e cole o seguinte código:             yc_web_page = response.text print(yc_web_page) # app.py import  requests response = requests.get( 'https://news.ycombinator.com/news' )  O código acima faz o seguinte:  Importando o  módulo   requests  Usando a variável de resposta, as solicitações anexadas ao  função baixar os arquivos HTML do link do site fornecido   .get()  Lendo o conteúdo da página da web com   .text  Se você executar este código com o comando python  e não fornecer nenhuma saída, significa que os dois módulos importados precisam ser instalados.   app.py  Execute os seguintes comandos para instalar os módulos.     pip install beautifulsoup4 pip3 install requests  O resultado do código-fonte deve ficar assim:   Em seguida, vamos atualizar o  arquivo com o restante do código usando beautiful soup:    app.py                yc_web_page = response.text                   article_title = article_tag.get_text()                 result = {        } print(result) # main.py import  requests from  bs4 import  BeautifulSoup # add this 
 response = requests.get( 'https://news.ycombinator.com/news' ) # add this  
 soup = BeautifulSoup(yc_web_page, 'html.parser' ) article_tag = soup.find(name= "a" , class_= 'titlelink' ) article_link = article_tag.get( 'href' ) article_upvote = soup.find(name= "span" , class_= "score" ).get_text()    "title" : article_title,    "link" : article_link,    "point" : article_upvote  Siga o trecho de código acima fazendo o seguinte::  Importe a função BeautifulSoup do módulo  bs4  Em seguida, use a variável soup para analisar o documento do  usando a função BeautifulSoup e  para obter os arquivos HTML   yc_web_page   html.parser  Antes de passar pelo restante do código, vamos abrir nosso navegador da Web com o link fornecido em   .get()  Em seguida, clique com o botão direito do mouse na página e clique em inspecionar para visualizar a guia de elementos da página de notícias do   . YCombinator  Nossa página web deve ficar assim:   Com Beautiful Soup, podemos direcionar elementos específicos na página com seus nomes de classe:  Ao atribuir a variável article_tag, cada elemento da página tem um nome de tag usando o  função com o nome do elemento,   tag a e o  com um sublinhado. Isso é feito para evitar uma substituição da classe no elemento na página da web    find() a   class_  Agora, queremos extrair um dos títulos de link do  usando o  função   article_tag   .get_text()  Em seguida, extraia o link do  usando o atributo  com o  função   article_tag   href   .get()  O mesmo se aplica ao  variável, onde o nome da tag,  , e o nome da classe são usados para extrair os pontos para cada link de artigo   article_upvote   <span>  Crie um resultado variável que exibirá os dados extraídos como um dicionário com o par de chave e valor  Imprima o resultado final  Com todo o script escrito, nossa página deve extrair os dados da página inicial de notícias do YCombinator e ficar assim:   Conclusão  Este artigo ensinou como usar o raspador da web Python para extrair dados de uma página da web.  Além disso, as funcionalidades de usar um raspador da web são que ele economiza tempo e esforço na produção de grandes conjuntos de dados mais rapidamente do que manualmente.  Saber mais   Documentação da Beautiful Soup   Solicita documentação

2022 - HackerNoon Contributor of the Year - Data Visualization

2022 - HackerNoon Contributor of the Year - Frontend

2022 - HackerNoon Contributor of the Year - Heroku

2022 - HackerNoon Contributor of the Year - Javascript

2022 - No No No Nodejs

2022 - Remote Work Warrior

Portfolio

Nominated for 2022 - HackerNoon Contributor of the Year - Data Visualization

Nominated for 2022 - HackerNoon Contributor of the Year - Heroku

Nominated for 2022 - HackerNoon Contributor of the Year - Javascript

Nominated for 2022 - HackerNoon Contributor of the Year - Frontend

Nominated for 2022 - Remote Work Warrior

Nominated for 2022 - No No No Nodejs

Este áudio é produzido no idioma original da história!

Muito longo; Para ler

Como construir um Python Web Scraper: raspe dados de qualquer site

Como construir um Python Web Scraper: raspe dados de qualquer site

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

Guia do arquiteto para construir arquitetura de referência para um Datalake de IA/ML

Crescimento de Criptomoedas: Criando Personas de Usuários Eficazes

De fóruns a feeds: como os algoritmos de mídia social moldam a interação digital

Digital Nomads Ouçam: O que você precisa saber sobre o novo visto DTV da Tailândia

Guia do arquiteto para construir arquitetura de referência para um Datalake de IA/ML

Crescimento de Criptomoedas: Criando Personas de Usuários Eficazes

De fóruns a feeds: como os algoritmos de mídia social moldam a interação digital

Digital Nomads Ouçam: O que você precisa saber sobre o novo visto DTV da Tailândia

Light-Mode

Classic

Newspaper

Dark-Mode

Neon Noir

Minty

HN StartUps