Dans cet article, nous allons créer un programme qui vous permet de récupérer ou de récupérer des données d'un site Web avec un script Python. Cette méthode de collecte de données est appelée web scraping.  Le scraping Web consiste à utiliser par programmation Python ou tout autre langage de programmation pour télécharger, nettoyer et utiliser les données d'une page Web. La plupart des sites Web ne veulent pas que vous grattiez leurs données, et pour savoir ce qui est légal et autorisé pour le grattage, les sites Web ont une page dédiée qui affiche les détails des terminaux autorisés.  Joignez robots.txt à la fin de n'importe quel lien pour en savoir plus sur les points de terminaison autorisés. Par exemple, utilisons   . https://news.ycombinator.com/robots.txt  Le résultat devrait ressembler à ceci avec ce fichier texte ci-dessous :   La capture d'écran indique quels points de terminaison nous sommes autorisés et non autorisés à supprimer du site Web YCombinator. Un retard d'exploration signifie une pause lors du grattage des données du site Web avec des programmes, évitant ainsi de surcharger leurs serveurs et de ralentir le site Web en raison d'un grattage constant.  Dans cet exercice, nous récupérons la page d'accueil du contenu de l'actualité, ce que nous pouvons faire en fonction de l'agent utilisateur.  Commencer  Le scraper Web Python nécessite deux modules nécessaires pour scraper les données :  Belle soupe  Demandes  Belle soupe  Beautiful Soup est une bibliothèque Python pour extraire des données à partir de fichiers HTML. Il modifie le fichier à l'aide d'un analyseur, transforme les données en un document précieux et évite aux programmeurs des heures de travail manuel et répétitif.  Demandes  La bibliothèque HTTP des requêtes permet de télécharger des fichiers HTML en utilisant le lien vers le site Web avec le  fonction.   .get()  Création d'un grattoir Web  Passons maintenant aux détails de ce projet. Créez un nouveau répertoire, et là-dedans, un fichier qui contiendra tous les scripts du programme Web Scraper.  Copiez et collez le code suivant :             yc_web_page = response.text print(yc_web_page) # app.py import  requests response = requests.get( 'https://news.ycombinator.com/news' )  Le code ci-dessus effectue les opérations suivantes :  Importer le  module   requests  En utilisant la variable de réponse, les requêtes attachées au  fonction télécharger les fichiers HTML à partir du lien du site Web fourni   .get()  Lire le contenu de la page Web avec   .text  Si vous exécutez ce code avec la commande python  et cela ne vous donne aucune sortie, cela signifie que les deux modules importés doivent être installés.   app.py  Exécutez les commandes suivantes pour installer les modules.     pip install beautifulsoup4 pip3 install requests  Le résultat du code source devrait ressembler à ceci :   Ensuite, mettons à jour le  fichier avec le reste du code en utilisant une belle soupe :    app.py                yc_web_page = response.text                   article_title = article_tag.get_text()                 result = {        } print(result) # main.py import  requests from  bs4 import  BeautifulSoup # add this 
 response = requests.get( 'https://news.ycombinator.com/news' ) # add this  
 soup = BeautifulSoup(yc_web_page, 'html.parser' ) article_tag = soup.find(name= "a" , class_= 'titlelink' ) article_link = article_tag.get( 'href' ) article_upvote = soup.find(name= "span" , class_= "score" ).get_text()    "title" : article_title,    "link" : article_link,    "point" : article_upvote  Suivez l'extrait de code ci-dessus en procédant comme suit :  Importer la fonction BeautifulSoup du module  bs4  Ensuite, utilisez la variable soupe pour analyser le document à partir du  en utilisant la fonction BeautifulSoup et  pour récupérer les fichiers HTML   yc_web_page   html.parser  Avant de parcourir le reste du code, ouvrons notre navigateur Web avec le lien fourni dans   .get()  Ensuite, cliquez avec le bouton droit sur la page et cliquez sur inspecter pour afficher l'onglet des éléments de la page d'actualités de   . YCombinator  Notre page Web devrait ressembler à ceci :   Avec Beautiful Soup, nous pouvons cibler des éléments spécifiques sur la page avec leurs noms de classe :  En attribuant la variable article_tag, chaque élément de la page a un nom de balise utilisant le  fonction avec le nom de l'élément, la balise   et la  avec un trait de soulignement. Ceci est fait pour empêcher un écrasement de la classe dans l'élément sur la page Web    find() a   class_  Maintenant, nous voulons extraire l'un des titres de lien du  en utilisant le  fonction   article_tag   .get_text()  Ensuite, extrayez le lien du  en utilisant l'attribut  avec le  fonction   article_tag   href   .get()  Il en va de même pour le  variable, où le nom de la balise,  , et le nom de la classe sont utilisés pour extraire les points pour chaque lien d'article   article_upvote   <span>  Créer un résultat variable qui affichera les données extraites sous forme de dictionnaire avec la paire clé et valeur  Imprimez le résultat final  Avec tout le script écrit, notre page devrait récupérer les données de la page d'accueil des nouvelles de YCombinator et ressembler à ceci :   Conclusion  Cet article vous a appris à utiliser Python Web Scraper pour extraire des données d'une page Web.  De plus, les fonctionnalités de l'utilisation d'un grattoir Web sont qu'il permet d'économiser du temps et des efforts en produisant de grands ensembles de données plus rapidement plutôt que manuellement.  Apprendre encore plus   Belle documentation sur la soupe   Demande de documentation

2022 - HackerNoon Contributor of the Year - Data Visualization

2022 - HackerNoon Contributor of the Year - Frontend

2022 - HackerNoon Contributor of the Year - Heroku

2022 - HackerNoon Contributor of the Year - Javascript

2022 - No No No Nodejs

2022 - Remote Work Warrior

Portfolio

Nominated for 2022 - HackerNoon Contributor of the Year - Data Visualization

Nominated for 2022 - HackerNoon Contributor of the Year - Heroku

Nominated for 2022 - HackerNoon Contributor of the Year - Javascript

Nominated for 2022 - HackerNoon Contributor of the Year - Frontend

Nominated for 2022 - Remote Work Warrior

Nominated for 2022 - No No No Nodejs

Cet audio est produit dans la langue originale de l'histoire !

Trop long; Pour lire

Comment créer un grattoir Web Python : extraire des données de n'importe quel site Web

Comment créer un grattoir Web Python : extraire des données de n'importe quel site Web

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

La fuite de l'invite du système Claude Sonnet 3.5 : une analyse médico-légale

Créer des produits cryptographiques centrés sur l'utilisateur : l'importance des retours clients

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

State of the Noonion: A New Era For Brands and Writers

La fuite de l'invite du système Claude Sonnet 3.5 : une analyse médico-légale

Créer des produits cryptographiques centrés sur l'utilisateur : l'importance des retours clients

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

State of the Noonion: A New Era For Brands and Writers

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps