Les bases, les controverses et les opportunités du Web Scraping  Nous sommes sûrs que vous avez entendu l'affirmation selon laquelle "les données sont le nouveau pétrole".  Qu'est-ce que l'exploration de données ou le grattage Web ?  Le scraping Web est le processus d'extraction de données du World Wide Web dans un but précis. Dans sa forme la plus simple, il s'agit de copier et coller un ensemble spécifique d'informations dans une base de données locale à des fins d'archivage, d'analyse scientifique ou à d'autres fins.  Certains des exemples les plus largement utilisés incluent les sites Web d'agrégateurs qui fournissent des comparaisons de prix pour les produits en ligne.   Il existe aussi des sites comme  qui récupèrent des informations accessibles au public et les stockent même après la suppression du site d'origine ou des bibliothèques fantômes qui rendent des livres ou des articles derrière des murs payants, accessibles gratuitement au public.   archive.org  Mais le web scraping peut aussi être utilisé de manière fascinante, avec un fort impact social.  Plus récemment, un groupe d'activistes lituaniens a créé un site Web qui permet aux russophones du monde entier d'appeler des personnes vivant en Russie ayant un accès limité aux informations sur la guerre en Ukraine.  L'idée était de nouer des liens humains personnels, en utilisant des interactions individuelles par téléphone, et de faire connaître aux gens les atrocités de la guerre que leur gouvernement commettait en Ukraine.  Le site Web,  , a été rendu possible en grattant les données de numéros de téléphone accessibles au public sur le Web et en les réaffectant.    Appeler la Russie  Comment ça marche?  Les pages Web contiennent de nombreuses informations utiles sous forme de texte (construites sur HTML ou XHTML). Habituellement, un robot appelé robot d'indexation Web "gratte" (collecte) les données d'un site.  Certaines pages Web ont des mécanismes intégrés pour empêcher les robots d'exploration Web de récupérer des données. En réponse, certains systèmes de grattage Web ont évolué pour simuler la navigation humaine à l'aide de techniques telles que l'analyse DOM, la vision par ordinateur et même le traitement du langage naturel.  Voici une vidéo de 5 minutes si vous souhaitez en savoir plus.   https://www.youtube.com/watch?v=CDXOcvUNBaA  Une très courte histoire du scraping  Le tout premier robot d'exploration Web s'appelait le Wandex et il a été programmé par un étudiant du MIT. L'objectif principal du robot d'exploration était de mesurer la taille d'Internet et il a fonctionné de 1993 à 1995.  Le premier robot d'exploration API (Application Programming Interface) est arrivé cinq ans plus tard. Aujourd'hui, de nombreux sites Web majeurs comme Twitter proposent des API Web permettant aux utilisateurs d'accéder à leurs bases de données publiques.   Mais pourquoi voudrions-nous d'abord extraire ou extraire des données, et pourquoi une autre partie essaierait-elle de nous empêcher de le faire ?  Les applications de scraping Web vont des idées commerciales vraiment réussies comme les outils de comparaison de prix à de nombreux autres cas d'utilisation, comme la justice sociale et le big data éthique.  Le web scraping nous pose des questions importantes. Toutes les informations devraient-elles être publiques - et également accessibles à tous ? Qu'en est-il de la question du droit d'auteur ?  Sur le plan commercial, la création d'un outil de comparaison de prix pourrait conduire certaines entreprises à perdre des clients au profit de la concurrence. Parfois, de grandes entreprises comme les compagnies aériennes poursuivent les grattoirs et les mineurs de données pour violation du droit d'auteur pour ces motifs.   Même si les grattoirs collectent et affichent techniquement des données qui sont déjà accessibles au public, les poursuites ont tendance à plaider pour une violation du droit d'auteur. Il n'y a pas de résultat standard pour ce genre de poursuites. Cela dépend généralement d'un certain nombre de facteurs tels que l'étendue des informations collectées ou les pertes subies.  Le Web Scraping est-il légal ou non ?  La légalité du web scraping n'est pas encore entièrement étoffée. Les conditions d'utilisation d'un site spécifique peuvent "l'interdire", mais cela n'est pas exactement appliqué par la loi dans tous les cas. Pour que l'extraction des données soit illégale, elle devrait aller à l'encontre d'une loi déjà existante.   En Amérique, cela pourrait être, le plus souvent, pour des raisons de violation du droit d'auteur. D'autres exemples incluent le Danemark, où les tribunaux ont conclu que le grattage ou l'exploration du Web était légal selon la loi danoise.  En France, l'Autorité française de protection des données a statué que même lorsqu'elles sont accessibles au public, les données personnelles ne peuvent toujours pas être collectées et/ou réutilisées à l'insu de la personne à qui elles appartiennent.  La liberté d'information  En ce qui concerne les organisations à but non lucratif et les défenseurs du libre accès, les choses deviennent encore plus intéressantes.  Internet Archive (archive.org) est un célèbre projet de grattage Web. Il s'agit d'une organisation à but non lucratif qui archive (parfois supprimée) des pages Web, des collections numériques, des livres, des fichiers PDF et des vidéos pour les chercheurs, les étudiants et toute autre personne intéressée.  Ils se retrouvent parfois pris dans des zones grises juridiques de temps en temps, lorsque des individus ou même des gouvernements intentent une action en justice pour supprimer certains contenus spécifiques.  Lorsque la défense d'un accès libre et universel à l'information vous cause des ennuis  Il existe de nombreux projets de grattage Web qui plaident pour un accès libre et universel à l'information, comme le projet PACER.    Lien vers l'article du NYT  PACER est le nom du site Web qui héberge les documents juridiques des tribunaux américains. Il signifie Public Access to Court Electronic Records, mais l'accès n'est pas gratuit, sauf pour un certain nombre de bibliothèques publiques.  Le regretté Aaron Swartz, défenseur du libre accès et premier prodige d'Internet,  documents de l'une de ces bibliothèques publiques et a eu beaucoup de problèmes avec le gouvernement américain et le FBI.   utilisé un programme de grattage Web pour télécharger des millions de PACER  Les entreprises et les gouvernements pourraient être incités à interdire le web scraping. Cependant, c'est un outil important que les journalistes et les chercheurs utilisent pour découvrir les injustices.  Une liste d'enquêtes journalistiques qui ont utilisé le Web Scraping  La collecte et l'analyse de données peuvent être extrêmement utiles pour tous les types de recherche et d'études universitaires, conduisant à un nouveau mouvement dans la science des données. Les journalistes s'appuient également désormais sur une analyse minutieuse des données pour révéler de nouvelles choses sur nos sociétés et nos communautés.   __   __ a réalisé un projet révélant que des flics américains membres de groupes extrémistes sur Facebook publiaient et s'engageaient dans des contenus racistes, xénophobes et islamophobes. Reveal  Cela a été fait en récupérant les données de ces groupes extrémistes et de groupes de policiers sur Facebook et en les recoupant pour trouver les membres qui se chevauchent - et ils étaient nombreux.   Reuters a utilisé des techniques d'analyse de données similaires pour découvrir  sur les sites où les Américains "annoncent" les enfants qu'ils ont adoptés à l'étranger dans le but de les donner à des étrangers lorsqu'ils ne veulent plus s'occuper d'eux.   une histoire choquante  À l'aide de grattoirs, le Verge et le Trace ont mené une enquête révélant  ou vérification des antécédents.   vente d'armes en ligne sans permis  USA Today a découvert qu'entre 2010 et 2018, plus de 10 000 projets de loi déposés dans les Statehouses du pays ont été presque  . Cette enquête a été rendue possible grâce au web scraping.   entièrement copié à partir de projets de loi rédigés par des intérêts particuliers  L'Atlantique exécute un  qui non seulement collecte quotidiennement les données mondiales sur le covid mais montre également les disparités raciales de la pandémie.   Projet de suivi COVID  Ce ne sont là que quelques-uns des exemples de la manière dont le web scraping peut être utilisé à des fins commerciales et de justice sociale. Il existe de nombreux autres cas d'utilisation et bien d'autres attendent d'être réalisés.  L'analyse approfondie des données et la science des données ouvertes peuvent révéler tant de nouvelles vérités, mais franchissons-nous la limite avec le type de données que nous collectons et les méthodes que nous utilisons pour les collecter ?   Quelles sont l'éthique et l'école de pensée autour de la collecte de données ?  Comment concilier confidentialité et libre accès ?  Bien qu'il soit important que nous poursuivions la conversation sur le libre accès aux documents qui sont pertinents pour le public, nous devons également tenir compte des questions de confidentialité.  Aujourd'hui, de nombreuses personnes et organisations conviennent que la collecte et l'utilisation des données personnelles d'une personne sans son consentement sont contraires à l'éthique.   Cependant, qu'en est-il des données publiques telles que les articles de presse qui sont censurés dans certains pays ? Ou des statistiques et des données liées à la santé qui peuvent être utilisées pour des suggestions de politiques de santé publique ?  Aux États-Unis, __ les   __ pour identifier les patients à haut risque pour un programme préventif afin de fournir des soins supplémentaires afin que ces patients ne se retrouvent pas aux urgences. décideurs politiques ont utilisé un algorithme   https://www.youtube.com/watch?v=Ok5sKLXqynQ  Des chercheurs ultérieurs ont découvert que les Noirs étaient plus malades que les Blancs, mais dans la même catégorie. En d'autres termes, les patients noirs encourent moins de coûts que les patients blancs atteints des mêmes maladies pour diverses raisons, notamment le manque d'accès à une assurance de haute qualité.  Dans un autre cas, __ les   __ utilisés par des entreprises comme Amazon se sont révélés favoriser les hommes par rapport aux femmes et les Blancs par rapport aux personnes de couleur. outils de recrutement automatisés  Lorsque les outils ont recherché sur le Web, ils ont déterminé que les postes de direction étaient principalement occupés par des hommes blancs, de sorte que les machines ont appris que c'était le type de qualité à rechercher chez un candidat.  Récupérer des données publiques pour le bien public ne conduit pas toujours à des résultats positifs pour la société. L'automatisation et l'apprentissage automatique nécessitent une intervention réfléchie. En tant que constructeurs de nouveaux systèmes technologiques et sociaux, nous devons nous assurer que tous nos outils d'analyse de données sont conçus de manière éthique et ne perpétuent pas nos systèmes historiques d'injustice et de discrimination.  Le scraping est très pertinent pour le travail que nous faisons chez Mysterium. Nous nous soucions de construire un Web accessible où la liberté d'information et la science des données ouvertes deviennent les piliers fondamentaux du nouveau Web.  Nous collaborons avec des développeurs pour construire le Web3. Pour en savoir plus sur la façon dont Mysterium permet aux constructeurs de l'espace Web 3 de réaliser des projets ciblés, consultez  notre site.

Abroad

Amazon

Facebook

Nationwide

Super

The Verge

Trace

Twitter

YouTube

2022 - HackerNoon Contributor of the Year - Big Data

Download Mysterium VPN

Nominated for 2022 - HackerNoon Contributor of the Year - Big Data

Cet audio est produit dans la langue originale de l'histoire !

Trop long; Pour lire

Est-ce que le scraping Web vole ?

Est-ce que le scraping Web vole ?

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

Télégramme : le pont de Crypto Island vers le continent

Boostez votre productivité avec ces 18 outils de développement 🚀🔥

Appuyez pour gagner : Telegram pourrait intégrer les 10 prochains milliards d'utilisateurs de crypto avant Solana

Créer des produits cryptographiques centrés sur l'utilisateur : l'importance des retours clients

Télégramme : le pont de Crypto Island vers le continent

Boostez votre productivité avec ces 18 outils de développement 🚀🔥

Appuyez pour gagner : Telegram pourrait intégrer les 10 prochains milliards d'utilisateurs de crypto avant Solana

Créer des produits cryptographiques centrés sur l'utilisateur : l'importance des retours clients

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps