paint-brush
Est-ce que le scraping Web vole ?par@mysteriumvpn
3,078 lectures
3,078 lectures

Est-ce que le scraping Web vole ?

par Mysterium VPN2022/06/20
Read on Terminal Reader
Read this story w/o Javascript

Trop long; Pour lire

Le scraping Web consiste à extraire des données du World Wide Web dans un but précis. Dans sa forme la plus simple, il s'agit de copier et coller un ensemble spécifique d'informations dans une base de données locale à des fins d'archivage, d'analyse scientifique ou d'une autre utilisation. Le scraping Web peut également être utilisé de manière fascinante, avec un impact social élevé. Les gens créent des sites de comparaison de prix ou des bibliothèques fantômes qui contournent les paywalls. Plus récemment, des militants lituaniens ont collecté des données de numéros de téléphone accessibles au public de citoyens russes ordinaires pour créer un site Web permettant aux russophones du monde entier d'appeler un Russe au hasard pour parler de la guerre dans le but de sensibiliser un pays qui censure les informations sur la guerre.

People Mentioned

Mention Thumbnail

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Est-ce que le scraping Web vole ?
Mysterium VPN HackerNoon profile picture


Les bases, les controverses et les opportunités du Web Scraping


Nous sommes sûrs que vous avez entendu l'affirmation selon laquelle "les données sont le nouveau pétrole".


Qu'est-ce que l'exploration de données ou le grattage Web ?

Le scraping Web est le processus d'extraction de données du World Wide Web dans un but précis. Dans sa forme la plus simple, il s'agit de copier et coller un ensemble spécifique d'informations dans une base de données locale à des fins d'archivage, d'analyse scientifique ou à d'autres fins.


Certains des exemples les plus largement utilisés incluent les sites Web d'agrégateurs qui fournissent des comparaisons de prix pour les produits en ligne.



Il existe aussi des sites comme archive.org qui récupèrent des informations accessibles au public et les stockent même après la suppression du site d'origine ou des bibliothèques fantômes qui rendent des livres ou des articles derrière des murs payants, accessibles gratuitement au public.

Mais le web scraping peut aussi être utilisé de manière fascinante, avec un fort impact social.

Plus récemment, un groupe d'activistes lituaniens a créé un site Web qui permet aux russophones du monde entier d'appeler des personnes vivant en Russie ayant un accès limité aux informations sur la guerre en Ukraine.


L'idée était de nouer des liens humains personnels, en utilisant des interactions individuelles par téléphone, et de faire connaître aux gens les atrocités de la guerre que leur gouvernement commettait en Ukraine.


Le site Web, Appeler la Russie , a été rendu possible en grattant les données de numéros de téléphone accessibles au public sur le Web et en les réaffectant.

Comment ça marche?

Les pages Web contiennent de nombreuses informations utiles sous forme de texte (construites sur HTML ou XHTML). Habituellement, un robot appelé robot d'indexation Web "gratte" (collecte) les données d'un site.

Certaines pages Web ont des mécanismes intégrés pour empêcher les robots d'exploration Web de récupérer des données. En réponse, certains systèmes de grattage Web ont évolué pour simuler la navigation humaine à l'aide de techniques telles que l'analyse DOM, la vision par ordinateur et même le traitement du langage naturel.

Voici une vidéo de 5 minutes si vous souhaitez en savoir plus.


https://www.youtube.com/watch?v=CDXOcvUNBaA

Une très courte histoire du scraping

Le tout premier robot d'exploration Web s'appelait le Wandex et il a été programmé par un étudiant du MIT. L'objectif principal du robot d'exploration était de mesurer la taille d'Internet et il a fonctionné de 1993 à 1995.


Le premier robot d'exploration API (Application Programming Interface) est arrivé cinq ans plus tard. Aujourd'hui, de nombreux sites Web majeurs comme Twitter proposent des API Web permettant aux utilisateurs d'accéder à leurs bases de données publiques.




Mais pourquoi voudrions-nous d'abord extraire ou extraire des données, et pourquoi une autre partie essaierait-elle de nous empêcher de le faire ?


Les applications de scraping Web vont des idées commerciales vraiment réussies comme les outils de comparaison de prix à de nombreux autres cas d'utilisation, comme la justice sociale et le big data éthique.


Le web scraping nous pose des questions importantes. Toutes les informations devraient-elles être publiques - et également accessibles à tous ? Qu'en est-il de la question du droit d'auteur ?


Sur le plan commercial, la création d'un outil de comparaison de prix pourrait conduire certaines entreprises à perdre des clients au profit de la concurrence. Parfois, de grandes entreprises comme les compagnies aériennes poursuivent les grattoirs et les mineurs de données pour violation du droit d'auteur pour ces motifs.

Même si les grattoirs collectent et affichent techniquement des données qui sont déjà accessibles au public, les poursuites ont tendance à plaider pour une violation du droit d'auteur. Il n'y a pas de résultat standard pour ce genre de poursuites. Cela dépend généralement d'un certain nombre de facteurs tels que l'étendue des informations collectées ou les pertes subies.

Le Web Scraping est-il légal ou non ?

La légalité du web scraping n'est pas encore entièrement étoffée. Les conditions d'utilisation d'un site spécifique peuvent "l'interdire", mais cela n'est pas exactement appliqué par la loi dans tous les cas. Pour que l'extraction des données soit illégale, elle devrait aller à l'encontre d'une loi déjà existante.

En Amérique, cela pourrait être, le plus souvent, pour des raisons de violation du droit d'auteur. D'autres exemples incluent le Danemark, où les tribunaux ont conclu que le grattage ou l'exploration du Web était légal selon la loi danoise.

En France, l'Autorité française de protection des données a statué que même lorsqu'elles sont accessibles au public, les données personnelles ne peuvent toujours pas être collectées et/ou réutilisées à l'insu de la personne à qui elles appartiennent.


La liberté d'information


En ce qui concerne les organisations à but non lucratif et les défenseurs du libre accès, les choses deviennent encore plus intéressantes.


Internet Archive (archive.org) est un célèbre projet de grattage Web. Il s'agit d'une organisation à but non lucratif qui archive (parfois supprimée) des pages Web, des collections numériques, des livres, des fichiers PDF et des vidéos pour les chercheurs, les étudiants et toute autre personne intéressée.


Ils se retrouvent parfois pris dans des zones grises juridiques de temps en temps, lorsque des individus ou même des gouvernements intentent une action en justice pour supprimer certains contenus spécifiques.

Lorsque la défense d'un accès libre et universel à l'information vous cause des ennuis

Il existe de nombreux projets de grattage Web qui plaident pour un accès libre et universel à l'information, comme le projet PACER.

Lien vers l'article du NYT


PACER est le nom du site Web qui héberge les documents juridiques des tribunaux américains. Il signifie Public Access to Court Electronic Records, mais l'accès n'est pas gratuit, sauf pour un certain nombre de bibliothèques publiques.

Le regretté Aaron Swartz, défenseur du libre accès et premier prodige d'Internet, utilisé un programme de grattage Web pour télécharger des millions de PACER documents de l'une de ces bibliothèques publiques et a eu beaucoup de problèmes avec le gouvernement américain et le FBI.


Les entreprises et les gouvernements pourraient être incités à interdire le web scraping. Cependant, c'est un outil important que les journalistes et les chercheurs utilisent pour découvrir les injustices.


Une liste d'enquêtes journalistiques qui ont utilisé le Web Scraping

La collecte et l'analyse de données peuvent être extrêmement utiles pour tous les types de recherche et d'études universitaires, conduisant à un nouveau mouvement dans la science des données. Les journalistes s'appuient également désormais sur une analyse minutieuse des données pour révéler de nouvelles choses sur nos sociétés et nos communautés.


__ Reveal __ a réalisé un projet révélant que des flics américains membres de groupes extrémistes sur Facebook publiaient et s'engageaient dans des contenus racistes, xénophobes et islamophobes.

Cela a été fait en récupérant les données de ces groupes extrémistes et de groupes de policiers sur Facebook et en les recoupant pour trouver les membres qui se chevauchent - et ils étaient nombreux.



Reuters a utilisé des techniques d'analyse de données similaires pour découvrir une histoire choquante sur les sites où les Américains "annoncent" les enfants qu'ils ont adoptés à l'étranger dans le but de les donner à des étrangers lorsqu'ils ne veulent plus s'occuper d'eux.


À l'aide de grattoirs, le Verge et le Trace ont mené une enquête révélant vente d'armes en ligne sans permis ou vérification des antécédents.


USA Today a découvert qu'entre 2010 et 2018, plus de 10 000 projets de loi déposés dans les Statehouses du pays ont été presque entièrement copié à partir de projets de loi rédigés par des intérêts particuliers . Cette enquête a été rendue possible grâce au web scraping.


L'Atlantique exécute un Projet de suivi COVID qui non seulement collecte quotidiennement les données mondiales sur le covid mais montre également les disparités raciales de la pandémie.


Ce ne sont là que quelques-uns des exemples de la manière dont le web scraping peut être utilisé à des fins commerciales et de justice sociale. Il existe de nombreux autres cas d'utilisation et bien d'autres attendent d'être réalisés.


L'analyse approfondie des données et la science des données ouvertes peuvent révéler tant de nouvelles vérités, mais franchissons-nous la limite avec le type de données que nous collectons et les méthodes que nous utilisons pour les collecter ?



Quelles sont l'éthique et l'école de pensée autour de la collecte de données ?


Comment concilier confidentialité et libre accès ?


Bien qu'il soit important que nous poursuivions la conversation sur le libre accès aux documents qui sont pertinents pour le public, nous devons également tenir compte des questions de confidentialité.


Aujourd'hui, de nombreuses personnes et organisations conviennent que la collecte et l'utilisation des données personnelles d'une personne sans son consentement sont contraires à l'éthique.


Cependant, qu'en est-il des données publiques telles que les articles de presse qui sont censurés dans certains pays ? Ou des statistiques et des données liées à la santé qui peuvent être utilisées pour des suggestions de politiques de santé publique ?

Aux États-Unis, __ les décideurs politiques ont utilisé un algorithme __ pour identifier les patients à haut risque pour un programme préventif afin de fournir des soins supplémentaires afin que ces patients ne se retrouvent pas aux urgences.

https://www.youtube.com/watch?v=Ok5sKLXqynQ


Des chercheurs ultérieurs ont découvert que les Noirs étaient plus malades que les Blancs, mais dans la même catégorie. En d'autres termes, les patients noirs encourent moins de coûts que les patients blancs atteints des mêmes maladies pour diverses raisons, notamment le manque d'accès à une assurance de haute qualité.


Dans un autre cas, __ les outils de recrutement automatisés __ utilisés par des entreprises comme Amazon se sont révélés favoriser les hommes par rapport aux femmes et les Blancs par rapport aux personnes de couleur.

Lorsque les outils ont recherché sur le Web, ils ont déterminé que les postes de direction étaient principalement occupés par des hommes blancs, de sorte que les machines ont appris que c'était le type de qualité à rechercher chez un candidat.


Récupérer des données publiques pour le bien public ne conduit pas toujours à des résultats positifs pour la société. L'automatisation et l'apprentissage automatique nécessitent une intervention réfléchie. En tant que constructeurs de nouveaux systèmes technologiques et sociaux, nous devons nous assurer que tous nos outils d'analyse de données sont conçus de manière éthique et ne perpétuent pas nos systèmes historiques d'injustice et de discrimination.



Le scraping est très pertinent pour le travail que nous faisons chez Mysterium. Nous nous soucions de construire un Web accessible où la liberté d'information et la science des données ouvertes deviennent les piliers fondamentaux du nouveau Web.

Nous collaborons avec des développeurs pour construire le Web3. Pour en savoir plus sur la façon dont Mysterium permet aux constructeurs de l'espace Web 3 de réaliser des projets ciblés, consultez notre site.