O básico, as controvérsias e as oportunidades do Web Scraping  Temos certeza de que você já ouviu a afirmação de que "os dados são o novo petróleo".  O que é mineração de dados, também conhecido como web scraping?  Web scraping é o processo de mineração de dados da World Wide Web para uma finalidade específica. Na forma mais simples, é copiar e colar um conjunto específico de informações em um banco de dados local para uso de arquivamento, análise científica ou algum outro uso.  Alguns dos exemplos mais amplamente usados incluem sites agregadores que fornecem comparações de preços para produtos online.   Existem também sites como  que extraem informações publicamente disponíveis e as armazenam mesmo depois que o site original pode ser excluído ou bibliotecas de sombra que tornam livros ou artigos atrás de paywalls, disponíveis publicamente gratuitamente.   archive.org  Mas o web scraping também pode ser usado de maneiras fascinantes, com alto impacto social.  Mais recentemente, um grupo de ativistas lituanos criou um site que permite que falantes de russo de todo o mundo liguem para pessoas que vivem na Rússia com acesso limitado a notícias sobre a guerra na Ucrânia.  A ideia era formar conexões humanas pessoais, usando interações individuais por telefone, e informar as pessoas sobre as atrocidades da guerra que seu governo estava realizando na Ucrânia.  O site,  , tornou-se possível extraindo os dados do número de telefone disponíveis publicamente da Web e reaproveitando-os.    Ligue para a Rússia  Como funciona?  As páginas da Web incluem muitas informações úteis na forma de texto (construídas em HTML ou XHTML). Normalmente, um bot chamado web crawler, “raspa” (coleta) os dados de um site.  Algumas páginas da Web possuem mecanismos integrados para impedir que os rastreadores da Web extraiam dados. Em resposta, alguns sistemas de web scraping evoluíram para simular a navegação humana usando técnicas como análise DOM, visão computacional e até mesmo processamento de linguagem natural.  Aqui está um vídeo de 5 minutos se você estiver interessado em aprender mais.   https://www.youtube.com/watch?v=CDXOcvUNBaA  Uma história supercurta da raspagem  O primeiro rastreador da web foi chamado de Wandex e foi programado por um aluno do MIT. O principal objetivo do rastreador era medir o tamanho da internet e funcionou de 1993 a 1995.  O primeiro rastreador API (Application Programming Interface) surgiu cinco anos depois. Hoje, muitos sites importantes, como o Twitter, oferecem APIs da Web para que as pessoas acessem seus bancos de dados públicos.   Mas por que iríamos querer coletar ou minerar dados em primeiro lugar e por que outra parte tentaria nos impedir de fazer isso?  Os aplicativos de raspagem da Web variam de ideias comerciais realmente bem-sucedidas, como ferramentas de comparação de preços, a muitos outros casos de uso, como justiça social e big data ético.  A raspagem da Web nos faz enfrentar algumas questões importantes. Todas as informações devem ser públicas - e igualmente acessíveis a todos? E a questão dos direitos autorais?  Do lado comercial, construir uma ferramenta de comparação de preços pode levar algumas empresas a perder clientes para a concorrência. Às vezes, grandes corporações, como companhias aéreas, processam scrapers e mineradores de dados por violação de direitos autorais com base nisso.   Embora os scrapers estejam tecnicamente coletando e exibindo dados que já estão disponíveis publicamente, os processos tendem a argumentar por violação de direitos autorais. Não há um resultado padrão para esses tipos de ações judiciais. Geralmente depende de vários fatores, como a extensão das informações coletadas ou as perdas incorridas.  A raspagem da Web é legal ou não?  A legalidade do web scraping ainda não está totalmente estabelecida. Os termos de uso de um site específico podem “bani-lo”, mas isso não é exatamente aplicado por lei em todos os casos. Para que a mineração dos dados seja ilegal, ela teria que ir contra uma lei já existente.   Nos Estados Unidos, isso pode ocorrer, mais comumente, com base na violação de direitos autorais. Outros exemplos incluem a Dinamarca, onde os tribunais consideraram o web scraping ou crawling legal de acordo com a lei dinamarquesa.  Na França, a Autoridade Francesa de Proteção de Dados determinou que, mesmo quando disponíveis publicamente, os dados pessoais não podem ser coletados e/ou reaproveitados sem o conhecimento da pessoa a quem pertencem.  Liberdade de informação  Quando se trata de organizações sem fins lucrativos e defensores do acesso aberto, as coisas ficam ainda mais interessantes.  O Internet Archive (archive.org) é um famoso projeto de raspagem da web. É uma organização sem fins lucrativos que arquiva (às vezes exclui) páginas da web, coleções digitais, livros, pdfs e vídeos para pesquisadores, estudantes e qualquer outra pessoa que tenha interesse.  Às vezes, eles ficam presos em áreas cinzentas legais de vez em quando, quando indivíduos ou até mesmo governos tomam medidas legais para remover algumas partes específicas do conteúdo.  Quando defender o acesso aberto universal à informação coloca você em apuros  Existem muitos projetos de web scraping que defendem o acesso aberto universal à informação, como o projeto PACER.    Link para artigo do NYT  PACER é o nome do site que abriga documentos legais dos tribunais dos EUA. Significa Public Access to Court Electronic Records, mas o acesso não é gratuito, exceto para um número seleto de bibliotecas públicas.  O falecido Aaron Swartz, um defensor do acesso aberto e um dos primeiros prodígios da Internet,  documentos de uma dessas bibliotecas públicas e teve muitos problemas com o governo dos Estados Unidos e o FBI.   usou um programa de raspagem da web para baixar milhões de PACER  Corporações e governos podem ser incentivados a proibir a raspagem da web. No entanto, é uma ferramenta importante que jornalistas e pesquisadores usam para descobrir injustiças.  Uma lista de investigações jornalísticas que usaram Web Scraping  Coletar e analisar dados pode ser extremamente útil para todos os tipos de pesquisa e estudo acadêmico, levando a um novo movimento na ciência de dados. Os jornalistas agora também contam com análises cuidadosas de dados para revelar coisas novas sobre nossas sociedades e comunidades.   __   __realizou um projeto revelando policiais americanos que eram membros de grupos extremistas no Facebook postando e se envolvendo com conteúdo racista, xenófobo e islamofóbico. Reveal  Isso foi feito coletando dados desses grupos extremistas e de grupos de policiais no Facebook e fazendo referências cruzadas para encontrar os membros que se sobrepunham - e havia muitos.   A Reuters usou técnicas de análise de dados semelhantes para descobrir  sobre sites onde os americanos “anunciam” as crianças que adotaram no exterior com o objetivo de entregá-las a estranhos quando não quiserem mais lidar com elas.   uma história chocante  Usando raspadores, o Verge e o Trace fizeram uma investigação revelando  ou verificação de antecedentes.   venda de armas online sem licença  O USA Today descobriu que, entre 2010 e 2018, mais de 10.000 projetos de lei apresentados nas assembleias estaduais em todo o país foram quase  . Esta investigação foi possível graças ao web scraping.   inteiramente copiado de contas escritas por interesses especiais  O Atlântico percorre um  que não apenas coleta dados globais sobre a covid diariamente, mas também mostra as disparidades raciais da pandemia.   projeto de rastreamento COVID  Estes são apenas alguns dos exemplos de como o web scraping pode ser usado para fins comerciais e de justiça social. Existem muitos outros casos de uso por aí e muitos outros esperando para serem realizados.  A análise extensiva de dados e a ciência de dados abertos podem revelar tantas novas verdades, mas estamos cruzando a linha com o tipo de dados que coletamos e os métodos que usamos para coletá-los?   Qual é a ética e a escola de pensamento em torno da coleta de dados?  Como equilibramos privacidade com acesso aberto?  Embora seja importante continuarmos a conversa sobre o acesso aberto a documentos relevantes para o público, também devemos considerar questões de privacidade.  Hoje, muitas pessoas e organizações concordam que coletar e usar os dados pessoais de alguém sem seu consentimento é antiético.   No entanto, e os dados públicos, como artigos de notícias que são censurados em alguns países? Ou estatísticas e dados relacionados à saúde que podem ser usados para sugestões de políticas de saúde pública?  Nos EUA, __   __para identificar pacientes de alto risco para um programa preventivo para fornecer cuidados adicionais para que esses pacientes não acabassem no pronto-socorro. os formuladores de políticas usaram um algoritmo   https://www.youtube.com/watch?v=Ok5sKLXqynQ  Pesquisadores posteriores descobriram que os negros eram mais doentes do que os brancos, embora dentro da mesma categoria. Em outras palavras, os pacientes negros incorrem em menos custos do que os pacientes brancos com as mesmas doenças por uma variedade de razões, incluindo a falta de acesso a seguros de alta qualidade.  Em outro caso, descobriu-se que __   __ usadas por empresas como a Amazon favorecem homens em detrimento de mulheres e brancos em detrimento de negros. ferramentas de contratação automatizadas  Quando as ferramentas pesquisaram na web, elas determinaram que os cargos executivos eram preenchidos principalmente por homens brancos, então as máquinas aprenderam que esse era o tipo de qualidade a ser procurada em um candidato.  A coleta de dados públicos para o bem público nem sempre leva a resultados positivos para a sociedade. A automação e o aprendizado de máquina precisam de uma intervenção cuidadosa. Como construtores de novos sistemas tecnológicos e sociais, precisamos garantir que todas as nossas ferramentas de análise de dados sejam projetadas eticamente e não continuem nossos sistemas históricos de injustiça e discriminação.  A raspagem é altamente relevante para o trabalho que fazemos no Mysterium. Nos preocupamos em construir uma web acessível onde a liberdade de informação e a ciência de dados abertos se tornem pilares fundamentais da nova web.  Estamos colaborando com desenvolvedores para construir o Web3. Para saber mais sobre a forma como o Mysterium capacita os construtores no espaço da Web 3 para projetos orientados a propósitos, confira  nosso site.

Abroad

Amazon

Facebook

Nationwide

Super

The Verge

Trace

Twitter

YouTube

2022 - HackerNoon Contributor of the Year - Big Data

Download Mysterium VPN

Nominated for 2022 - HackerNoon Contributor of the Year - Big Data

Este áudio é produzido no idioma original da história!

Muito longo; Para ler

Web Scraping é roubo?

Web Scraping é roubo?

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

Liberando o poder da IA. Uma revisão sistemática de técnicas de ponta: resumo e introdução

De fóruns a feeds: como os algoritmos de mídia social moldam a interação digital

Crescimento de Criptomoedas: Criando Personas de Usuários Eficazes

Guia do arquiteto para construir arquitetura de referência para um Datalake de IA/ML

Liberando o poder da IA. Uma revisão sistemática de técnicas de ponta: resumo e introdução

De fóruns a feeds: como os algoritmos de mídia social moldam a interação digital

Crescimento de Criptomoedas: Criando Personas de Usuários Eficazes

Guia do arquiteto para construir arquitetura de referência para um Datalake de IA/ML

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps