paint-brush
Web Scraping é roubo?by@mysteriumnetwork
3,052
3,052

Web Scraping é roubo?

A raspagem da Web é a mineração de dados da World Wide Web para uma finalidade específica. Na forma mais simples, é copiar e colar um conjunto específico de informações em um banco de dados local para uso arquivístico, análise científica ou algum outro uso. A raspagem da Web também pode ser usada de maneiras fascinantes, com alto impacto social. As pessoas criam sites de comparação de preços ou bibliotecas ocultas que contornam paywalls. Mais recentemente, ativistas lituanos coletaram dados de números de telefone publicamente disponíveis de cidadãos russos comuns para criar um site que permite que falantes de russo de todo o mundo liguem para um russo aleatório para falar sobre a guerra em um esforço para aumentar a conscientização em um país que censura notícias sobre a guerra.

People Mentioned

Mention Thumbnail

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Web Scraping é roubo?
Mysterium Network HackerNoon profile picture


O básico, as controvérsias e as oportunidades do Web Scraping


Temos certeza de que você já ouviu a afirmação de que "os dados são o novo petróleo".


O que é mineração de dados, também conhecido como web scraping?

Web scraping é o processo de mineração de dados da World Wide Web para uma finalidade específica. Na forma mais simples, é copiar e colar um conjunto específico de informações em um banco de dados local para uso de arquivamento, análise científica ou algum outro uso.


Alguns dos exemplos mais amplamente usados incluem sites agregadores que fornecem comparações de preços para produtos online.



Existem também sites como archive.org que extraem informações publicamente disponíveis e as armazenam mesmo depois que o site original pode ser excluído ou bibliotecas de sombra que tornam livros ou artigos atrás de paywalls, disponíveis publicamente gratuitamente.

Mas o web scraping também pode ser usado de maneiras fascinantes, com alto impacto social.

Mais recentemente, um grupo de ativistas lituanos criou um site que permite que falantes de russo de todo o mundo liguem para pessoas que vivem na Rússia com acesso limitado a notícias sobre a guerra na Ucrânia.


A ideia era formar conexões humanas pessoais, usando interações individuais por telefone, e informar as pessoas sobre as atrocidades da guerra que seu governo estava realizando na Ucrânia.


O site, Ligue para a Rússia , tornou-se possível extraindo os dados do número de telefone disponíveis publicamente da Web e reaproveitando-os.

Como funciona?

As páginas da Web incluem muitas informações úteis na forma de texto (construídas em HTML ou XHTML). Normalmente, um bot chamado web crawler, “raspa” (coleta) os dados de um site.

Algumas páginas da Web possuem mecanismos integrados para impedir que os rastreadores da Web extraiam dados. Em resposta, alguns sistemas de web scraping evoluíram para simular a navegação humana usando técnicas como análise DOM, visão computacional e até mesmo processamento de linguagem natural.

Aqui está um vídeo de 5 minutos se você estiver interessado em aprender mais.


https://www.youtube.com/watch?v=CDXOcvUNBaA

Uma história supercurta da raspagem

O primeiro rastreador da web foi chamado de Wandex e foi programado por um aluno do MIT. O principal objetivo do rastreador era medir o tamanho da internet e funcionou de 1993 a 1995.


O primeiro rastreador API (Application Programming Interface) surgiu cinco anos depois. Hoje, muitos sites importantes, como o Twitter, oferecem APIs da Web para que as pessoas acessem seus bancos de dados públicos.




Mas por que iríamos querer coletar ou minerar dados em primeiro lugar e por que outra parte tentaria nos impedir de fazer isso?


Os aplicativos de raspagem da Web variam de ideias comerciais realmente bem-sucedidas, como ferramentas de comparação de preços, a muitos outros casos de uso, como justiça social e big data ético.


A raspagem da Web nos faz enfrentar algumas questões importantes. Todas as informações devem ser públicas - e igualmente acessíveis a todos? E a questão dos direitos autorais?


Do lado comercial, construir uma ferramenta de comparação de preços pode levar algumas empresas a perder clientes para a concorrência. Às vezes, grandes corporações, como companhias aéreas, processam scrapers e mineradores de dados por violação de direitos autorais com base nisso.

Embora os scrapers estejam tecnicamente coletando e exibindo dados que já estão disponíveis publicamente, os processos tendem a argumentar por violação de direitos autorais. Não há um resultado padrão para esses tipos de ações judiciais. Geralmente depende de vários fatores, como a extensão das informações coletadas ou as perdas incorridas.

A raspagem da Web é legal ou não?

A legalidade do web scraping ainda não está totalmente estabelecida. Os termos de uso de um site específico podem “bani-lo”, mas isso não é exatamente aplicado por lei em todos os casos. Para que a mineração dos dados seja ilegal, ela teria que ir contra uma lei já existente.

Nos Estados Unidos, isso pode ocorrer, mais comumente, com base na violação de direitos autorais. Outros exemplos incluem a Dinamarca, onde os tribunais consideraram o web scraping ou crawling legal de acordo com a lei dinamarquesa.

Na França, a Autoridade Francesa de Proteção de Dados determinou que, mesmo quando disponíveis publicamente, os dados pessoais não podem ser coletados e/ou reaproveitados sem o conhecimento da pessoa a quem pertencem.


Liberdade de informação


Quando se trata de organizações sem fins lucrativos e defensores do acesso aberto, as coisas ficam ainda mais interessantes.


O Internet Archive (archive.org) é um famoso projeto de raspagem da web. É uma organização sem fins lucrativos que arquiva (às vezes exclui) páginas da web, coleções digitais, livros, pdfs e vídeos para pesquisadores, estudantes e qualquer outra pessoa que tenha interesse.


Às vezes, eles ficam presos em áreas cinzentas legais de vez em quando, quando indivíduos ou até mesmo governos tomam medidas legais para remover algumas partes específicas do conteúdo.

Quando defender o acesso aberto universal à informação coloca você em apuros

Existem muitos projetos de web scraping que defendem o acesso aberto universal à informação, como o projeto PACER.

Link para artigo do NYT


PACER é o nome do site que abriga documentos legais dos tribunais dos EUA. Significa Public Access to Court Electronic Records, mas o acesso não é gratuito, exceto para um número seleto de bibliotecas públicas.

O falecido Aaron Swartz, um defensor do acesso aberto e um dos primeiros prodígios da Internet, usou um programa de raspagem da web para baixar milhões de PACER documentos de uma dessas bibliotecas públicas e teve muitos problemas com o governo dos Estados Unidos e o FBI.


Corporações e governos podem ser incentivados a proibir a raspagem da web. No entanto, é uma ferramenta importante que jornalistas e pesquisadores usam para descobrir injustiças.


Uma lista de investigações jornalísticas que usaram Web Scraping

Coletar e analisar dados pode ser extremamente útil para todos os tipos de pesquisa e estudo acadêmico, levando a um novo movimento na ciência de dados. Os jornalistas agora também contam com análises cuidadosas de dados para revelar coisas novas sobre nossas sociedades e comunidades.


__ Reveal __realizou um projeto revelando policiais americanos que eram membros de grupos extremistas no Facebook postando e se envolvendo com conteúdo racista, xenófobo e islamofóbico.

Isso foi feito coletando dados desses grupos extremistas e de grupos de policiais no Facebook e fazendo referências cruzadas para encontrar os membros que se sobrepunham - e havia muitos.



A Reuters usou técnicas de análise de dados semelhantes para descobrir uma história chocante sobre sites onde os americanos “anunciam” as crianças que adotaram no exterior com o objetivo de entregá-las a estranhos quando não quiserem mais lidar com elas.


Usando raspadores, o Verge e o Trace fizeram uma investigação revelando venda de armas online sem licença ou verificação de antecedentes.


O USA Today descobriu que, entre 2010 e 2018, mais de 10.000 projetos de lei apresentados nas assembleias estaduais em todo o país foram quase inteiramente copiado de contas escritas por interesses especiais . Esta investigação foi possível graças ao web scraping.


O Atlântico percorre um projeto de rastreamento COVID que não apenas coleta dados globais sobre a covid diariamente, mas também mostra as disparidades raciais da pandemia.


Estes são apenas alguns dos exemplos de como o web scraping pode ser usado para fins comerciais e de justiça social. Existem muitos outros casos de uso por aí e muitos outros esperando para serem realizados.


A análise extensiva de dados e a ciência de dados abertos podem revelar tantas novas verdades, mas estamos cruzando a linha com o tipo de dados que coletamos e os métodos que usamos para coletá-los?



Qual é a ética e a escola de pensamento em torno da coleta de dados?


Como equilibramos privacidade com acesso aberto?


Embora seja importante continuarmos a conversa sobre o acesso aberto a documentos relevantes para o público, também devemos considerar questões de privacidade.


Hoje, muitas pessoas e organizações concordam que coletar e usar os dados pessoais de alguém sem seu consentimento é antiético.


No entanto, e os dados públicos, como artigos de notícias que são censurados em alguns países? Ou estatísticas e dados relacionados à saúde que podem ser usados para sugestões de políticas de saúde pública?

Nos EUA, __ os formuladores de políticas usaram um algoritmo __para identificar pacientes de alto risco para um programa preventivo para fornecer cuidados adicionais para que esses pacientes não acabassem no pronto-socorro.

https://www.youtube.com/watch?v=Ok5sKLXqynQ


Pesquisadores posteriores descobriram que os negros eram mais doentes do que os brancos, embora dentro da mesma categoria. Em outras palavras, os pacientes negros incorrem em menos custos do que os pacientes brancos com as mesmas doenças por uma variedade de razões, incluindo a falta de acesso a seguros de alta qualidade.


Em outro caso, descobriu-se que __ ferramentas de contratação automatizadas __ usadas por empresas como a Amazon favorecem homens em detrimento de mulheres e brancos em detrimento de negros.

Quando as ferramentas pesquisaram na web, elas determinaram que os cargos executivos eram preenchidos principalmente por homens brancos, então as máquinas aprenderam que esse era o tipo de qualidade a ser procurada em um candidato.


A coleta de dados públicos para o bem público nem sempre leva a resultados positivos para a sociedade. A automação e o aprendizado de máquina precisam de uma intervenção cuidadosa. Como construtores de novos sistemas tecnológicos e sociais, precisamos garantir que todas as nossas ferramentas de análise de dados sejam projetadas eticamente e não continuem nossos sistemas históricos de injustiça e discriminação.



A raspagem é altamente relevante para o trabalho que fazemos no Mysterium. Nos preocupamos em construir uma web acessível onde a liberdade de informação e a ciência de dados abertos se tornem pilares fundamentais da nova web.

Estamos colaborando com desenvolvedores para construir o Web3. Para saber mais sobre a forma como o Mysterium capacita os construtores no espaço da Web 3 para projetos orientados a propósitos, confira nosso site.