paint-brush
Web Scraping 是在窃取吗?经过@mysteriumnetwork
3,033 讀數
3,033 讀數

Web Scraping 是在窃取吗?

经过 Mysterium Network2022/06/20
Read on Terminal Reader
Read this story w/o Javascript

太長; 讀書

网络抓取是为了特定目的从万维网上挖掘数据。最简单的形式是将一组特定的信息复制并粘贴到本地数据库中,以供存档、科学分析或其他用途。网络抓取也可以以引人入胜的方式使用,具有很高的社会影响力。人们创建绕过付费墙的价格比较网站或影子图书馆。最近,立陶宛活动人士收集了普通俄罗斯公民的公开电话号码数据,创建了一个网站,让来自世界各地的讲俄语的人可以打电话给随机的俄罗斯人谈论战争,以提高这个审查新闻的国家的意识。战争。

People Mentioned

Mention Thumbnail

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Web Scraping 是在窃取吗?
Mysterium Network HackerNoon profile picture


Web Scraping 的基础知识、争议和机遇


我们确信您已经听说过“数据就是新石油”的说法。


什么是数据挖掘又名网络抓取?

网络抓取是为了特定目的从万维网上挖掘数据的过程。在最简单的形式中,它是将一组特定的信息复制并粘贴到本地数据库中,用于存档、科学分析或其他用途。


一些最广泛使用的例子包括提供在线商品价格比较的聚合网站。



还有类似的网站存档.org即使在原始站点可能被删除后也可以抓取公开可用的信息并将其存储起来,或者在付费墙后面制作书籍或文章的影子图书馆免费公开提供。

但是网络抓取也可以以迷人的方式使用,具有很高的社会影响力。

最近,一群立陶宛活动家创建了一个网站,让来自世界各地的说俄语的人可以给生活在俄罗斯的人们打电话,他们只能获得有限的乌克兰战争新闻。


这个想法是建立个人人际关系,通过电话进行一对一的互动,让人们了解他们的政府在乌克兰进行的战争暴行。


网站,致电俄罗斯,是通过从网络上抓取公开的电话号码数据并重新利用它来实现的。

它是如何工作的?

网页以文本形式(基于 HTML 或 XHTML)包含许多有用的信息。通常,称为网络爬虫的机器人从站点“抓取”(收集)数据。

一些网页具有防止网络爬虫抓取数据的内置机制。作为回应,一些网页抓取系统已经发展为使用 DOM 解析、计算机视觉甚至自然语言处理等技术来模拟人类浏览。

如果您有兴趣了解更多信息,这是一个 5 分钟的视频。


https://www.youtube.com/watch?v=CDXOcvUNBaA

刮痧的超短历史

第一个网络爬虫被称为 Wandex,它是由麻省理工学院的一名学生编写的。爬虫的主要目的是测量互联网的规模,它从 1993 年到 1995 年运行。


五年后,第一个 API(应用程序编程接口)爬虫问世。如今,许多主要网站(如 Twitter)都提供 Web API 供人们访问其公共数据库。




但是为什么我们首先要抓取或挖掘数据,为什么另一方会试图阻止我们这样做呢?


网络抓取应用程序的范围从真正成功的商业理念(如价格比较工具)到许多其他用例,如社会正义和道德大数据。


网络抓取使我们面临一些重要的问题。所有信息都应该是公开的——并且所有人都可以平等地访问吗?版权问题呢?


在商业方面,建立价格比较工具可能会导致一些企业在竞争中失去客户。有时,像航空公司这样的大公司会以这些理由起诉爬虫和数据挖掘者侵犯版权。

尽管抓取工具在技术上收集和显示已经公开可用的数据,但这些诉讼往往会主张侵犯版权。这类诉讼没有标准的结果。它通常取决于许多因素,例如收集的信息的范围或发生的损失。

网页抓取是否合法?

网络抓取的合法性仍未完全确定。特定网站上的使用条款可能会“禁止”它,但这并不是在所有情况下都完全由法律强制执行。为了使数据的挖掘是非法的,它必须违反现有的法律。

在美国,这可能是最常见的,以侵犯版权为由。其他例子包括丹麦,根据丹麦法律,法院认为网络抓取或爬行是合法的。

在法国,法国数据保护局裁定,即使个人数据可公开获得,仍不能在其所属人不知情的情况下收集和/或重新利用个人数据。


信息自由


当谈到非营利组织和开放获取倡导者时,事情变得更加有趣。


Internet Archive (archive.org) 是一个著名的网络抓取项目。它是一个非营利组织,为研究人员、学生和其他任何感兴趣的人存档(有时被删除)网页、数字馆藏、书籍、pdf 和视频。


当个人甚至政府采取法律行动删除某些特定内容时,他们有时会时不时地陷入法律灰色地带。

当倡导信息的普遍开放获取让你陷入困境时

有许多网络抓取项目提倡对信息的普遍开放访问,例如 PACER 项目。

链接到纽约时报文章


PACER 是存放美国法院法律文件的网站的名称。它代表对法院电子记录的公共访问,但除了部分公共图书馆外,访问不是免费的。

已故的 Aaron Swartz,一位开放获取倡导者和早期的互联网神童,使用网络抓取程序下载数百万个 PACER来自这些公共图书馆之一的文件,并与美国政府和联邦调查局发生了很多麻烦。


公司和政府可能会被激励禁止网络抓取。然而,它是记者和研究人员用来揭露不公正现象的重要工具。


使用网络抓取的新闻调查列表

收集和分析数据对所有类型的研究和学术研究都非常有帮助,从而引发了数据科学的新运动。记者现在还依靠仔细的数据分析来揭示我们社会和社区的新事物。


__ Reveal __开展了一个项目,揭露作为极端主义团体成员的美国警察在 Facebook 上发布和参与种族主义、仇外心理和仇视伊斯兰教的内容。

这是通过从这些极端主义团体和 Facebook 上的警察团体中抓取数据并交叉引用以找到重叠的成员来完成的——而且有很多。



路透社使用类似的数据分析技术来发现一个令人震惊的故事关于美国人“宣传”他们从国外收养的孩子的网站,目的是在他们不想再与陌生人打交道时将他们送给陌生人。


使用刮刀,Verge 和 Trace 进行了一项调查,揭示了 无证网上售枪或背景调查。


《今日美国报》发现,2010 年至 2018 年间,全国州议会推出的 10,000 多张法案几乎完全抄自特殊利益集团的法案.网络抓取使这项调查成为可能。


大西洋运行新冠病毒追踪项目它不仅每天收集全球有关covid的数据,而且还显示了大流行的种族差异。


这些只是网络抓取可用于商业和社会正义目的的一些示例。还有许多其他用例,还有更多等待实现。


广泛的数据分析和开放的数据科学可以解开如此多的新真相,但我们是否越界了我们收集的数据类型以及我们用来收集它的方法?



围绕数据收集的伦理和思想流派是什么?


我们如何平衡隐私与开放访问?


虽然我们继续讨论开放获取与公众相关的文件很重要,但我们也必须考虑隐私问题。


今天,许多人和组织都认为,未经他人同意而收集和使用他人的个人数据是不道德的。


但是,在某些国家/地区受到审查的新闻文章等公共数据呢?或者可用于公共卫生政策建议的与健康相关的统计数据和数据?

在美国,__政策制定者使用一种算法__ 来识别高危患者以进行预防性计划,以提供额外的护理,从而使这些患者不会最终进入急诊室。

https://www.youtube.com/watch?v=Ok5sKLXqynQ


后来的研究人员发现,黑人比白人病得更重,尽管属于同一类别。换句话说,由于各种原因,包括无法获得高质量的保险,黑人患者比患有相同疾病的白人患者承担的费用更少。


在另一个例子中,亚马逊等公司使用的__ 自动招聘工具被发现偏爱男性而非女性,偏爱白人而非有色人种。

当这些工具在网上搜索时,他们确定行政职位主要由白人男性担任,因此机器了解到这是在候选人中寻找的品质类型。


为公共利益而收集公共数据并不总是会给社会带来积极的结果。自动化和机器学习需要周到的干预。作为新技术和社会系统的建设者,我们需要确保我们所有的数据分析工具都经过合乎道德的设计,并且不会延续我们历史上的不公正和歧视制度。



抓取与我们在 Mysterium 所做的工作高度相关。我们关心建立一个可访问的网络,让信息自由和开放数据科学成为新网络的基础支柱。

我们正在与开发人员合作构建 Web3。要了解更多有关 Mysterium 为 Web 3 空间中的构建者提供支持以进行目标驱动项目的方式的信息,请查看我们的网站。