Web スクレイピングの基本、論争、および機会 「データは新しい石油」という主張を聞いたことがあると思います。 データマイニング、別名ウェブスクレイピングとは? Web スクレイピングは、特定の目的のために World Wide Web からデータをマイニングするプロセスです。最も単純な形式では、アーカイブ、科学分析、またはその他の用途のために、特定の情報セットをローカル データベースにコピー アンド ペーストします。 最も広く使用されている例には、オンライン商品の価格比較を提供するアグリゲーター Web サイトが含まれます。 みたいなサイトもあります 元のサイトが削除された後でも公開されている情報をスクレイピングして保存するものや、無料で公開されているペイウォールの背後にある本や記事を作成する影のライブラリ. archive.org しかし、Web スクレイピングは魅力的な方法で使用することもでき、社会に大きな影響を与えます。 最近では、リトアニアの活動家グループがウェブサイトを作成し、世界中のロシア語話者が、ウクライナでの戦争に関するニュースへのアクセスが制限されているロシアに住む人々に電話をかけることができるようにしました. そのアイデアは、電話での 1 対 1 の対話を使用して個人的な人間関係を形成し、政府がウクライナで行っている戦争の残虐行為について人々に知らせることでした。 ウェブサイト、 、公開されている電話番号データを Web からスクレイピングし、それを転用することで可能になりました。 ロシアに通話する どのように機能しますか? Web ページには、多くの有用な情報がテキスト形式 (HTML または XHTML で作成) で含まれています。通常、Web クローラーと呼ばれるボットが、サイトからデータを「スクレイピング」 (収集) します。 一部の Web ページには、Web クローラーによるデータのスクレイピングを防止するメカニズムが組み込まれています。それに応じて、一部の Web スクレイピング システムは、DOM 解析、コンピューター ビジョン、さらには自然言語処理などの手法を使用して人間のブラウジングをシミュレートするように進化しました。 詳しく知りたい方は、こちらの 5 分間のビデオをご覧ください。 https://www.youtube.com/watch?v=CDXOcvUNBaA スクレイピングの非常に短い歴史 史上初の Web クローラーは Wandex と呼ばれ、MIT の学生によってプログラムされました。クローラーの主な目的はインターネットのサイズを測定することで、1993 年から 1995 年まで運用されていました。 最初の API (Application Programming Interface) クローラーは 5 年後に登場しました。今日、Twitter などの主要な Web サイトの多くは、公開データベースにアクセスするための Web API を提供しています。 しかし、そもそもなぜデータをスクレイピングまたはマイニングしたいのでしょうか。 Web スクレイピング アプリケーションは、価格比較ツールのような非常に成功した商業的なアイデアから、社会正義や倫理的なビッグ データのような他の多くのユース ケースまで、さまざまです。 Webスクレイピングは、いくつかの重要な問題に直面させます。すべての情報を公開し、すべての人が平等にアクセスできるようにする必要がありますか?著作権の問題はどうですか? 商業的な側面では、価格比較ツールを構築すると、一部の企業が顧客を競争に失うことにつながる可能性があります。航空会社などの大企業は、これらの理由でスクレイパーやデータ マイナーを著作権侵害で訴えることがあります。 スクレイパーは、すでに公開されているデータを技術的に収集して表示していますが、訴訟は著作権侵害を主張する傾向があります。この種の訴訟には標準的な結果はありません。通常、収集される情報の範囲や発生した損失など、さまざまな要因によって異なります。 Web スクレイピングは合法かどうか? Web スクレイピングの合法性は、まだ完全には具体化されていません。特定のサイトの使用条件はそれを「禁止」するかもしれませんが、それはすべての場合に法律によって正確に施行されるわけではありません.データのマイニングが違法であるためには、既存の法律に違反する必要があります。 アメリカでは、著作権侵害が理由であることが最も一般的です。他の例としてはデンマークがあり、裁判所はデンマークの法律に従って Web スクレイピングまたはクロールが合法であると判断しました。 フランスでは、フランスのデータ保護機関が、公開されている場合でも、個人データは、そのデータが属している人物の知らないうちに収集および/または転用することはできないと裁定しました. 情報の自由 非営利団体やオープン アクセスの支持者となると、事態はさらに興味深いものになります。 インターネット アーカイブ (archive.org) は、有名な Web スクレイピング プロジェクトです。これは、研究者、学生、その他関心のあるすべての人のために、Web ページ、デジタル コレクション、書籍、PDF、およびビデオをアーカイブする (場合によっては削除される) 非営利団体です。 個人または政府でさえ、コンテンツの特定の部分を削除するために法的措置を講じる場合、法的グレーゾーンに引っかかることがあります。 情報へのユニバーサル オープン アクセスを提唱することで問題が発生する場合 PACER プロジェクトのように、情報への普遍的なオープン アクセスを提唱する多くの Web スクレイピング プロジェクトがあります。 ニューヨークタイムズ記事へのリンク PACER は、米国の裁判所からの法的文書を保管する Web サイトの名前です。 Public Access to Court Electronic Records の略ですが、一部の公共図書館を除き、アクセスは無料ではありません。 オープンアクセスの提唱者であり、初期のインターネットの天才である故アーロン・スワーツは、 これらの公立図書館の 1 つから文書を入手し、米国政府と FBI との間で多くのトラブルに巻き込まれました。 Web スクレイピング プログラムを使用して何百万もの PACER をダウンロード 企業や政府は、Web スクレイピングを非合法化するよう奨励される可能性があります。しかし、それはジャーナリストや研究者が不正を明らかにするために使用する重要なツールです。 Web スクレイピングを使用したジャーナリズム調査のリスト データの収集と分析は、あらゆる種類の研究や学術研究に非常に役立ち、データ サイエンスの新しい動きにつながります。ジャーナリストは現在、慎重なデータ分析に依存して、私たちの社会やコミュニティに関する新しいことを明らかにしています。 __ 暴露 __ 人種差別的、排外主義的、イスラム嫌悪的なコンテンツに Facebook に投稿し、関与している過激派グループのメンバーであるアメリカの警官を プロジェクトを実施しました。 明らかにする これは、これらの過激派グループや Facebook の警察官のグループからデータを収集し、重複するメンバーを見つけるために相互参照することによって行われました。 ロイターは同様のデータ分析手法を使用して、 アメリカ人が海外から養子にした子供たちを、もう関わりたくないときに見知らぬ人に渡す目的で「宣伝」するサイトについて。 衝撃的な話 スクレーパーを使用して、Verge と Trace は調査を行い、次のことを明らかにしました。 またはバックグラウンド チェック。 ライセンスなしのオンライン銃販売. USA Today は、2010 年から 2018 年の間に全国の州議会議事堂に導入された 10,000 を超える法案がほとんど .この調査は Web スクレイピングによって可能になりました。 特別利益団体によって書かれた法案から完全にコピーされた アトランティックは Covidに関する世界的なデータを毎日収集するだけでなく、パンデミックの人種格差も示しています。 COVID追跡プロジェクト これらは、Web スクレイピングを商業目的と社会正義目的の両方に使用できる方法の例のほんの一部です。他にも多くのユースケースがあり、さらに多くのユースケースが実現されるのを待っています. 広範なデータ分析とオープン データ サイエンスにより、非常に多くの新しい真実が明らかになりますが、私たちが収集するデータの種類や収集方法は一線を越えているのでしょうか? データ収集に関する倫理と考え方は? プライバシーとオープンアクセスのバランスをどのように取るか? 公衆に関連するドキュメントへのオープン アクセスについて話し合いを続けることは重要ですが、プライバシーの問題も考慮する必要があります。 今日、多くの人々や組織は、誰かの個人データを本人の同意なしに収集して使用することは非倫理的であることに同意しています。 しかし、一部の国で検閲されているニュース記事などの公開データはどうでしょうか。それとも、公衆衛生政策の提案に使用できる健康関連の統計やデータですか? 米国では、__ リスクの高い患者を特定し、これらの患者が最終的に ER に送られないように追加のケアを提供する予防プログラムを実施しました。 政策立案者がアルゴリズム __ を使用して https://www.youtube.com/watch?v=Ok5sKLXqynQ 後の研究者は、同じカテゴリー内ではあるが、黒人は白人よりも病気が多いことを発見しました。言い換えれば、高品質の保険にアクセスできないなどのさまざまな理由により、同じ病気の黒人患者は白人患者よりも費用がかからないということです。 別の例では、Amazon などの企業が使用している __ __ は、女性よりも男性を好み、有色人種よりも白人を好んでいることがわかりました。 自動採用ツール ツールが Web を検索したところ、重役のほとんどが白人男性で占められていることが判明したため、機械は候補者に求められる資質の種類を学習しました。 公共の利益のために公開データをスクレイピングすることは、必ずしも社会にとってプラスの結果につながるとは限りません。自動化と機械学習には、慎重な介入が必要です。新しい技術的および社会的システムの構築者として、私たちはすべてのデータ分析ツールが倫理的に設計されており、不正と差別の歴史的なシステムを継続しないようにする必要があります. スクレイピングは、Mysterium での作業と非常に関連性があります。私たちは、情報の自由とオープン データ サイエンスが新しい Web の基本的な柱となる、アクセシブルな Web の構築に関心を持っています。 私たちは開発者と協力して Web3 を構築しています。 Mysterium が目的主導のプロジェクトのために Web 3 スペースのビルダーを支援する方法の詳細については、 私たちのサイトをチェックしてください。