About : the LevelUp series At The Markup, we are committed to doing everything we can to protect our readers from digital harm, write about the processes we develop, and share our work. We are constantly working on improving digital security, respecting reader privacy, creating ethical and responsible user experiences, and making sure our site and tools are accessible. About : the レベルアップシリーズ About : the レベルアップシリーズ LevelUpシリーズ At The Markup, we are committed to doing everything we can to protect our readers from digital harm, write about the processes we develop, and share our work. We are constantly working on improving digital security, respecting reader privacy, creating ethical and responsible user experiences, and making sure our site and tools are accessible. 私たちは、読者のプライバシーを尊重し、倫理的で責任あるユーザー体験を作成し、私たちのサイトとツールがアクセス可能であることを確実にします。 The Markupでは、従来のジャーナリズム技術とデータ分析を組み合わせて、統計的に有意義な証拠に基づく結論に達するのに役立ちますが、そのような結論を出すのに十分なデータを見つけて収集することは課題です。 Web scraping is a process of automatically taking online content meant to be viewed by human users, extracting specific information from it, and then storing that information in a form that is readily usable by a computer program. For example, this could be downloading a county court's webpage of recent rulings and turning it into a sequence of , each containing the name of a court case, a list of plaintiffs, a list of defendants, the date of the ruling, and the URL for the ruling text. 例えば、これは、近年の裁判所のウェブページをダウンロードし、それを data tables データテーブルの連続に変 データテーブル Scrapingはコンピュータによって行われているため、膨大な量の情報を収集するために使用することができ、それはジャーナリストだけでなく、学者、研究者、弁護団体の間でも人気があります。 ジャーナリストの間だけでなく、人気がある スクラップは法的に灰色の領域で長い間存在しており、ジャーナリストや他の研究者は慎重にそれに接近する傾向があります。 The Markupでは、私たちのデータジャーナリストのいくつかは最近、欧州連合(EU)でホストされているウェブサイトのスカイプに関連する法的リスクについて質問をしました。私たちはこの質問に答えるために独自の研究を行い、以下に学んだことの概要を提供しました。 私たちが始める前に、米国でのスキャンについての短い言葉:米国でのスキャンの法的地位は、EUと比較してかなり明確です。長年にわたり、その合法性は不確実でした、特にそれがウェブサイトのサービス条件(ToS)に違反したときです。これらの条件を侵害することは、コンピュータ詐欺と虐待法(CFAA)に潜在的に違反するように見えました。 2022年4月、第9回控訴裁判所は、単にウェブサイトを削除することなく他の損害を引き起こすことのできない個人が法律に基づいて起訴されないことを確認し、状況を明確にした。第9回控訴裁判所は、2021年の最高裁判所の判決を「 」として適用し、削除を含まないが、サービス規約違反はCFAAの下で犯罪ではないと判断した。 Buren v. アメリカ合衆国 9th Circuit Court of Appealsは状況を明確にした イギリス / アメリカ合衆国 イギリス v. アメリカ合衆国 EUベースのウェブサイトをスキャンする方法を戦略化する最初のステップは、あなたのプロジェクトに必要なデータについて慎重に考えることです。EUにおけるスキャンの法的地位は、あなたが収集しているデータの性質に大きく依存します。広く言えば、インターネット上のデータは2つのカテゴリーに分けられます:個人または非個人、それぞれに異なるルールが適用されます。 ヨーロッパの一般データ保護規則(GDPR)では、個人データは「識別可能な自然人」に関連する情報(企業ではなく人間を意味します)です。ドライバーライセンスのような名前、写真、識別番号はすべて個人データですが、位置情報などのデータの種類は明らかではありません。 1.クリエイティブな権利と「重要な投資」 1 クリエイティブな権利と「重大な投資」これらのデータベースは、EUのデータベースの原則に従い、EUが1996年に採択したデータベース指令に基づいて何らかの権利を含むものとみなされていないため、最も直接的に関連する法則は「a href="https://eur-peter-europa.eu/legal-content/EN/TXT/21=celex%A31996Lantiantidatum9」である。 欧州連合(EU)では、ウェブサイトの利用規約に違反することは犯罪であり、米国では、最高裁判所の ブロードバンドインターネットの価格情報 データベース指令 sui generis 最近の決定 2 研究機関には特別な許可があります 2 研究機関には特別な許可がある The デジタル単一市場指令 研究開発のための枠組みプログラム 3 企業は、サービス条件におけるスキャンダルを制限することができる 3 企業はサービス条件でスキャンを制限することができる データベース指令の限られた範囲は、多くのEUデータが法令によって保護されていないことを意味し、理論的にはスカッピングのための公正なゲームです。しかし、 、PR Aviationは、Kayak.comのようなフライトの集計サービスであり、Ryanairが自身の検索結果でそのフライトを表示するためにスカッピングしていました。 Ryanairはこの実践を止めるように命じました。 法廷は、Ryanairのデータが著作権または の権利の下で保護 Ryanair Ltd v. PR Aviation BV sui Ryanair Ltd v. PR Aviation BV Ryanair Ltd v. PR Aviation BV sui generis レート制限 2021年の判決である場合、契約違反を禁止するケースがある場合、民事取引を終わらせることはできない。 not サイバー犯罪をしないでください。 エリザベス・オブ・ヴァン・ブーレン ウォン・バーン 決定 彼らはまた、裁判所にスカッピング行動を禁止するように依頼する可能性があります。これは上記のRyanairのケースで起こったことです。あなたがウェブサイトをスカッピングしたい場合は、そのTOSはスカッピングを禁止し、例外は適用されません、あなたの正確な状況について弁護士に相談し、あなたのリスク容忍性を評価するのが最善かもしれません。 4 サイバー犯罪を起こさないでください 4 Don't do cybercrime もちろん、あなたのスキャン活動が他の方法でウェブサイトを害する場合、例えば 、あなたは非常にうまくEUのサイバー犯罪法 あなたのスキャンパーがウェブサイトを過載するように頻繁に訪問する場合 あなたのスクラッパーがウェブサイトを過載するように頻繁に訪問する EUのサイバー犯罪法 概要として、あなたがEUのソースから非個人データをスキャンするとき、あなたはデータベース指令の保護を引き起こす可能性がありますが、それらの保護はしばしばかなり制限されています。 指令が適用されていない場合、あなたはサービス条件からの制限とそれらの制限を執行するために使用するいかなる反スキャンテクニックにもかかわる可能性があります。 あなたが大学のような研究機関と提携している場合、あなたはデータベースの権利を回避することができますが、アンチスキャンテク技術はまだ実用的な障壁を構成する可能性があります。 例外がない場合、民事訴訟のリスクがありますので、弁護士に相談するのが最善です。 個人データの収集:GDPRはスキャンダルを大きなコンプライアンストラブルに変えることができます もちろん、部屋の800キロのゴリラはGDPRです。EUのデータ保護法は、あなたが 個人データをスキャンしている場合にのみ、ウェブスキャンに含まれています。参考として、GDPRは を以下のように定義します。 個人データ 個人 個人データ 」のための追加の保護措置があります GDPR は特に敏感であると考えています。 匿名化されたデータは、特定の識別子が削除された情報であり、まだ識別可能であり、したがって個人的なものとみなされますが、匿名化されたデータは、個人を識別しないためではありません。 しかし、データが 識別された又は識別可能な自然人(「データ主体」)に関するあらゆる情報;識別可能な自然人とは、直接又は間接に、特に、名称、識別番号、位置データ、オンライン識別子又はその自然人の物理的、生理学的、遺伝的、精神的、経済的、文化的又は社会的アイデンティティーに特有の要因の1つ又は複数の要因を参照して識別することができるもの。 識別された又は識別可能な自然人に関するあらゆる情報(「データ主体」):識別可能な自然人とは、直接又は間接的に識別できるものであり、特に、その名称、識別番号、位置データ、オンライン識別子又はその自然人の物理的、生理学的、遺伝的、精神的、経済的、文化的又は社会的アイデンティティに特有の要因の1つ又は複数の要因を参照して識別できるものである。 人種、宗教、性的指向を含む個人データの「特別なカテゴリー 真に匿名化されているため、匿名化されていないデータはこの例外に適用されないように注意する必要があります。 特別なカテゴリ 本当に匿名です いくつかのデータを削除する必要があるとしますが、それは個人データを含む - たとえば、あなたは時には、家屋やマネージャーの名前や連絡先情報を含むレンタルリストを調査しています。その場合、あなたは「データ管理者」として行動し、GDPRの規定が個人データの収集と処理に適用されます。 まず、あなたは、データの収集をGDPRによって定義された6つの法的根拠の1つとして正当化する必要があります。 ジャーナリストや研究者として、あなたは「公共の利益」を論じることは効果的であると考えるかもしれないが、この規定は主に加盟国の法律を執行している政府機関または民間組織に留保されています。 6つの法的根拠 最も安全な賭けは、あなたの「正当な利益」に基づいてデータを収集および分析することですが、この権限さえも、すべての個人データを収集するための空白のチェックではありません。ジャーナリズムまたは非営利の弁護調査は、おそらく正当な利益として資格を有するが、それはプライバシーとデータ保護に対するデータの主体の基本的な権利とバランスをとらなければなりません。 あなたが個人データの収集を開始すると、あなたはGDPRの .データ管理者として、あなたは、データの保存および処理のための一定の遵守義務、およびそれらを第三者に転送する場合のさらなる義務を含む データ処理の原則、データの最小化、合理的なデータ保存、および セキュリティを遵守しなければならない セキュリティの原則を有します。あなたはまた、あなたが彼らのデータを処理しているデータの主体にプライバシーに関する通知を通知し データ処理の原則 セキュリティー コンプライアンス義務 データ保護影響評価 pseudonymization GDPRはまた これらの が、表現の自由とデータ処理の自由とを調和させる法律を実施することを要求します。これらの が劇的に異なり、それらをどのように閲覧するかに関するガイド national laws national laws national laws requires 国内法 これらすべてが多すぎるように見えるなら、それはそうであるべきだからです! GDPRは個人情報を保護するための強力な枠組みを作成しますので、あなたが本当にそれを必要とする場合にのみそのようなデータを収集するべきです。 2022年に、EUは、2023年9月に効力を生ずる「データ管理法(Data Governance Act)」を制定し、政府が保有するデータの開放を目的としているが、主に「 」を設立し、政府が関与する独占的なデータ共有協定を禁止している。 いくつかの州や地域が米国で採択したオープンデータ法の少し複雑なバージョンであるように見える。 それは新しいので、ウェブスカッピングがどのように影響するかはまだ明らかではないが、もしあなたがソース政府をスカッピングするつもりなら、この発展に注意を払 データ仲介者 データ管理法 データ中間者 EU議会は現在、新しい の提案を検討しているので、今後数年で法律が変更される可能性があります。提案されたデータ法の言語のいくつかは の権利を変更しますが、詳細はまだ議論中です。現在のところ、欧州連合(EU)では著作権やプライバシー法に適用されていない公的商業データのウェブスカッピングは法的です。最後に、私たちが議論したデジタルシンクマーケット指令には、トーストの研究者が完全にスカッピングを妨げることもないかもしれないという規定が、裁判所 ePrivacy Regulation sui generis データ保護法 eプライバシー規則 sui generis We know. It’s complicated EUにおけるウェブスカッピングの法的地位は驚くほど複雑で微妙な話題です. 二次的リソースのほとんどと適用可能な裁判の大部分は、ビジネス上の利益を促進するためにインターネットをスカッピングする企業をターゲットにしています. これらの企業は、ほとんどのジャーナリスト、研究者、または弁護士よりも異なるリソースとリスク容忍性を持っている可能性があります. EUでウェブスカッピングを検討しているジャーナリストや研究者であれば、以下のことを覚えておいてください。 サービス条件は、非個人データの削除の最も可能性のある障害です。 個人データを収集する必要がある場合は、できる限りそれを最小限にし、廃棄してください。 サービス条件は、非個人データの削除の最も可能性のある障害です。 個人データを収集する必要がある場合は、できる限りそれを最小限にし、廃棄してください。 ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > ホーム > We are assuming, too, that fellow journalists and researchers are more interested in data that would be protected by the Database Directive or GDPR, rather than text that is protected by copyright. OpenAIのような企業は、機械学習モデルを養うために大量のテキストを摂取し、既存の法律の多くを に置く。 test テスト We hope this overview of EU scraping law will prove useful to data journalists and other researchers trying to gather information in the public interest. これを使用して、この分野の可能性の宇宙を理解するのに役立ちます-しかし、あなたがあなたの特定の状況に関するガイドラインを必要とする場合、弁護士に尋ねる-これらのいずれも法的アドバイスではありません。 2023年8月24日アップデート Update, 2023年8月24日 このストーリーは、ジャーナリズム目的のための個人データの処理に関する国内法に関する情報で更新されました。「hr」 クレジット エリザベス エイズ・ウォー イラスト ハンガリー・ハンガリー ハンガリー・ハンガリー ハンガリー・ハンガリー ハンガリー・ハンガリー Ramsey Isler ロイヤル・ロイヤル・ロイヤル コミットメント マリア・プエルタス Maria Puertas Maria Puertas コピー編集と制作 サブリナ・トッパ サブリナ・トッパ サブリナ・トッパ テクニカルレビュー Ramsey Isler Ramsey Isler ロイヤル・ロイヤル・ロイヤル 編集 Ryan Tate Sisi Wei ロイヤン・テート ロイヤン・テート シス・ウェイ シティ・ウェイ また掲載されました here また掲載されました here ここ on Krakograff Textures Unsplash 写真 on Krakograff Textures Uplash Krakograff Textures Unsplash