paint-brush
Web Scraping có ăn cắp không?từ tác giả@mysteriumvpn
3,082 lượt đọc
3,082 lượt đọc

Web Scraping có ăn cắp không?

từ tác giả Mysterium VPN2022/06/20
Read on Terminal Reader
Read this story w/o Javascript

dài quá đọc không nổi

Web cạo là khai thác dữ liệu từ World Wide Web cho một mục đích cụ thể. Ở dạng đơn giản nhất, đó là sao chép và dán một tập hợp thông tin cụ thể vào cơ sở dữ liệu cục bộ để sử dụng lưu trữ, phân tích khoa học hoặc một số mục đích sử dụng khác. Việc cạo trên web cũng có thể được sử dụng theo những cách hấp dẫn, có tác động xã hội cao. Mọi người tạo các trang web so sánh giá hoặc thư viện bóng tối vượt qua tường phí. Gần đây nhất, các nhà hoạt động ở Lithuania đã thu thập dữ liệu số điện thoại công khai của các công dân Nga thường xuyên để tạo ra một trang web cho phép những người nói tiếng Nga từ khắp nơi trên thế giới gọi một người Nga ngẫu nhiên để nói về cuộc chiến trong nỗ lực nâng cao nhận thức ở một quốc gia kiểm duyệt tin tức về chiến tranh.

People Mentioned

Mention Thumbnail

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Web Scraping có ăn cắp không?
Mysterium VPN HackerNoon profile picture


Khái niệm cơ bản, Tranh cãi và Cơ hội của việc Scraping trên Web


Chúng tôi chắc chắn rằng bạn đã nghe tuyên bố rằng "dữ liệu là dầu mới".


Khai thác dữ liệu hay còn gọi là nạo web là gì?

Lướt web là quá trình khai thác dữ liệu từ World Wide Web cho một mục đích cụ thể. Ở dạng đơn giản nhất, đó là sao chép và dán một tập hợp thông tin cụ thể vào cơ sở dữ liệu cục bộ để sử dụng lưu trữ, phân tích khoa học hoặc một số mục đích sử dụng khác.


Một số ví dụ được sử dụng rộng rãi nhất bao gồm các trang web tổng hợp cung cấp so sánh giá cho hàng hóa trực tuyến.



Ngoài ra còn có các trang web như archive.org thu thập thông tin có sẵn công khai và lưu trữ nó ngay cả sau khi trang web ban đầu có thể bị xóa hoặc các thư viện ẩn tạo sách hoặc bài báo sau tường trả phí, có sẵn công khai miễn phí.

Tuy nhiên, việc nạo web cũng có thể được sử dụng theo những cách hấp dẫn, có tác động xã hội cao.

Gần đây nhất, một nhóm các nhà hoạt động người Litva đã tạo ra một trang web cho phép những người nói tiếng Nga trên khắp thế giới kêu gọi những người sống ở Nga bị hạn chế truy cập tin tức về cuộc chiến ở Ukraine.


Ý tưởng là hình thành các kết nối cá nhân giữa con người với nhau, sử dụng tương tác trực tiếp qua điện thoại và cho mọi người biết về sự tàn khốc của chiến tranh mà chính phủ của họ đang thực hiện ở Ukraine.


Trang web, Gọi cho Nga , có thể thực hiện được bằng cách thu thập dữ liệu số điện thoại có sẵn công khai từ web và định vị lại nó.

Làm thế nào nó hoạt động?

Các trang web bao gồm rất nhiều thông tin hữu ích dưới dạng văn bản (được xây dựng trên HTML hoặc XHTML). Thông thường, một bot được gọi là trình thu thập thông tin web, “quét” (thu thập) dữ liệu từ một trang web.

Một số trang web có các cơ chế tích hợp để ngăn trình thu thập dữ liệu web lấy dữ liệu. Đáp lại, một số hệ thống quét web đã phát triển để mô phỏng quá trình duyệt web của con người bằng cách sử dụng các kỹ thuật như phân tích cú pháp DOM, thị giác máy tính và thậm chí là xử lý ngôn ngữ tự nhiên.

Đây là video dài 5 phút nếu bạn muốn tìm hiểu thêm.


https://www.youtube.com/watch?v=CDXOcvUNBaA

Lịch sử siêu ngắn của Scraping

Trình thu thập dữ liệu web đầu tiên được gọi là Wandex và nó được lập trình bởi một sinh viên MIT. Mục đích chính của trình thu thập thông tin là đo kích thước của Internet và nó hoạt động từ năm 1993 đến năm 1995.


Trình thu thập thông tin API đầu tiên (Giao diện lập trình ứng dụng) ra đời sau 5 năm. Ngày nay, nhiều trang web lớn như Twitter cung cấp các API web để mọi người truy cập vào cơ sở dữ liệu công khai của họ.




Nhưng tại sao ngay từ đầu chúng ta lại muốn thu thập hoặc khai thác dữ liệu và tại sao một bên khác lại cố gắng ngăn cản chúng ta làm điều đó?


Các ứng dụng cạo trên web bao gồm từ những ý tưởng thương mại thực sự thành công như công cụ so sánh giá cho đến nhiều trường hợp sử dụng khác, như công bằng xã hội và dữ liệu lớn đạo đức.


Việc tìm kiếm trên web khiến chúng ta phải đối mặt với một số câu hỏi quan trọng. Tất cả thông tin có nên được công khai - và tất cả mọi người đều có thể truy cập như nhau không? Còn vấn đề bản quyền thì sao?


Về mặt thương mại, việc xây dựng một công cụ so sánh giá có thể khiến một số doanh nghiệp mất khách hàng vào tay đối thủ. Đôi khi các tập đoàn lớn như hãng hàng không kiện các công ty khai thác dữ liệu và công cụ khai thác dữ liệu vi phạm bản quyền vì những lý do này.

Mặc dù về mặt kỹ thuật, những người thợ cạo đang thu thập và hiển thị dữ liệu đã được công bố công khai, nhưng các bộ quần áo vẫn có xu hướng tranh luận về việc vi phạm bản quyền. Không có kết quả tiêu chuẩn cho những loại vụ kiện này. Nó thường phụ thuộc vào một số yếu tố như mức độ thu thập thông tin hoặc tổn thất phát sinh.

Web Scraping có hợp pháp hay không?

Tính hợp pháp của việc nạo web vẫn chưa được xác định đầy đủ. Các điều khoản sử dụng trên một trang web cụ thể có thể “cấm” nó, nhưng điều đó không được luật thực thi chính xác trong mọi trường hợp. Để việc khai thác dữ liệu là bất hợp pháp, nó sẽ phải đi ngược lại luật hiện hành.

Ở Mỹ, điều đó có thể là phổ biến nhất với lý do vi phạm bản quyền. Các ví dụ khác bao gồm Đan Mạch, nơi các tòa án phát hiện việc thu thập dữ liệu hoặc thu thập dữ liệu web là hợp pháp theo Luật Đan Mạch.

Tại Pháp, Cơ quan bảo vệ dữ liệu của Pháp đã ra phán quyết rằng ngay cả khi được công bố công khai, dữ liệu cá nhân vẫn không thể được thu thập và / hoặc sử dụng lại dữ liệu cá nhân mà người đó không biết.


Tự do thông tin


Khi nói đến các tổ chức phi lợi nhuận và những người ủng hộ quyền truy cập mở, mọi thứ thậm chí còn thú vị hơn.


Internet Archive (archive.org) là một dự án duyệt web nổi tiếng. Đây là một tổ chức phi lợi nhuận lưu trữ (đôi khi bị xóa) các trang web, bộ sưu tập kỹ thuật số, sách, pdf và video cho các nhà nghiên cứu, sinh viên và bất kỳ ai khác quan tâm.


Đôi khi, thỉnh thoảng họ vẫn bị mắc kẹt trong các vùng xám hợp pháp, khi các cá nhân hoặc thậm chí chính phủ thực hiện hành động pháp lý để xóa một số phần nội dung cụ thể.

Khi Vận động cho Quyền truy cập Mở rộng Toàn cầu vào Thông tin Khiến bạn Gặp rắc rối

Có nhiều dự án duyệt web ủng hộ việc truy cập thông tin mở rộng rãi như dự án PACER.

Liên kết đến Bài báo NYT


PACER là tên của trang web chứa các tài liệu pháp lý từ các tòa án Hoa Kỳ. Nó là viết tắt của Public Access to Court Electronic Records nhưng quyền truy cập không miễn phí ngoại trừ một số thư viện công cộng được chọn.

The Late Aaron Swartz, một người ủng hộ quyền truy cập mở và thần đồng Internet thời kỳ đầu, đã sử dụng một chương trình duyệt web để tải xuống hàng triệu PACER tài liệu từ một trong những thư viện công cộng này và gặp rất nhiều rắc rối với chính phủ Hoa Kỳ và FBI.


Các công ty và chính phủ có thể được khuyến khích làm sạch web ngoài vòng pháp luật. Tuy nhiên, nó là một công cụ quan trọng mà các nhà báo và nhà nghiên cứu sử dụng để phanh phui những bất công.


Danh sách các cuộc điều tra báo chí đã sử dụng web Scraping

Thu thập và phân tích dữ liệu có thể vô cùng hữu ích cho tất cả các loại hình nghiên cứu và học tập, dẫn đến một phong trào mới trong khoa học dữ liệu. Các nhà báo giờ đây cũng dựa vào phân tích dữ liệu cẩn thận để tiết lộ những điều mới mẻ về xã hội và cộng đồng của chúng ta.


__ Tiết lộ __ thực hiện một dự án tiết lộ cảnh sát Mỹ là thành viên của các nhóm cực đoan trên Facebook đăng bài và tham gia với nội dung phân biệt chủng tộc, bài ngoại và Hồi giáo.

Nó được thực hiện bằng cách thu thập dữ liệu từ các nhóm cực đoan này và từ các nhóm cảnh sát trên Facebook và tham khảo chéo để tìm ra các thành viên trùng lặp - và có rất nhiều.



Reuters đã sử dụng các kỹ thuật phân tích dữ liệu tương tự để phát hiện ra một câu chuyện gây sốc về các trang web mà người Mỹ “quảng cáo” những đứa trẻ mà họ nhận nuôi từ nước ngoài với mục đích giao chúng cho người lạ khi họ không muốn tiếp xúc với chúng nữa.


Sử dụng máy cạo, Verge and the Trace đã thực hiện một cuộc điều tra tiết lộ bán súng trực tuyến mà không có giấy phép hoặc kiểm tra lý lịch.


USA Today phát hiện ra rằng từ năm 2010 đến năm 2018, hơn 10.000 tờ tiền được giới thiệu tại các nhà nước trên toàn quốc gần như là hoàn toàn sao chép từ các hóa đơn được viết bởi các lợi ích đặc biệt . Cuộc điều tra này có thể thực hiện được bằng cách tìm kiếm trên web.


Đại Tây Dương chạy một Dự án theo dõi COVID mà không chỉ thu thập dữ liệu toàn cầu trên covid hàng ngày mà còn cho thấy sự chênh lệch chủng tộc của đại dịch.


Đây chỉ là một số ví dụ về các cách có thể sử dụng công cụ quét web cho cả mục đích thương mại và công bằng xã hội. Có rất nhiều trường hợp sử dụng khác ngoài kia và nhiều trường hợp khác đang chờ được hiện thực hóa.


Phân tích dữ liệu mở rộng và khoa học dữ liệu mở có thể mở ra rất nhiều sự thật mới nhưng liệu chúng ta có đang vượt qua ranh giới với loại dữ liệu chúng ta thu thập và các phương pháp chúng ta sử dụng để thu thập nó không?



Đạo đức và trường phái tư tưởng xung quanh việc thu thập dữ liệu là gì?


Làm thế nào để chúng ta cân bằng quyền riêng tư với quyền truy cập mở?


Mặc dù điều quan trọng là chúng ta phải tiếp tục cuộc trò chuyện về quyền truy cập mở vào các tài liệu có liên quan đến công chúng, chúng ta cũng phải xem xét các vấn đề về quyền riêng tư.


Ngày nay, nhiều người và tổ chức đồng ý rằng việc thu thập và sử dụng dữ liệu cá nhân của ai đó mà không có sự đồng ý của họ là phi đạo đức.


Tuy nhiên, những dữ liệu công khai như các bài báo được kiểm duyệt ở một số quốc gia thì sao? Hoặc các số liệu thống kê và dữ liệu liên quan đến y tế có thể được sử dụng cho các đề xuất chính sách y tế công cộng?

Ở Hoa Kỳ, __ các nhà hoạch định chính sách đã sử dụng một thuật toán __ để xác định những bệnh nhân có nguy cơ cao cho một chương trình phòng ngừa nhằm cung cấp dịch vụ chăm sóc bổ sung để những bệnh nhân này không rơi vào ER.

https://www.youtube.com/watch?v=Ok5sKLXqynQ


Các nhà nghiên cứu sau đó phát hiện ra rằng người da đen ốm hơn người da trắng, mặc dù trong cùng một nhóm. Nói cách khác, bệnh nhân da đen phải chịu ít chi phí hơn so với bệnh nhân da trắng mắc bệnh tương tự vì nhiều lý do, bao gồm cả việc không được tiếp cận với bảo hiểm chất lượng cao.


Trong một ví dụ khác, __ các công cụ tuyển dụng tự động __ được sử dụng bởi các công ty như Amazon được phát hiện là có lợi cho nam giới hơn phụ nữ và người da trắng hơn người da màu.

Khi các công cụ tìm kiếm trên web, họ xác định rằng các vị trí điều hành hầu hết là do người da trắng đảm nhiệm, vì vậy máy móc biết rằng đây là loại phẩm chất cần tìm ở một ứng viên.


Việc thu thập dữ liệu công cộng vì lợi ích công cộng không phải lúc nào cũng dẫn đến kết quả tích cực cho xã hội. Tự động hóa và máy học cần sự can thiệp chu đáo. Với tư cách là người xây dựng các hệ thống công nghệ và xã hội mới, chúng ta cần đảm bảo tất cả các công cụ phân tích dữ liệu của chúng ta được thiết kế có đạo đức và không tiếp tục các hệ thống lịch sử về bất công và phân biệt đối xử.



Scraping có liên quan nhiều đến công việc chúng tôi làm tại Mysterium. Chúng tôi quan tâm đến việc xây dựng một web có thể truy cập nơi tự do thông tin và khoa học dữ liệu mở trở thành trụ cột cơ bản của web mới.

Chúng tôi đang cộng tác với các nhà phát triển để xây dựng Web3. Để tìm hiểu thêm về cách Mysterium trao quyền cho các nhà xây dựng trong không gian Web 3 cho các dự án theo mục đích, hãy xem trang web của chúng tôi.