paint-brush
Phân tích và triển khai nhắm mục tiêu nano trên LinkedIn dựa trên Non-Pii có sẵn công khaitừ tác giả@netizenship
163 lượt đọc

Phân tích và triển khai nhắm mục tiêu nano trên LinkedIn dựa trên Non-Pii có sẵn công khai

từ tác giả Netizenship Meaning in Online Communities7m2024/05/30
Read on Terminal Reader

dài quá đọc không nổi

Bài viết này khám phá những rủi ro về quyền riêng tư của việc nhắm mục tiêu nano trên LinkedIn, chứng minh rằng việc kết hợp vị trí và kỹ năng chuyên môn từ dữ liệu có sẵn công khai có thể nhận dạng duy nhất người dùng và khiến họ tiếp xúc với các quảng cáo siêu cá nhân hóa, nêu bật mối lo ngại về quyền riêng tư và bảo mật dữ liệu trên nền tảng truyền thông xã hội.
featured image - Phân tích và triển khai nhắm mục tiêu nano trên LinkedIn dựa trên Non-Pii có sẵn công khai
Netizenship Meaning in Online Communities HackerNoon profile picture
0-item

tác giả:

(1) Ángel Merino, Khoa Kỹ thuật Viễn thông Đại học Carlos III de Madrid {[email protected]};

(2) José González-Cabañas, Viện dữ liệu lớn UC3M-Santander {[email protected]}

(3) Ángel Cuevas, Khoa Kỹ thuật Viễn thông Đại học Carlos III de Madrid & Viện Dữ liệu lớn UC3M-Santander {[email protected]};

(4) Rubén Cuevas, Khoa Kỹ thuật Viễn thông Đại học Carlos III de Madrid & Viện Dữ liệu lớn UC3M-Santander {[email protected]}.

Bảng liên kết

Tóm tắt và giới thiệu

Nền tảng nền tảng quảng cáo LinkedIn

Tập dữ liệu

Phương pháp luận

Tính duy nhất của người dùng trên LinkedIn

Bằng chứng về khái niệm nhắm mục tiêu nano

Cuộc thảo luận

Công việc có liên quan

Những cân nhắc về đạo đức và pháp lý

Kết luận, Lời cảm ơn và Tài liệu tham khảo

ruột thừa

TRỪU TƯỢNG

Một số tài liệu đã nhiều lần chỉ ra rằng việc kết hợp một vài mục Thông tin không nhận dạng cá nhân (non-PII) là đủ để tạo nên một người dùng duy nhất trong tập dữ liệu bao gồm hàng triệu hoặc thậm chí hàng trăm triệu người dùng. Công việc này mở rộng lĩnh vực nghiên cứu này, chứng minh rằng sự kết hợp của một số thuộc tính công khai không phải PII có thể được kích hoạt bởi bên thứ ba để nhắm mục tiêu đến từng người dùng bằng các thông điệp siêu cá nhân hóa. Bài viết này lần đầu tiên triển khai một phương pháp chứng minh rằng sự kết hợp giữa vị trí và 6 kỹ năng chuyên môn hiếm (hoặc 14 ngẫu nhiên) được người dùng báo cáo trong hồ sơ LinkedIn của họ là đủ để trở thành duy nhất trong cơ sở người dùng được hình thành bởi ∼800 triệu người dùng với xác suất là 75 %. Một tính năng mới trong trường hợp này, so với các tác phẩm trước đây trong tài liệu, là vị trí và kỹ năng được báo cáo trong hồ sơ LinkedIn có thể được truy cập công khai đối với bất kỳ người dùng hoặc công ty nào khác đã đăng ký trên nền tảng và ngoài ra, có thể được kích hoạt thông qua các chiến dịch quảng cáo. . Chúng tôi đã tiến hành một thử nghiệm chứng minh khái niệm nhắm vào ba tác giả của bài báo. Chúng tôi đã chứng minh rằng tất cả các chiến dịch quảng cáo được định cấu hình với vị trí và ≥13 kỹ năng chuyên môn ngẫu nhiên được lấy từ hồ sơ LinkedIn của tác giả đã phân phối thành công quảng cáo dành riêng cho người dùng được nhắm mục tiêu. Hoạt động này được gọi là nhắm mục tiêu nano và có thể khiến người dùng LinkedIn gặp rủi ro tiềm ẩn về quyền riêng tư và bảo mật như quảng cáo độc hại hoặc thao túng.


Từ khóa LinkedIn · Quảng cáo trực tuyến · Quyền riêng tư của người dùng · Nhắm mục tiêu nano

1. Giới thiệu

Khả năng các bên thứ ba nhận dạng duy nhất người dùng mà không cần sự đồng ý của họ trên quy mô lớn là một thước đo tốt cho thấy quyền riêng tư của công dân mong manh đến mức nào. Một cách rõ ràng để xác định người dùng là thông qua Thông tin nhận dạng cá nhân (PII) như email, số điện thoại, địa chỉ gửi thư, v.v. Việc tạo cơ sở dữ liệu PII bất hợp pháp lớn có thể gây ra rủi ro về quyền riêng tư cho người dùng. Đó là lý do tại sao các chiến dịch nâng cao nhận thức thường xuyên hướng dẫn người dùng cẩn thận với email, SMS, tin nhắn WhatsApp, v.v. đến từ các nguồn không xác định. Trên thực tế, các quy định bảo vệ dữ liệu hiện hành như GDPR [1] nêu rõ rằng PII là dữ liệu cá nhân và yêu cầu (trong hầu hết các trường hợp) sự đồng ý của người dùng để xử lý. Một cách tiếp cận tinh tế hơn để nhận dạng duy nhất và có khả năng nhắm mục tiêu người dùng là kết hợp nhiều mục không phải PII không được coi là dữ liệu cá nhân một cách riêng biệt. Việc nhận dạng dựa trên non-PII này khó phát hiện hơn nhưng có rủi ro đáng kể. Đây là lý do tại sao tính duy nhất của người dùng dựa trên dữ liệu không phải PII đã được đề cập trong tài liệu trong những năm gần đây.


Tài liệu nghiên cứu đã nhiều lần chứng minh rằng rất ít mục không phải PII đủ để xác định duy nhất một người dùng trong các tập dữ liệu lớn. Ví dụ: chỉ cần 4 bản ghi cuộc gọi điện thoại di động có thể xác định được một người dùng trong tập dữ liệu gồm 1,5 triệu người dùng [2]. Tương tự, trong cơ sở người dùng gồm 1,1 triệu người dùng, chỉ cần 4 hồ sơ mua hàng bằng thẻ tín dụng để xác định một cá nhân [3].


Tương tự, 8 xếp hạng phim và ngày đánh giá gần đúng có thể chọn ra một người dùng trong số 480 nghìn người dùng Netflix [4]. Kết hợp giới tính, mã vùng và ngày sinh có thể tiết lộ danh tính của 87% và 63% công dân trong các cuộc điều tra dân số năm 1990 và 2000 của Hoa Kỳ [5] [6]. Ngoài ra, 15 thuộc tính nhân khẩu học có thể xác định lại 99,98% người Mỹ trong bất kỳ tập dữ liệu nào [7].


Những nghiên cứu này thể hiện sự đóng góp vô giá trong việc đánh giá tính mong manh của quyền riêng tư của con người. Tuy nhiên, tất cả những công việc đó vẫn chỉ mang tính lý thuyết và không thảo luận về cách các mục dữ liệu không phải PII có thể được kích hoạt trong các cuộc tấn công cụ thể làm tổn hại đến bảo mật và/hoặc quyền riêng tư của người dùng. Chúng tôi tin rằng bước tiến tự nhiên để hoàn thành lĩnh vực nghiên cứu này là phát triển các phương pháp và thử nghiệm để chứng minh rằng sự kết hợp của các mục không phải PII có thể được bên thứ ba kích hoạt trong thực tế để nhắm mục tiêu đến từng người dùng và (có khả năng) xâm phạm tính bảo mật và/hoặc của họ sự riêng tư.


Theo hiểu biết tốt nhất của tác giả, nghiên cứu trước đây duy nhất trong lĩnh vực này cho thấy một cách thực tế rằng sự kết hợp của các mục không phải PII có thể được kích hoạt để tiếp cận một người dùng duy nhất bằng một quảng cáo là [8]. Công việc này thực hiện một thử nghiệm bằng chứng về khái niệm, cho thấy rằng kẻ tấn công có thể tiết lộ ∼ 20 tùy chọn quảng cáo ngẫu nhiên từ người dùng có thể nhắm mục tiêu chúng bằng chiến dịch quảng cáo nhắm mục tiêu nano, tức là quảng cáo chỉ tiếp cận người dùng được nhắm mục tiêu. Đây là bằng chứng hữu hình đầu tiên cho thấy thông tin không phải PII có thể bị khai thác để nhắm mục tiêu đến người dùng cá nhân mà không có sự đồng ý rõ ràng để tiếp cận duy nhất bằng các phương tiện đó. Tuy nhiên, việc sử dụng thực tế kỹ thuật được báo cáo ở quy mô lớn có một hạn chế đáng kể. Nó yêu cầu kẻ tấn công truy cập vào tùy chọn quảng cáo của người dùng. Đây là một nhiệm vụ phức tạp vì chúng không được công khai. Hạn chế này làm giảm những kẻ tấn công tiềm năng, chỉ còn những kẻ có kiến thức kỹ thuật vững vàng có thể suy ra tùy chọn quảng cáo của người dùng. Mặc dù công việc được đề cập là một đóng góp nghiên cứu rất quan trọng, nhưng chúng tôi tin rằng điều quan trọng là cộng đồng nghiên cứu phải đóng góp thêm các nghiên cứu cho thấy rằng việc thực hiện các cuộc tấn công siêu cá nhân hóa đối với các mục không phải PII có sẵn công khai được người dùng chủ động tiết lộ là khả thi. Những nghiên cứu như vậy sẽ chứng minh rằng các mục không phải PII, thường không được coi là dữ liệu cá nhân, có thể gây ra rủi ro nghiêm trọng về quyền riêng tư và/hoặc bảo mật cho người dùng.


Công việc của chúng tôi cho thấy hàng trăm triệu người dùng có thể bị nhắm mục tiêu riêng lẻ bằng các tin nhắn siêu cá nhân hóa kết hợp một số mục dữ liệu công khai không phải PII. Để đạt được mục đích này, trong nghiên cứu này, chúng tôi đặt ra cho mình ba yêu cầu: (i) cơ sở người dùng phải bao gồm hàng chục hoặc hàng trăm triệu người dùng phân bố trên toàn thế giới; (ii) các mục dữ liệu không phải PII cần thiết để nhắm mục tiêu đến một người dùng cá nhân phải được cung cấp công khai và (iii) các mục dữ liệu không phải PII có thể được kích hoạt bởi các bên thứ ba bên ngoài để tiếp cận người dùng bằng các thông điệp siêu cá nhân hóa riêng lẻ. Theo hiểu biết tốt nhất của chúng tôi, không có tác phẩm nào trước đây trong tài liệu đáp ứng đồng thời ba yêu cầu này.


Bài viết của chúng tôi chứng minh rằng một người dùng cá nhân có thể được nhắm mục tiêu nano trên LinkedIn bằng một quảng cáo sử dụng sự kết hợp giữa vị trí (quốc gia, khu vực hoặc thành phố) và các kỹ năng chuyên nghiệp có sẵn trong hồ sơ của họ. Điều này đáp ứng ba yêu cầu trước đó như sau: (i) LinkedIn có ∼800 triệu người dùng, tức là có sẵn khoảng 10% dân số trên toàn thế giới, (ii) vị trí và kỹ năng chuyên môn của người dùng là các mục không phải PII được cung cấp công khai để bất cứ ai đăng nhập vào LinkedIn. Do đó, bất kỳ ai cũng có thể dễ dàng có được thông tin cần thiết để nhận dạng duy nhất một người dùng trên LinkedIn và (iii) sự kết hợp giữa kỹ năng chuyên nghiệp và vị trí có thể được kích hoạt thông qua Trình quản lý quảng cáo LinkedIn để phân phối quảng cáo siêu cá nhân hóa cho người dùng. Trong thực tế, điều này có nghĩa là việc nhắm mục tiêu nano cho người dùng chỉ cần có tài khoản LinkedIn, truy xuất vị trí và kỹ năng chuyên môn từ hồ sơ người dùng được nhắm mục tiêu và định cấu hình chiến dịch quảng cáo bằng thông tin đó. Đây là một hoạt động rất đơn giản có thể cho phép nhiều bên thứ ba sẵn sàng thực hiện các chiến dịch/tấn công nhắm mục tiêu nano trên LinkedIn để khai thác các mục không phải PII.


Chúng tôi chia công việc của mình thành hai phần. Trong phần đầu tiên của bài viết, chúng tôi sử dụng tập dữ liệu bao gồm thông tin về 39k kỹ năng được thu thập từ 1699 người dùng và chúng tôi phát triển mô hình dựa trên dữ liệu để xác định xác suất tính duy nhất của người dùng trên LinkedIn bằng cách kết hợp vị trí và N kỹ năng chuyên môn có sẵn công khai trong hồ sơ của họ. Trong phần thứ hai của bài báo, chúng tôi sử dụng kết quả của mô hình để triển khai thử nghiệm chứng minh khái niệm, nhắm mục tiêu vào ba tác giả của bài báo này, chứng minh rằng việc chạy các chiến dịch nhắm mục tiêu nano trên LinkedIn là khả thi.


LinkedIn tuyên bố trong nguyên tắc quảng cáo của mình rằng số lượng thành viên được nhắm mục tiêu tối thiểu để khởi động chiến dịch là 300, nhưng giới hạn này có thể dễ dàng bị vượt qua bằng cách khai thác những gì chúng tôi tin là lỗi triển khai. Chúng tôi đã báo cáo lỗ hổng bảo mật mà nghiên cứu của chúng tôi tiết lộ cho LinkedIn theo quy trình được đề xuất của họ. Thật không may, những người quản lý nền tảng đã nhận được báo cáo của chúng tôi đã không coi kết quả nghiên cứu của chúng tôi là một lỗ hổng.


Công việc này đã mang lại một số phát hiện quan trọng:


• Việc kết hợp vị trí của người dùng với 14 (23) kỹ năng được chọn ngẫu nhiên từ bộ kỹ năng được báo cáo của họ khiến họ trở nên độc nhất trên LinkedIn với xác suất 75% (90%). Thay vào đó, nếu chúng ta sử dụng những kỹ năng ít phổ biến nhất thì chúng ta chỉ cần 6 (8) kỹ năng để đạt được mức độ độc đáo tương tự.


• Thử nghiệm bằng chứng về khái niệm của chúng tôi cho thấy rằng tất cả các chiến dịch sử dụng vị trí và ≥13 kỹ năng ngẫu nhiên đã nhắm mục tiêu thành công vào ba tác giả được nhắm mục tiêu.


• Theo hiểu biết tốt nhất của chúng tôi, đây là nghiên cứu đầu tiên cho thấy bằng chứng rằng dữ liệu không phải PII có sẵn công khai có thể được sử dụng để nhắm mục tiêu một cách hiệu quả vào các công dân riêng biệt trên quy mô lớn.


Hình 1: CDF về số lượng kỹ năng trên mỗi hồ sơ người dùng trong mẫu dữ liệu của chúng tôi.


Hình 2: CDF về quy mô khán giả trên toàn thế giới liên quan đến 4941 kỹ năng chuyên môn độc đáo trong tập dữ liệu của chúng tôi.


Hình 3: Độ dài của vectơ được sử dụng trong phương pháp của chúng tôi theo số lượng kỹ năng chuyên môn được xem xét trong khoảng từ N=1 đến N=50 kỹ năng.


Bài viết này có sẵn trên arxiv theo giấy phép CC BY-NC-ND 4.0 DEED.