paint-brush
공개적으로 사용 가능한 Non-Pii를 기반으로 LinkedIn의 나노 타겟팅 분석 및 구현~에 의해@netizenship
161 판독값

공개적으로 사용 가능한 Non-Pii를 기반으로 LinkedIn의 나노 타겟팅 분석 및 구현

너무 오래; 읽다

이 문서에서는 LinkedIn에서 나노 타겟팅의 개인 정보 보호 위험을 살펴보고 공개적으로 사용 가능한 데이터의 위치와 전문 기술을 결합하면 사용자를 고유하게 식별하고 초개인화된 광고에 노출할 수 있음을 보여주며 소셜 미디어 플랫폼의 데이터 개인 정보 보호 및 보안에 대한 우려를 강조합니다.
featured image - 공개적으로 사용 가능한 Non-Pii를 기반으로 LinkedIn의 나노 타겟팅 분석 및 구현
Netizenship Meaning in Online Communities HackerNoon profile picture
0-item

저자:

(1) Ángel Merino, Universidad Carlos III de Madrid 텔레매틱스 공학과 {[email protected]};

(2) José González-Cabañas, UC3M-Santander 빅 데이터 연구소 {[email protected]}

(3) Ángel Cuevas, Universidad Carlos III de Madrid 텔레매틱 엔지니어링학과 및 UC3M-Santander 빅 데이터 연구소 {[email protected]};

(4) Rubén Cuevas, Universidad Carlos III de Madrid 텔레매틱 엔지니어링학과 및 UC3M-Santander 빅 데이터 연구소 {[email protected]}.

링크 표

초록 및 소개

LinkedIn 광고 플랫폼 배경

데이터세트

방법론

LinkedIn의 사용자 고유성

나노타겟팅 개념 증명

논의

관련된 일

윤리 및 법적 고려 사항

결론, 감사의 말, 참고자료

부록

추상적인

일련의 문헌에서는 몇 가지 비개인 식별 정보(비PII) 항목을 결합하는 것만으로도 수백만 또는 심지어 수억 명의 사용자가 포함된 데이터세트에서 사용자를 고유하게 만드는 데 충분하다는 사실이 여러 번 나타났습니다. 이 작업은 이러한 연구 영역을 확장하여 공개적으로 사용 가능한 몇 가지 비PII 속성의 조합을 제3자가 활성화하여 초개인화된 메시지로 사용자를 개별적으로 타겟팅할 수 있음을 보여줍니다. 이 논문은 먼저 사용자가 LinkedIn 프로필에 보고한 위치와 6개의 희귀(또는 무작위 14개) 전문 기술의 조합이 75의 확률로 약 8억 명의 사용자로 구성된 사용자 기반에서 고유하게 되기에 충분하다는 것을 입증하는 방법론을 구현합니다. %. 이 사례의 새로운 특징은 문헌의 이전 연구와 비교할 때 LinkedIn 프로필에 보고된 위치와 기술이 플랫폼에 등록된 다른 사용자 또는 회사에 공개적으로 액세스할 수 있고 추가로 광고 캠페인을 통해 활성화될 수 있다는 것입니다. . 우리는 논문 작성자 중 3명을 대상으로 개념 증명 실험을 실행했습니다. 우리는 작성자의 LinkedIn 프로필에서 검색된 위치와 13개 이상의 무작위 전문 기술로 구성된 모든 광고 캠페인이 대상 사용자에게만 광고를 성공적으로 전달했음을 입증했습니다. 이러한 관행을 나노타겟팅이라고 하며 LinkedIn 사용자를 악성 광고 또는 조작과 같은 잠재적인 개인 정보 보호 및 보안 위험에 노출시킬 수 있습니다.


키워드 LinkedIn · 온라인 광고 · 사용자 개인정보 보호 · 나노타겟팅

1. 소개

대규모 동의 없이 사용자를 고유하게 식별할 수 있는 제3자의 능력은 시민의 개인정보 보호가 얼마나 취약한지를 보여주는 좋은 온도계입니다. 사용자를 식별하는 확실한 방법은 이메일, 전화번호, 우편 주소 등과 같은 개인 식별 정보(PII)를 이용하는 것입니다. 대규모의 불법적인 PII 데이터베이스를 생성하면 사용자의 개인 정보 보호 위험이 발생할 수 있습니다. 그렇기 때문에 빈번한 인식 캠페인에서는 사용자에게 알 수 없는 출처에서 오는 이메일, SMS, WhatsApp 메시지 등에 주의하도록 지시합니다. 실제로 GDPR[1]과 같은 현재 데이터 보호 규정에는 PII가 개인 데이터이며 처리하려면 (대부분의 경우) 사용자의 동의가 필요하다는 점을 명확하게 명시하고 있습니다. 사용자를 고유하게 식별하고 잠재적으로 대상을 지정하는 보다 미묘한 접근 방식은 개인 데이터로 간주되지 않는 여러 비PII 항목을 개별적으로 결합하는 것입니다. 비PII를 기반으로 한 이러한 식별은 감지하기 어렵지만 상당한 위험을 초래합니다. 이것이 최근 몇 년간 문헌에서 비PII 데이터를 기반으로 한 사용자 고유성이 다뤄진 이유입니다.


연구 문헌에서는 대규모 데이터 세트에서 사용자를 고유하게 식별하는 데 PII가 아닌 항목이 거의 없다는 사실이 반복적으로 입증되었습니다. 예를 들어, 150만 명의 사용자로 구성된 데이터세트에서 단 4개의 휴대전화 통화 기록만으로 사용자를 식별할 수 있습니다[2]. 마찬가지로, 110만 명의 사용자 기반에서 개인을 선택하는 데는 4개의 신용 카드 구매 기록만 필요합니다[3].


마찬가지로 8개의 영화 등급과 대략적인 리뷰 날짜를 통해 480,000명의 Netflix 사용자 중에서 한 명의 사용자를 선별할 수 있습니다[4]. 성별, 우편번호, 생년월일을 결합하면 1990년과 2000년 미국 인구 조사에서 각각 87%와 63%의 시민의 신원을 밝힐 수 있습니다[5][6]. 또한 15가지 인구통계학적 속성은 모든 데이터세트에서 미국인의 99.98%를 재식별할 수 있습니다[7].


이러한 연구는 인간 프라이버시의 취약성을 평가하는 데 귀중한 기여를 나타냅니다. 그러나 이러한 모든 연구는 이론적으로만 남아 있으며 사용자의 보안 및/또는 개인정보 보호를 침해하는 특정 공격에서 비PII 데이터 항목이 어떻게 활성화될 수 있는지 논의하지 않습니다. 우리는 이 연구 영역을 완성하기 위한 자연스러운 단계는 비PII 항목의 조합이 제3자에 의해 실제로 활성화되어 사용자를 개별적으로 타겟팅하고 (잠재적으로) 보안을 손상시키거나/또는 보안을 손상시킬 수 있음을 입증하는 방법론과 실험을 개발하는 것이라고 믿습니다. 은둔.


저자가 아는 한, PII가 아닌 항목의 조합이 활성화되어 광고를 통해 단일 사용자에게만 도달할 수 있음을 실제로 보여주는 이 분야의 유일한 이전 연구는 [8]입니다. 이 작업은 개념 증명 실험을 수행하여 사용자로부터 약 20개의 무작위 광고 선호도를 공개할 수 있는 공격자가 나노 타겟팅 광고 캠페인을 통해 이를 타겟팅할 수 있음을 보여줍니다. 즉, 광고는 타겟 사용자에게만 도달합니다. 이는 명시적인 동의 없이 개인 사용자를 대상으로 비PII 정보를 악용하여 해당 수단을 통해 고유하게 접근할 수 있다는 최초의 실질적인 증거입니다. 그러나 보고된 기술을 대규모로 실제로 사용하는 데에는 상당한 제한이 있습니다. 이를 위해서는 공격자가 사용자의 광고 기본 설정에 액세스해야 하는데, 이는 공개적으로 사용할 수 없기 때문에 복잡한 작업입니다. 이러한 제한으로 인해 잠재적인 공격자는 사용자의 광고 선호도를 추론할 수 있는 강력한 기술 지식을 갖춘 사람으로 줄어듭니다. 참조된 작업은 매우 중요한 연구 기여이지만, 우리는 연구 커뮤니티가 사용자가 사전에 공개한 비PII 항목을 대상으로 초개인화 공격을 구현하는 것이 가능하다는 것을 보여주는 추가 연구에 기여하는 것이 중요하다고 생각합니다. 이러한 연구는 종종 개인 데이터로 간주되지 않는 비PII 항목이 사용자에 대한 심각한 개인 정보 보호 및/또는 보안 위험을 수반할 수 있음을 입증합니다.


우리의 연구에 따르면 공개적으로 사용 가능한 몇 가지 비PII 데이터 항목을 결합한 초개인화된 메시지를 통해 수억 명의 사용자가 개별적으로 표적이 될 수 있습니다. 이를 위해 본 연구에서는 세 가지 요구 사항을 부과했습니다. (i) 사용자 기반에는 전 세계에 분산된 수천만 또는 수억 명의 사용자가 포함되어야 합니다. (ii) 개별 사용자를 대상으로 하는 데 필요한 비PII 데이터 항목은 공개적으로 사용할 수 있어야 하며, (iii) 비PII 항목은 외부 제3자에 의해 활성화되어 초개인화된 메시지를 통해 사용자에게 개별적으로 도달할 수 있습니다. 우리가 아는 한, 문헌의 이전 작품 중 어느 것도 이 세 가지 요구 사항을 동시에 충족하지 않습니다.


우리의 논문은 위치(국가, 지역 또는 도시)와 프로필에서 사용할 수 있는 전문 기술의 조합을 사용하여 광고를 통해 개별 사용자가 LinkedIn에서 나노타겟팅될 수 있음을 증명합니다. 이는 다음과 같은 세 가지 이전 요구 사항을 충족합니다. (i) LinkedIn에는 약 8억 명의 사용자가 있습니다. 즉, 전 세계 인구의 약 10%가 사용 가능합니다. (ii) 사용자의 위치 및 전문 기술은 PII가 아닌 항목에 공개적으로 제공됩니다. LinkedIn에 로그인한 사람 따라서 누구나 LinkedIn에서 사용자를 고유하게 식별하는 필수 정보를 쉽게 얻을 수 있으며, (iii) LinkedIn 광고 관리자를 통해 전문 기술과 위치의 조합을 활성화하여 사용자에게 초개인화된 광고를 전달할 수 있습니다. 실제로 이는 사용자를 나노타겟팅하려면 LinkedIn 계정이 필요하고, 타겟 사용자 프로필에서 위치와 전문 기술을 검색하고, 해당 정보를 사용하여 광고 캠페인을 구성하면 된다는 것을 의미합니다. 이는 많은 제3자가 PII가 아닌 항목을 악용하여 LinkedIn에 대한 나노 타겟팅 캠페인/공격을 실행하도록 할 수 있는 매우 간단한 작업입니다.


우리는 작업을 두 부분으로 나누었습니다. 논문의 첫 번째 부분에서는 1699명의 사용자로부터 수집된 39,000개의 기술에 대한 정보가 포함된 데이터 세트를 사용하고 LinkedIn에서 공개적으로 사용 가능한 위치와 N개의 전문 기술을 결합하여 LinkedIn에서 사용자 고유성 확률을 정의하는 데이터 기반 모델을 개발합니다. 그들의 프로필. 논문의 두 번째 부분에서는 모델의 결과를 사용하여 이 논문의 저자 3명을 대상으로 하는 개념 증명 실험을 구현하여 LinkedIn에서 나노 타겟팅 캠페인을 실행하는 것이 가능하다는 것을 보여줍니다.


LinkedIn은 광고 지침에서 캠페인을 시작하기 위한 최소 대상 회원 수는 300명이라고 주장하지만 구현 버그라고 생각되는 것을 악용하면 이 제한을 쉽게 우회할 수 있습니다. 우리는 권장 프로세스에 따라 연구를 통해 밝혀진 개인 정보 보호 취약성을 LinkedIn에 보고했습니다. 불행하게도 우리 보고서를 받은 플랫폼 관리자는 우리의 연구 결과가 취약점이라고 생각하지 않았습니다.


이 연구에서는 다음과 같은 몇 가지 주요 결과를 얻었습니다.


• 사용자의 위치를 보고된 기술 세트에서 무작위로 선택된 14개(23)개의 기술과 결합하면 해당 기술이 LinkedIn에서 75%(90%) 확률로 고유하게 됩니다. 대신 인기가 가장 낮은 기술을 사용하는 경우 동일한 수준의 고유성을 달성하려면 6(8)개의 기술만 필요합니다.


• 개념 증명 실험에 따르면 위치와 13개 이상의 무작위 기술을 사용하는 모든 캠페인은 3명의 타겟 작성자를 성공적으로 나노타겟팅했습니다.


• 우리가 아는 한, 이는 공개적으로 사용 가능한 비PII 데이터를 사용하여 고유한 시민을 대규모로 효과적으로 타겟팅할 수 있다는 증거를 보여주는 최초의 연구입니다.


그림 1: 데이터 샘플의 사용자 프로필당 기술 수 CDF.


그림 2: 우리 데이터 세트에 있는 4941개의 고유한 전문 기술과 관련된 전 세계 청중 규모의 CDF.


그림 3: N=1부터 N=50까지 고려되는 전문 기술의 수에 따라 우리 방법론에 사용되는 벡터의 길이.


이 문서는 CC BY-NC-ND 4.0 DEED 라이센스에 따라 arxiv에서 볼 수 있습니다.