paint-brush
Analyse und Implementierung von Nanotargeting auf LinkedIn basierend auf öffentlich verfügbaren Nicht-PIIvon@netizenship
161 Lesungen

Analyse und Implementierung von Nanotargeting auf LinkedIn basierend auf öffentlich verfügbaren Nicht-PII

Zu lang; Lesen

In diesem Dokument werden die Datenschutzrisiken von Nanotargeting auf LinkedIn untersucht. Es wird aufgezeigt, dass die Kombination von Standort und beruflichen Fähigkeiten aus öffentlich verfügbaren Daten Benutzer eindeutig identifizieren und sie hyperpersonalisierten Anzeigen aussetzen kann. Dies wirft auch Bedenken hinsichtlich Datenschutz und -sicherheit auf Social-Media-Plattformen auf.
featured image - Analyse und Implementierung von Nanotargeting auf LinkedIn basierend auf öffentlich verfügbaren Nicht-PII
Netizenship Meaning in Online Communities HackerNoon profile picture
0-item

Autoren:

(1) Ángel Merino, Fakultät für Telematiktechnik, Universidad Carlos III de Madrid {[email protected]};

(2) José González-Cabañas, UC3M-Santander Big Data Institute {[email protected]}

(3) Ángel Cuevas, Fakultät für Telematiktechnik, Universidad Carlos III de Madrid & UC3M-Santander Big Data Institute {[email protected]};

(4) Rubén Cuevas, Fakultät für Telematiktechnik, Universidad Carlos III de Madrid & UC3M-Santander Big Data Institute {[email protected]}.

Linktabelle

Zusammenfassung und Einleitung

Hintergrund zur LinkedIn-Werbeplattform

Datensatz

Methodik

Einzigartigkeit des Benutzers auf LinkedIn

Machbarkeitsnachweis für Nanotargeting

Diskussion

Verwandte Arbeiten

Ethische und rechtliche Überlegungen

Schlussfolgerungen, Danksagungen und Referenzen

Anhang

ABSTRAKT

In der Literatur wurde mehrfach gezeigt, dass die Kombination einiger nicht persönlich identifizierbarer Informationen (Non-PII) ausreicht, um einen Benutzer in einem Datensatz mit Millionen oder sogar Hunderten Millionen Benutzern einzigartig zu machen. Diese Arbeit erweitert diesen Forschungsbereich und zeigt, dass eine Kombination einiger nicht-PII-Attribute, die öffentlich verfügbar sind, von Dritten aktiviert werden kann, um einen Benutzer individuell mit hyperpersonalisierten Nachrichten anzusprechen. In diesem Dokument wird zunächst eine Methodik implementiert, die zeigt, dass die Kombination des Standorts und 6 seltener (oder 14 zufälliger) beruflicher Fähigkeiten, die ein Benutzer in seinem LinkedIn-Profil angibt, ausreicht, um mit einer Wahrscheinlichkeit von 75 % in einer Benutzerbasis von ∼800 Millionen Benutzern einzigartig zu werden. Ein neuartiges Merkmal in diesem Fall im Vergleich zu früheren Arbeiten in der Literatur ist, dass der Standort und die Fähigkeiten, die in einem LinkedIn-Profil angegeben werden, für jeden anderen Benutzer oder jedes andere Unternehmen, das auf der Plattform registriert ist, öffentlich zugänglich sind und darüber hinaus durch Werbekampagnen aktiviert werden können. Wir haben ein Proof-of-Concept-Experiment mit drei der Autoren des Dokuments durchgeführt. Wir haben gezeigt, dass alle Werbekampagnen, die mit dem Standort und ≥13 zufälligen beruflichen Fähigkeiten aus den LinkedIn-Profilen der Autoren konfiguriert wurden, erfolgreich Anzeigen ausschließlich an den Zielbenutzer auslieferten. Diese Praxis wird als Nanotargeting bezeichnet und kann LinkedIn-Benutzer potenziellen Datenschutz- und Sicherheitsrisiken wie Malvertising oder Manipulation aussetzen.


Schlagwörter LinkedIn · Online-Werbung · Datenschutz der Nutzer · Nanotargeting

1. Einleitung

Die Fähigkeit von Dritten, Benutzer ohne deren Zustimmung in großem Umfang eindeutig zu identifizieren, ist ein gutes Thermometer dafür, wie fragil die Privatsphäre der Bürger ist. Eine offensichtliche Möglichkeit, einen Benutzer zu identifizieren, sind personenbezogene Daten (PII) wie E-Mail, Telefonnummer, Postanschrift usw. Die Erstellung großer, rechtswidriger Datenbanken mit PII kann Datenschutzrisiken für die Benutzer darstellen. Aus diesem Grund werden Benutzer in häufigen Sensibilisierungskampagnen angewiesen, bei E-Mails, SMS, WhatsApp-Nachrichten usw. aus unbekannten Quellen vorsichtig zu sein. Tatsächlich besagen aktuelle Datenschutzbestimmungen wie die DSGVO [1] eindeutig, dass PII personenbezogene Daten sind und (in den meisten Fällen) die Zustimmung des Benutzers zur Verarbeitung erforderlich ist. Ein subtilerer Ansatz zur eindeutigen Identifizierung und potenziellen Zielerfassung eines Benutzers besteht in der Kombination mehrerer nicht-PII-Elemente, die isoliert nicht als personenbezogene Daten betrachtet werden. Diese Identifizierung auf der Grundlage von nicht-PII ist schwieriger zu erkennen, birgt jedoch ein erhebliches Risiko. Aus diesem Grund wurde die Eindeutigkeit von Benutzern auf der Grundlage von nicht-PII-Daten in den letzten Jahren in der Literatur behandelt.


Die Forschungsliteratur hat wiederholt bewiesen, dass wenige nicht-personenbezogene Daten ausreichen, um einen Benutzer in großen Datensätzen eindeutig zu identifizieren. Beispielsweise können nur 4 Mobiltelefonanrufdatensätze einen Benutzer in einem Datensatz von 1,5 Millionen Benutzern identifizieren [2]. In ähnlicher Weise sind in einer Benutzerbasis von 1,1 Millionen Benutzern nur 4 Kreditkartenkaufdatensätze erforderlich, um eine Einzelperson zu identifizieren [3].


Ebenso können 8 Filmbewertungen und ungefähre Überprüfungsdaten einen Benutzer unter 480.000 Netflix-Benutzern identifizieren [4]. Die Kombination von Geschlecht, Postleitzahl und Geburtsdatum kann die Identität von 87 % bzw. 63 % der Bürger der US-Volkszählungen von 1990 und 2000 enthüllen [5][6]. Außerdem können 15 demografische Merkmale 99,98 % der Amerikaner in jedem Datensatz wieder identifizieren [7].


Diese Studien leisten einen unschätzbaren Beitrag zur Beurteilung der Fragilität der Privatsphäre. Allerdings bleiben all diese Arbeiten theoretischer Natur und diskutieren nicht, wie die nicht-PII-Datenelemente bei bestimmten Angriffen aktiviert werden können, die die Sicherheit und/oder Privatsphäre der Benutzer gefährden. Wir glauben, dass der natürliche Schritt zur Vervollständigung dieses Forschungsbereichs die Entwicklung von Methoden und Experimenten ist, um zu zeigen, dass die Kombination von nicht-PII-Elementen in der Praxis von Dritten aktiviert werden kann, um Benutzer einzeln anzugreifen und (potenziell) deren Sicherheit und/oder Privatsphäre zu gefährden.


Nach bestem Wissen der Autoren ist [8] die einzige bisherige Studie auf diesem Gebiet, die praktisch zeigt, dass eine Kombination von nicht-PII-Elementen aktiviert werden kann, um einen einzelnen Benutzer exklusiv mit einer Anzeige zu erreichen. Diese Arbeit führt ein Proof-of-Concept-Experiment durch, das zeigt, dass ein Angreifer, der in der Lage ist, etwa 20 zufällige Anzeigenpräferenzen eines Benutzers aufzudecken, diese mit einer Nanotargeting-Werbekampagne ansprechen kann, d. h. die Anzeige erreicht den Zielbenutzer exklusiv. Dies ist der erste greifbare Beweis dafür, dass nicht-PII-Informationen ausgenutzt werden können, um einzelne Benutzer ohne ausdrückliche Zustimmung gezielt anzusprechen, um auf diese Weise ausschließlich erreicht zu werden. Die praktische Anwendung der berichteten Technik im großen Maßstab hat jedoch eine erhebliche Einschränkung. Der Angreifer muss auf die Anzeigenpräferenzen der Benutzer zugreifen, was eine komplexe Aufgabe ist, da sie nicht öffentlich verfügbar sind. Diese Einschränkung reduziert die potenziellen Angreifer auf diejenigen mit fundierten technischen Kenntnissen, die in der Lage sind, die Anzeigenpräferenzen eines Benutzers abzuleiten. Obwohl die erwähnte Arbeit einen sehr wichtigen Forschungsbeitrag darstellt, halten wir es für wichtig, dass die Forschungsgemeinschaft weitere Studien beisteuert, die zeigen, dass es möglich ist, hyperpersonalisierte Angriffe auf öffentlich verfügbare, nicht-PII-Elemente durchzuführen, die von Benutzern proaktiv offengelegt werden. Solche Studien würden beweisen, dass Elemente, die nicht personenbezogen sind und häufig nicht als personenbezogene Daten betrachtet werden, für die Benutzer schwerwiegende Datenschutz- und/oder Sicherheitsrisiken bergen können.


Unsere Arbeit zeigt, dass Hunderte Millionen Benutzer individuell mit hyperpersonalisierten Nachrichten angesprochen werden können, die einige öffentlich verfügbare, nicht-PII-Datenelemente kombinieren. Zu diesem Zweck haben wir uns in dieser Untersuchung drei Anforderungen auferlegt: (i) Die Benutzerbasis sollte Dutzende oder Hunderte Millionen Benutzer umfassen, die über die ganze Welt verteilt sind; (ii) die nicht-PII-Datenelemente, die erforderlich sind, um einen einzelnen Benutzer gezielt anzusprechen, müssen öffentlich verfügbar sein, und (iii) die nicht-PII-Elemente können von externen Dritten aktiviert werden, um Benutzer individuell mit hyperpersonalisierten Nachrichten zu erreichen. Nach bestem Wissen und Gewissen erfüllt keine der bisherigen Arbeiten in der Literatur diese drei Anforderungen gleichzeitig.


Unser Dokument beweist, dass ein einzelner Benutzer auf LinkedIn mit einer Anzeige nanotargeted werden kann, indem die Kombination aus Standort (Land, Region oder Stadt) und den in seinem Profil verfügbaren beruflichen Fähigkeiten verwendet wird. Dies erfüllt die drei vorherigen Anforderungen wie folgt: (i) LinkedIn hat ∼800 Millionen Benutzer, d. h. etwa 10 % der Weltbevölkerung sind verfügbar, (ii) der Standort und die beruflichen Fähigkeiten seiner Benutzer sind öffentlich verfügbare, nicht personenbezogene Daten für jeden, der bei LinkedIn angemeldet ist. Daher kann jeder leicht die erforderlichen Informationen erhalten, die einen Benutzer auf LinkedIn eindeutig identifizieren, und (iii) die Kombination aus beruflichen Fähigkeiten und Standort kann über den LinkedIn Ads Manager aktiviert werden, um den Benutzern hyperpersonalisierte Anzeigen zu liefern. In der Praxis bedeutet dies, dass für das Nanotargeting eines Benutzers lediglich ein LinkedIn-Konto erforderlich ist, das Abrufen des Standorts und der beruflichen Fähigkeiten aus dem Zielbenutzerprofil und das Konfigurieren einer Anzeigenkampagne unter Verwendung dieser Informationen. Dies ist ein sehr einfacher Vorgang, der es vielen Dritten, die dazu bereit sind, ermöglichen kann, Nanotargeting-Kampagnen/-Angriffe auf LinkedIn durchzuführen, indem nicht personenbezogene Daten ausgenutzt werden.


Wir haben unsere Arbeit in zwei Teile aufgeteilt. Im ersten Teil des Papiers verwenden wir einen Datensatz mit Informationen zu 39.000 Fähigkeiten, die von 1699 Benutzern gesammelt wurden, und entwickeln ein datengesteuertes Modell, das die Wahrscheinlichkeit der Einzigartigkeit eines Benutzers auf LinkedIn definiert, indem es den Standort und N öffentlich in seinem Profil verfügbare berufliche Fähigkeiten kombiniert. Im zweiten Teil des Papiers verwenden wir die Ergebnisse des Modells, um ein Proof-of-Concept-Experiment durchzuführen, das sich an drei Autoren dieses Papiers richtet und zeigt, dass es machbar ist, Nanotargeting-Kampagnen auf LinkedIn durchzuführen.


LinkedIn gibt in seinen Werberichtlinien an, dass die Mindestanzahl an Zielmitgliedern zum Starten einer Kampagne 300 beträgt. Diese Grenze kann jedoch leicht umgangen werden, indem man einen unserer Meinung nach vorhandenen Implementierungsfehler ausnutzt. Wir haben die durch unsere Untersuchung aufgedeckte Datenschutzlücke LinkedIn gemäß dem empfohlenen Verfahren gemeldet. Leider haben die Plattformmanager, die unseren Bericht erhalten haben, unsere Untersuchungsergebnisse nicht als Sicherheitslücke betrachtet.


Diese Arbeit hat mehrere wichtige Erkenntnisse erbracht:


• Die Kombination des Standorts der Benutzer mit 14 (23) zufällig ausgewählten Fähigkeiten aus ihrem gemeldeten Kompetenzbereich macht sie mit einer Wahrscheinlichkeit von 75 % (90 %) auf LinkedIn einzigartig. Wenn wir stattdessen die am wenigsten beliebten Fähigkeiten verwenden, benötigen wir nur 6 (8) Fähigkeiten, um denselben Grad an Einzigartigkeit zu erreichen.


• Unser Proof-of-Concept-Experiment zeigt, dass alle Kampagnen, die den Standort und ≥13 zufällige Fähigkeiten nutzten, die drei Zielautoren erfolgreich nanotargeted haben.


• Nach bestem Wissen und Gewissen ist dies die erste Studie, die den Beweis erbringt, dass öffentlich verfügbare, nicht personenbezogene Daten genutzt werden können, um gezielt und in großem Umfang einzelne Bürger anzusprechen.


Abbildung 1: CDF der Anzahl der Fähigkeiten pro Benutzerprofil in unserer Datenstichprobe.


Abbildung 2: CDF der weltweiten Zielgruppengröße im Zusammenhang mit den 4941 einzigartigen beruflichen Fähigkeiten in unserem Datensatz.


Abbildung 3: Länge der in unserer Methodik verwendeten Vektoren entsprechend der Anzahl der berücksichtigten beruflichen Fähigkeiten im Bereich von N=1 bis N=50 Fähigkeiten.