Doch Datenschutz und Sicherheit stehen in einer ganz besonderen Wechselwirkung: Daten, die persönlich identifizierbare Informationen enthalten, erfordern höchste Sicherheitsstandards. Die Bedeutung von Datenschutz hat sich für immer verändert, denn Big Computing ermöglicht es, Einzelpersonen durch Kombinationen vollständig „anonymisierter“ Datensätze leicht wiederzuerkennen.
Compute, insbesondere Big Compute, entschlüsselt Muster in hochdimensionalen Daten mithilfe spärlicher Informationsvektoren, um persönlich identifizierbare Muster zu dichten. Die Fähigkeit, quantitativ zu messen, wie viele Einzelpersonen oder Gruppen ähnliche Merkmale aufweisen, wird quantitativ von Unicity gemessen.
Unicity wird in der englischen Sprache oft als Ausdruck von Freundlichkeit und Offenheit verwendet.
Unter Eindeutigkeit versteht man in der Mathematik die Einmaligkeit eines mathematischen Objekts. Normalerweise bedeutet dies, dass es nur ein Objekt gibt, das bestimmte Eigenschaften erfüllt, oder dass alle Objekte einer bestimmten Klasse gleichwertig sind .
Die Eindeutigkeitsdistanz ist in der Kryptographie nicht das Thema des heutigen Tages, aber sie kann helfen, die Idee zu verdeutlichen: Sie sagt uns, wie viel Geheimtext erforderlich ist, damit der Verschlüsselungsschlüssel eindeutig wiederhergestellt werden kann, vorausgesetzt, der Angreifer kennt den Verschlüsselungsalgorithmus und hat sowohl Zugriff auf den Geheimtext als auch auf einige Statistiken zum Klartext. Im Grunde lässt sie Sie berechnen, wie groß der Heuhaufen sein muss, um eine Nadel zu finden, bevor Sie mit dem Graben beginnen.
Diese Idee, die Eindeutigkeit in großen Datensätzen zu messen, wurde erstmals durch eine Studie bekannt, in der festgestellt wurde, dass über 90 % der Personen in einem Netflix Prize-Datensatz eindeutig wiedererkannt werden konnten, da sie „zeigen, dass ein Angreifer, der nur wenig über einen einzelnen Abonnenten weiß, den Datensatz dieses Abonnenten im Datensatz leicht identifizieren kann. Mithilfe der Internet Movie Database als Quelle für Hintergrundwissen konnten wir die Netflix-Datensätze bekannter Benutzer erfolgreich identifizieren und ihre offensichtlichen politischen Vorlieben und andere potenziell sensible Informationen aufdecken.“
Im Jahr 2021 wurde ich erneut daran erinnert, dass „
Ich habe Signalverarbeitungsstudien am menschlichen Gehirn durchgeführt, um herauszufinden, ob wir Gehirnnetzwerke ohne bewusste Wahrnehmung verändern können. Spoiler: Das ist durchaus möglich . Diese Daten scheinen sehr sensibel und höchst identifizierbar zu sein – aber es gibt Datensätze, die viel gefährlicher sind. Wie zum Beispiel Ihre bekannte Netflix-Nutzung.
Von der US-Regierung finanzierte medizinische Forschung erfordert, dass diese Datensätze der Öffentlichkeit frei zur Verfügung stehen, sofern die Privatsphäre angemessen gewahrt werden kann, dabei aber das Risiko einer erneuten Identifizierung nicht nur einer Person innerhalb des Datensatzes, sondern auch durch Kombination mit leicht verfügbaren Personen am nahegelegenen geografischen Standort einkalkuliert wird.
Es lohnt sich, die gesamte Zusammenfassung zu lesen:
„Obwohl anonyme Daten nicht als personenbezogene Daten gelten, hat die jüngste Forschung gezeigt, dass Einzelpersonen häufig wieder identifiziert werden können. Wissenschaftler haben argumentiert, dass frühere Erkenntnisse nur für kleine Datensätze gelten und dass die Privatsphäre in großen Datensätzen gewahrt bleibt. Anhand von Standortdaten über 3 Monate zeigen wir (1), dass das Risiko einer Wiederidentifizierung mit der Größe des Datensatzes langsam abnimmt, (2) approximieren diese Abnahme mit einem einfachen Modell, das drei bevölkerungsweite Randverteilungen berücksichtigt, und (3) beweisen, dass die Eindeutigkeit konvex ist, und erhalten eine lineare Untergrenze. Unsere Schätzungen zeigen, dass 93 % der Personen in einem Datensatz von 60 Millionen Personen anhand von vier Punkten zusätzlicher Informationen eindeutig identifiziert werden könnten, wobei die Untergrenze bei 22 % liegt. Diese Untergrenze steigt auf 87 %, wenn fünf Punkte verfügbar sind. Zusammengenommen zeigen unsere Ergebnisse, dass die Privatsphäre von Einzelpersonen selbst in Standortdatensätzen auf Länderebene höchstwahrscheinlich nicht gewahrt bleibt.“
Dies ist das Gold, nach dem Hacker normalerweise in Gesundheits-, Finanz- und Regierungsunterlagen schürfen. Sie benötigen vier goldene Zusatzdatenpunkte, und schon können sie die Person finden.
Dies ist keine Suche nach der Nadel im Heuhaufen.
Es geht darum, in einem Stapel Nadeln eine bestimmte Nadel zu finden.
Ich brauche lediglich drei Monate lang Standortdaten zu dieser Nadel, und Bingo , ich habe sie.
Die Eindeutigkeit von Datensätzen ist für die meisten Organisationen ein großer blinder Fleck.
Dies sollte ein großes Compliance-Problem darstellen, stellt jedoch auch hier einen blinden Fleck dar.
Es stellt ein großes Sicherheitsrisiko dar, bis wir lernen, es zu erkennen.
Ich habe gerade am IAPP AI Governance Training teilgenommen. Es ist der neue Standard zum Verständnis globaler Vorschriften zu Datenschutzbedenken für künstliche Intelligenz, der erst im April 2024 eingeführt wurde. Ich habe einen technischen Hintergrund und wollte diese Schulung nutzen, um in die Köpfe aller Anwälte, Regulierungsbehörden und Compliance-Beauftragten zu schauen, mit denen ich oft zu tun habe. Ich bin sehr zufrieden damit, wie es die aktuelle Regulierungslandschaft zusammenfasst, und mir gefällt, dass die Zertifizierung erfordert, dass Sie Ihre Schulung zu diesem Thema jedes Jahr aktualisieren: In dieser Regulierungslandschaft ändern sich die Dinge schnell.
Ich wünschte, wir hätten die technischen Fortschritte bei datenschutzfördernden Technologien behandelt, die Sie berücksichtigen müssen, wenn Sie einen Datensatz haben, der ein hohes Risiko der Eindeutigkeit aufweist. Ich wünschte, wir hätten alle bekannten quantitativen Messungen behandelt, um das Risiko der Eindeutigkeit in kleinen oder großen Datensätzen zu verringern. Ich wünschte, wir hätten die Eindeutigkeit behandelt, Punkt.
Ich wünschte, wir hätten besprochen, wie einzigartig der Einsatz von Privacy Enhancing Technologies (PETs) ist: Bis in die Grundelemente des Linux-Kernels wurde diese Technologie speziell für den Datenschutz entwickelt. PETs können sowohl Compliance- als auch Sicherheitsrisiken für Datensätze mit hohem Risiko auf einmal mindern.
Sicherheitsrisiken werden häufig in Form einer Bedrohungsmodellierung überprüft. Dabei handelt es sich um die spekulative Berechnung der Multiplikation dreier Faktoren: Art der Bedrohung (interner Akteur, Schwachstelle in der Lieferkette), Ausmaß der Auswirkungen (für Stakeholder, Endbenutzer, den Ruf des Unternehmens) und Wahrscheinlichkeit.
Konzentrieren wir uns auf die Wahrscheinlichkeit: Ich neige dazu, diese als bekannten/wahrgenommenen Vermögenswert zu berechnen und sogar einen vorgeschlagenen Preis für geistiges Eigentum wie Algorithmen festzulegen. Das ist wichtig. Sie sollten Ihr algorithmisches geistiges Eigentum so bewerten, als wäre es Ihr Produkt, denn insbesondere bei der KI ist es absolut Ihr Produkt.
Dadurch wird auch Ihr Fokus klar auf Ihr Bedrohungsmodell gerichtet. Wenn Ihr Unternehmen speziell geistiges Eigentum rund um generative Algorithmen erstellt, werden herkömmliche Sicherheitsmethoden nicht funktionieren.
Lassen Sie mich erklären, warum:
Wir sind mittlerweile wirklich gut darin, Daten zu verschlüsseln.
Leider ist es buchstäblich unmöglich, verschlüsselte Daten zu berechnen.
Wenn Ihr Unternehmen auf Computer angewiesen ist (und das ist wahrscheinlich der Fall, wenn Sie bis hierhin gelesen haben), sind Sie dafür verantwortlich, Entscheidungen über datenschutzbedingte Sicherheitsbedrohungen für Ihre Oberfläche zu treffen. Datenschutz ist der einzige Teil der Technologie, bei dem Compliance tatsächlich vollständig mit Sicherheit in Einklang gebracht werden kann.
Zurück zu den lästigen verschlüsselten Daten: Es gibt einige gute Gründe, warum sie verschlüsselt werden sollten. Mein bevorzugter Anwendungsfall für das PET Confidential Computing ist der Kampf gegen den globalen Menschenhandel.
Es hat immer gute Menschen auf der Welt gegeben, die für die Rechte und Freiheiten der Opfer dieses global verteilten Problems gekämpft haben. Traditionell wurden OSINT-Techniken verwendet, um die Standorte von Datenbanken mit Informationen zu identifizieren, oft ein Korpus aus fotografischen oder videografischen Informationen, deren Speicherung und Aufbewahrung als Beweismittel gesetzlich NICHT erlaubt war, da das Ziel darin besteht, die Möglichkeit einer neuen Verbreitung dieser Aufzeichnungen zu begrenzen.
Dies führte zu einem Problem, da Kriminelle Informationen problemlos online verschieben und ihre Architektur je nach Bedarf zentralisieren und dezentralisieren konnten. Diejenigen, die das Problem bekämpften, verfügten nicht über dieselbe Flexibilität.
Sinnvolle Regelung, unglückliche Nebenwirkungen.
Jetzt liefert uns Confidential Computing einen fairen Kampf im Rahmen des Hope for Justice Private Data Exchange : eine Demonstration, wie diese extrem risikoreichen Datensätze in einer vertrauenswürdigen Ausführungsumgebung zentralisiert werden können. Dabei werden die verwendeten Daten geschützt, indem die Berechnungen in einer hardwarebasierten, zertifizierten vertrauenswürdigen Ausführungsumgebung durchgeführt werden: wo diese Daten immer nur von Algorithmen und nicht vom menschlichen Auge beobachtet werden.
Und es wird noch besser. Weil wir so gut in Sachen Verschlüsselung sind, könnte dies nun Teil eines großen, föderierten Datenökosystems werden. Organisationen auf der ganzen Welt können ihre Aufzeichnungen zusammenführen und die Magie von nur vier goldenen Zusatzmaßnahmen nutzen, um potenziell individuell identifizierbare Informationen nicht nur über die Personen, sondern auch über deren Standorte und potenzielle Bewegungsmuster zu erhalten. Ein fairer Kampf, bei dem die Privatsphäre durch eine isolierte Ausführungsumgebung gewahrt wird: Nur algorithmische Augen werden diese Bilder jemals wieder sehen.
Unicity ist ein Tool, ein wirklich gutes Tool. Unicity ersetzt Ihren blinden Fleck durch eine Berechnung. Sehen Sie sich die ersten Versuche Ihrer eigenen Organisation zur KI-Konformitätsbewertung an: Risikomanagement, Datenverwaltung und Cybersicherheitspraktiken. Denken Sie über die aktuellen Vorschriften hinaus und berücksichtigen Sie das Gesamtrisiko, das Ihr System tatsächlich für Endbenutzer darstellen kann, und beginnen Sie mit der Bedrohungsmodellierung für eine datendichte Welt. Lassen Sie uns das richtig machen.
Ich habe so viel gelernt in den Tagen, in denen wir jeden Rahmen der KI-Regulierung behandelt haben. Basierend auf dem Regulierungsrahmen, der in der AIGP-Schulung vermittelt wurde, ist hier meine aktuelle Empfehlung, wie man dies in jeder mittelgroßen bis großen Organisation handhaben kann.
Ein erweitertes KI-Governance-Framework
Wenn wir Einzelpersonen identifizieren wollen, müssen wir diese Oberflächen sichern.
Wenn wir keine Einzelpersonen identifizieren möchten, implementieren Sie eine Möglichkeit, das fortlaufende Risiko einer erneuten Identifizierung in den Ausgaben Ihres Systems zu überwachen.
Niedrigere Eindeutigkeitsgrade in öffentlichen und gehackten Datensätzen wären für uns alle großartig. Es ist eine Datenhygiene-Praxis, die Ihr Team durchführen kann, die mit einer quantitativen Messung des Risikos konvergenter Datennutzung durch einen datenschutzorientierten Gegner verbunden ist. Wir können und müssen die Messlatte beim Schutz persönlicher Daten vor erneuter Identifizierung unbedingt höher legen. Wir können damit nur beginnen, wenn wir dies in unseren eigenen Daten messen. Wenn Sie es mit datenschutzfördernden Technologien und den sich ändernden Regulierungstrends im Computerbereich ernst meinen, senden Sie mir eine interessante Frage dazu . Wenn Ihre Systeme beim Training zwangsläufig mit Hochrisikodaten umgehen, könnten Sie auch Folgendes interessieren: