paint-brush
Datenschutz im Zeitalter großer Computervon@salkimmich
601 Lesungen
601 Lesungen

Datenschutz im Zeitalter großer Computer

von Sal Kimmich9m2024/05/30
Read on Terminal Reader

Zu lang; Lesen

Daten, die persönlich identifizierbare Informationen enthalten, erfordern höchste Sicherheitsstandards. Die Bedeutung von Privatsphäre hat sich für immer verändert, da Big Computing die Re-Identifizierung aus Kombinationen vollständig „anonymisierter“ Datensätze ermöglicht, um Einzelpersonen zu identifizieren. Wir müssen unsere Denkweise ändern, wenn wir die Privatsphäre im Internet schützen wollen.
featured image - Datenschutz im Zeitalter großer Computer
Sal Kimmich HackerNoon profile picture
0-item

Schauen Sie, ich verstehe das Compliance ist NICHT Sicherheit .

Doch Datenschutz und Sicherheit stehen in einer ganz besonderen Wechselwirkung: Daten, die persönlich identifizierbare Informationen enthalten, erfordern höchste Sicherheitsstandards. Die Bedeutung von Datenschutz hat sich für immer verändert, denn Big Computing ermöglicht es, Einzelpersonen durch Kombinationen vollständig „anonymisierter“ Datensätze leicht wiederzuerkennen.

Wenn wir die Privatsphäre im Internet schützen wollen, müssen wir unsere Denkweise ändern.

Compute, insbesondere Big Compute, entschlüsselt Muster in hochdimensionalen Daten mithilfe spärlicher Informationsvektoren, um persönlich identifizierbare Muster zu dichten. Die Fähigkeit, quantitativ zu messen, wie viele Einzelpersonen oder Gruppen ähnliche Merkmale aufweisen, wird quantitativ von Unicity gemessen.


Unicity wird in der englischen Sprache oft als Ausdruck von Freundlichkeit und Offenheit verwendet.


Unter Eindeutigkeit versteht man in der Mathematik die Einmaligkeit eines mathematischen Objekts. Normalerweise bedeutet dies, dass es nur ein Objekt gibt, das bestimmte Eigenschaften erfüllt, oder dass alle Objekte einer bestimmten Klasse gleichwertig sind .


Die Eindeutigkeitsdistanz ist in der Kryptographie nicht das Thema des heutigen Tages, aber sie kann helfen, die Idee zu verdeutlichen: Sie sagt uns, wie viel Geheimtext erforderlich ist, damit der Verschlüsselungsschlüssel eindeutig wiederhergestellt werden kann, vorausgesetzt, der Angreifer kennt den Verschlüsselungsalgorithmus und hat sowohl Zugriff auf den Geheimtext als auch auf einige Statistiken zum Klartext. Im Grunde lässt sie Sie berechnen, wie groß der Heuhaufen sein muss, um eine Nadel zu finden, bevor Sie mit dem Graben beginnen.


Diese Idee, die Eindeutigkeit in großen Datensätzen zu messen, wurde erstmals durch eine Studie bekannt, in der festgestellt wurde, dass über 90 % der Personen in einem Netflix Prize-Datensatz eindeutig wiedererkannt werden konnten, da sie „zeigen, dass ein Angreifer, der nur wenig über einen einzelnen Abonnenten weiß, den Datensatz dieses Abonnenten im Datensatz leicht identifizieren kann. Mithilfe der Internet Movie Database als Quelle für Hintergrundwissen konnten wir die Netflix-Datensätze bekannter Benutzer erfolgreich identifizieren und ihre offensichtlichen politischen Vorlieben und andere potenziell sensible Informationen aufdecken.“

Robuste Deanonymisierung großer, spärlicher Datensätze


Im Jahr 2021 wurde ich erneut daran erinnert, dass „ Das Risiko einer erneuten Identifizierung bleibt auch bei landesweiten Standortdatensätzen hoch .“ Dies kam von meiner eigenen Institution, dem National Institutes of Health.


Ich habe Signalverarbeitungsstudien am menschlichen Gehirn durchgeführt, um herauszufinden, ob wir Gehirnnetzwerke ohne bewusste Wahrnehmung verändern können. Spoiler: Das ist durchaus möglich . Diese Daten scheinen sehr sensibel und höchst identifizierbar zu sein – aber es gibt Datensätze, die viel gefährlicher sind. Wie zum Beispiel Ihre bekannte Netflix-Nutzung.


Von der US-Regierung finanzierte medizinische Forschung erfordert, dass diese Datensätze der Öffentlichkeit frei zur Verfügung stehen, sofern die Privatsphäre angemessen gewahrt werden kann, dabei aber das Risiko einer erneuten Identifizierung nicht nur einer Person innerhalb des Datensatzes, sondern auch durch Kombination mit leicht verfügbaren Personen am nahegelegenen geografischen Standort einkalkuliert wird.


Es lohnt sich, die gesamte Zusammenfassung zu lesen:

„Obwohl anonyme Daten nicht als personenbezogene Daten gelten, hat die jüngste Forschung gezeigt, dass Einzelpersonen häufig wieder identifiziert werden können. Wissenschaftler haben argumentiert, dass frühere Erkenntnisse nur für kleine Datensätze gelten und dass die Privatsphäre in großen Datensätzen gewahrt bleibt. Anhand von Standortdaten über 3 Monate zeigen wir (1), dass das Risiko einer Wiederidentifizierung mit der Größe des Datensatzes langsam abnimmt, (2) approximieren diese Abnahme mit einem einfachen Modell, das drei bevölkerungsweite Randverteilungen berücksichtigt, und (3) beweisen, dass die Eindeutigkeit konvex ist, und erhalten eine lineare Untergrenze. Unsere Schätzungen zeigen, dass 93 % der Personen in einem Datensatz von 60 Millionen Personen anhand von vier Punkten zusätzlicher Informationen eindeutig identifiziert werden könnten, wobei die Untergrenze bei 22 % liegt. Diese Untergrenze steigt auf 87 %, wenn fünf Punkte verfügbar sind. Zusammengenommen zeigen unsere Ergebnisse, dass die Privatsphäre von Einzelpersonen selbst in Standortdatensätzen auf Länderebene höchstwahrscheinlich nicht gewahrt bleibt.“


Dies ist das Gold, nach dem Hacker normalerweise in Gesundheits-, Finanz- und Regierungsunterlagen schürfen. Sie benötigen vier goldene Zusatzdatenpunkte, und schon können sie die Person finden.


Dies ist keine Suche nach der Nadel im Heuhaufen.

Es geht darum, in einem Stapel Nadeln eine bestimmte Nadel zu finden.

Ich brauche lediglich drei Monate lang Standortdaten zu dieser Nadel, und Bingo , ich habe sie.


Die Eindeutigkeit von Datensätzen ist für die meisten Organisationen ein großer blinder Fleck.


Dies sollte ein großes Compliance-Problem darstellen, stellt jedoch auch hier einen blinden Fleck dar.


Es stellt ein großes Sicherheitsrisiko dar, bis wir lernen, es zu erkennen.


Ich habe gerade am IAPP AI Governance Training teilgenommen. Es ist der neue Standard zum Verständnis globaler Vorschriften zu Datenschutzbedenken für künstliche Intelligenz, der erst im April 2024 eingeführt wurde. Ich habe einen technischen Hintergrund und wollte diese Schulung nutzen, um in die Köpfe aller Anwälte, Regulierungsbehörden und Compliance-Beauftragten zu schauen, mit denen ich oft zu tun habe. Ich bin sehr zufrieden damit, wie es die aktuelle Regulierungslandschaft zusammenfasst, und mir gefällt, dass die Zertifizierung erfordert, dass Sie Ihre Schulung zu diesem Thema jedes Jahr aktualisieren: In dieser Regulierungslandschaft ändern sich die Dinge schnell.

Ich möchte mich kurz auf die Dinge konzentrieren, von denen ich mir wünsche, dass sie die Fachleute für KI-Governance verstehen.

Ich wünschte, wir hätten die technischen Fortschritte bei datenschutzfördernden Technologien behandelt, die Sie berücksichtigen müssen, wenn Sie einen Datensatz haben, der ein hohes Risiko der Eindeutigkeit aufweist. Ich wünschte, wir hätten alle bekannten quantitativen Messungen behandelt, um das Risiko der Eindeutigkeit in kleinen oder großen Datensätzen zu verringern. Ich wünschte, wir hätten die Eindeutigkeit behandelt, Punkt.


Ich wünschte, wir hätten besprochen, wie einzigartig der Einsatz von Privacy Enhancing Technologies (PETs) ist: Bis in die Grundelemente des Linux-Kernels wurde diese Technologie speziell für den Datenschutz entwickelt. PETs können sowohl Compliance- als auch Sicherheitsrisiken für Datensätze mit hohem Risiko auf einmal mindern.


Sicherheitsrisiken werden häufig in Form einer Bedrohungsmodellierung überprüft. Dabei handelt es sich um die spekulative Berechnung der Multiplikation dreier Faktoren: Art der Bedrohung (interner Akteur, Schwachstelle in der Lieferkette), Ausmaß der Auswirkungen (für Stakeholder, Endbenutzer, den Ruf des Unternehmens) und Wahrscheinlichkeit.

RISIKO = BEDROHUNG x AUSWIRKUNG x WAHRSCHEINLICHKEIT.

Konzentrieren wir uns auf die Wahrscheinlichkeit: Ich neige dazu, diese als bekannten/wahrgenommenen Vermögenswert zu berechnen und sogar einen vorgeschlagenen Preis für geistiges Eigentum wie Algorithmen festzulegen. Das ist wichtig. Sie sollten Ihr algorithmisches geistiges Eigentum so bewerten, als wäre es Ihr Produkt, denn insbesondere bei der KI ist es absolut Ihr Produkt.


Dadurch wird auch Ihr Fokus klar auf Ihr Bedrohungsmodell gerichtet. Wenn Ihr Unternehmen speziell geistiges Eigentum rund um generative Algorithmen erstellt, werden herkömmliche Sicherheitsmethoden nicht funktionieren.


Lassen Sie mich erklären, warum:


Wir sind mittlerweile wirklich gut darin, Daten zu verschlüsseln.

Leider ist es buchstäblich unmöglich, verschlüsselte Daten zu berechnen.


Wenn Ihr Unternehmen auf Computer angewiesen ist (und das ist wahrscheinlich der Fall, wenn Sie bis hierhin gelesen haben), sind Sie dafür verantwortlich, Entscheidungen über datenschutzbedingte Sicherheitsbedrohungen für Ihre Oberfläche zu treffen. Datenschutz ist der einzige Teil der Technologie, bei dem Compliance tatsächlich vollständig mit Sicherheit in Einklang gebracht werden kann.


Zurück zu den lästigen verschlüsselten Daten: Es gibt einige gute Gründe, warum sie verschlüsselt werden sollten. Mein bevorzugter Anwendungsfall für das PET Confidential Computing ist der Kampf gegen den globalen Menschenhandel.


Es hat immer gute Menschen auf der Welt gegeben, die für die Rechte und Freiheiten der Opfer dieses global verteilten Problems gekämpft haben. Traditionell wurden OSINT-Techniken verwendet, um die Standorte von Datenbanken mit Informationen zu identifizieren, oft ein Korpus aus fotografischen oder videografischen Informationen, deren Speicherung und Aufbewahrung als Beweismittel gesetzlich NICHT erlaubt war, da das Ziel darin besteht, die Möglichkeit einer neuen Verbreitung dieser Aufzeichnungen zu begrenzen.


Dies führte zu einem Problem, da Kriminelle Informationen problemlos online verschieben und ihre Architektur je nach Bedarf zentralisieren und dezentralisieren konnten. Diejenigen, die das Problem bekämpften, verfügten nicht über dieselbe Flexibilität.


Sinnvolle Regelung, unglückliche Nebenwirkungen.


Jetzt liefert uns Confidential Computing einen fairen Kampf im Rahmen des Hope for Justice Private Data Exchange : eine Demonstration, wie diese extrem risikoreichen Datensätze in einer vertrauenswürdigen Ausführungsumgebung zentralisiert werden können. Dabei werden die verwendeten Daten geschützt, indem die Berechnungen in einer hardwarebasierten, zertifizierten vertrauenswürdigen Ausführungsumgebung durchgeführt werden: wo diese Daten immer nur von Algorithmen und nicht vom menschlichen Auge beobachtet werden.


Und es wird noch besser. Weil wir so gut in Sachen Verschlüsselung sind, könnte dies nun Teil eines großen, föderierten Datenökosystems werden. Organisationen auf der ganzen Welt können ihre Aufzeichnungen zusammenführen und die Magie von nur vier goldenen Zusatzmaßnahmen nutzen, um potenziell individuell identifizierbare Informationen nicht nur über die Personen, sondern auch über deren Standorte und potenzielle Bewegungsmuster zu erhalten. Ein fairer Kampf, bei dem die Privatsphäre durch eine isolierte Ausführungsumgebung gewahrt wird: Nur algorithmische Augen werden diese Bilder jemals wieder sehen.

Unicity ist kein großes Übel.

Unicity ist ein Tool, ein wirklich gutes Tool. Unicity ersetzt Ihren blinden Fleck durch eine Berechnung. Sehen Sie sich die ersten Versuche Ihrer eigenen Organisation zur KI-Konformitätsbewertung an: Risikomanagement, Datenverwaltung und Cybersicherheitspraktiken. Denken Sie über die aktuellen Vorschriften hinaus und berücksichtigen Sie das Gesamtrisiko, das Ihr System tatsächlich für Endbenutzer darstellen kann, und beginnen Sie mit der Bedrohungsmodellierung für eine datendichte Welt. Lassen Sie uns das richtig machen.


Ich habe so viel gelernt in den Tagen, in denen wir jeden Rahmen der KI-Regulierung behandelt haben. Basierend auf dem Regulierungsrahmen, der in der AIGP-Schulung vermittelt wurde, ist hier meine aktuelle Empfehlung, wie man dies in jeder mittelgroßen bis großen Organisation handhaben kann.

Priorisierung aktueller Rahmenbedingungen für die KI-Governance

Ein erweitertes KI-Governance-Framework

Umfassendes Risikomanagement (NIST AI RMF)

  1. Strukturierter Risikomanagementprozess:
    • Risiken identifizieren : Führen Sie gründliche Risikobewertungen durch, um potenzielle KI-bezogene Risiken zu identifizieren.
    • Risiken einschätzen : Bewerten Sie die Schwere und Wahrscheinlichkeit der identifizierten Risiken.
    • Risiken managen : Implementieren Sie Strategien zur Minderung identifizierter Risiken.
    • Überwachen und aktualisieren : Überwachen Sie KI-Systeme kontinuierlich auf neue Risiken und aktualisieren Sie Ihre Risikomanagementstrategien entsprechend.

Ethische KI-Entwicklung (OECD-KI-Prinzipien)

  1. Ethische Überlegungen :
    • Menschzentriertes Design : Stellen Sie sicher, dass KI-Systeme menschlichen Eingaben Priorität einräumen und auf menschliche Bedürfnisse und Erfahrungen eingehen.
    • Transparenz und Erklärbarkeit : Stellen Sie klare und verständliche Informationen darüber bereit, wie KI-Systeme Entscheidungen treffen.
    • Verantwortlichkeit : Legen Sie eine klare Verantwortlichkeit für die Aktionen und Ergebnisse von KI-Systemen fest.

Einhaltung gesetzlicher Vorschriften (DSGVO, EU-KI-Gesetz)

  1. Datenschutz und Privatsphäre :
    • DSGVO-Konformität : Implementieren Sie Maßnahmen zum Schutz personenbezogener Daten, einschließlich Datenminimierung und Anonymisierung.
    • EU-KI-Gesetz : Klassifizieren Sie KI-Systeme nach Risiko und stellen Sie die Einhaltung spezifischer Anforderungen für KI-Systeme mit hohem Risiko sicher.
    • Daten-Folgenabschätzungen : Führen Sie Datenschutz-Folgenabschätzungen (DPIAs) und KI-Konformitätsbewertungen durch, um Datenschutzrisiken zu bewerten.

Technische Überlegungen

  1. Technologien zur Verbesserung der Privatsphäre (PETs) :
    • Differenzieller Datenschutz : Implementieren Sie differenziellen Datenschutz, um den Datenschutz bei der Analyse von Gruppenmustern zu gewährleisten.
    • Föderiertes Lernen : Verwenden Sie föderiertes Lernen, um KI-Modelle anhand dezentraler Daten zu trainieren, ohne einzelne Datenpunkte zu teilen.
    • Homomorphe Verschlüsselung : Verwenden Sie homomorphe Verschlüsselung, um Berechnungen an verschlüsselten Daten durchzuführen.
  2. Eindeutigkeits- und Reidentifizierungsrisiken :
    • Eindeutigkeit messen : Messen Sie das Risiko einer erneuten Identifizierung in Datensätzen quantitativ, um den Datenschutz zu gewährleisten.
    • Überwachen und Reduzieren der Eindeutigkeit : Überwachen Sie kontinuierlich die Eindeutigkeit von Datensätzen und implementieren Sie Strategien zu deren Reduzierung.

Versuchen Sie, die Auswirkungen Ihrer Implementierung im Zeitverlauf zu messen

  1. Richten Sie ein zentrales Governance-Gremium ein: Bilden Sie ein engagiertes Team, das für die KI-Governance verantwortlich ist und die Einhaltung der DSGVO, des EU-KI-Gesetzes, des NIST AI RMF und der OECD-KI-Grundsätze sicherstellt.
  2. Entwicklung integrierter Richtlinien und Verfahren: Erstellen Sie Richtlinien, die die Grundsätze aller vier Regulierungsrahmen integrieren und dabei den Schwerpunkt auf Datenschutz, Risikomanagement, Transparenz und Rechenschaftspflicht legen.
  3. Nutzen Sie Technologie zur Einhaltung von Vorschriften: Verwenden Sie fortschrittliche Technologien wie datenschutzfreundliche Technologien (PETs) und KI-Überwachungstools, um die Einhaltung von Vorschriften und das Risikomanagement zu unterstützen.
  4. Bleiben Sie über regulatorische Änderungen und Fortschritte in der KI-Governance auf dem Laufenden und stellen Sie sicher, dass sich der Governance-Rahmen mit neuen Entwicklungen weiterentwickelt. Behalten Sie einen regulatorischen Horizont im Auge, aber Beginnen Sie, dieses Problem anders zu betrachten, solange Sie noch können. Überlegen Sie, wie wir verantwortungsbewusst rechnen können.


Wenn wir Einzelpersonen identifizieren wollen, müssen wir diese Oberflächen sichern.


Wenn wir keine Einzelpersonen identifizieren möchten, implementieren Sie eine Möglichkeit, das fortlaufende Risiko einer erneuten Identifizierung in den Ausgaben Ihres Systems zu überwachen.



Niedrigere Eindeutigkeitsgrade in öffentlichen und gehackten Datensätzen wären für uns alle großartig. Es ist eine Datenhygiene-Praxis, die Ihr Team durchführen kann, die mit einer quantitativen Messung des Risikos konvergenter Datennutzung durch einen datenschutzorientierten Gegner verbunden ist. Wir können und müssen die Messlatte beim Schutz persönlicher Daten vor erneuter Identifizierung unbedingt höher legen. Wir können damit nur beginnen, wenn wir dies in unseren eigenen Daten messen. Wenn Sie es mit datenschutzfördernden Technologien und den sich ändernden Regulierungstrends im Computerbereich ernst meinen, senden Sie mir eine interessante Frage dazu . Wenn Ihre Systeme beim Training zwangsläufig mit Hochrisikodaten umgehen, könnten Sie auch Folgendes interessieren: Verlernen in der KI , oder Sicherheitsbedrohungen für einflussreiche LLMs .