612 lectures

Naviguer dans la confidentialité à l’ère du Big Compute

par Sal Kimmich9m2024/05/30

Trop long; Pour lire

Les données qui incluent des informations personnellement identifiables nécessitent le plus haut niveau de sécurité. Le sens de la vie privée a changé à jamais, à mesure que le grand calcul a permis d’utiliser la réidentification à partir de combinaisons d’ensembles de données entièrement « anonymisées » pour identifier des individus. Nous devons changer notre état d’esprit si nous voulons préserver la confidentialité en ligne.

featured image - Naviguer dans la confidentialité à l’ère du Big Compute

Écoute, je comprends ça la conformité n'est PAS la sécurité .

Mais la confidentialité et la sécurité interagissent d’une manière vraiment unique : les données qui incluent des informations personnellement identifiables nécessitent le plus haut niveau de sécurité. Le sens de la vie privée a changé à jamais, car le grand calcul signifie que la réidentification à partir de combinaisons d’ensembles de données entièrement « anonymisés » peut être utilisée pour identifier facilement des individus.

Nous devons changer notre état d’esprit si nous voulons préserver la confidentialité en ligne.

Le calcul, en particulier le gros calcul, débloque des modèles dans des données de grande dimension en utilisant des vecteurs d'information clairsemés pour devenir denses en modèles personnellement identifiables. La capacité de mesurer quantitativement le nombre d'individus ou de groupes présentant des caractéristiques similaires est mesurée quantitativement par Unicity .

L'unicité est souvent utilisée dans la langue anglaise pour désigner la gentillesse et l'ouverture incarnées.

L'unicité en mathématiques est définie comme l'unicité d'un objet mathématique, ce qui signifie généralement qu'il n'existe qu'un seul objet remplissant des propriétés données, ou que tous les objets d'une classe donnée sont équivalents .

L'unicité La distance en cryptographie n'est pas au centre des préoccupations aujourd'hui, mais elle peut aider à élucider l'idée : elle nous indique la quantité de texte chiffré nécessaire pour que la clé de chiffrement puisse être récupérée de manière unique, en supposant que l'attaquant connaisse l'algorithme de chiffrement et ait accès à l'algorithme de chiffrement. à la fois le texte chiffré et quelques statistiques sur le texte en clair. Fondamentalement, il vous permet de calculer la taille que doit avoir la botte de foin pour trouver une aiguille, avant de creuser.

Cette idée de mesurer l'unicité dans de grands ensembles de données a été rendue célèbre pour la première fois par une étude qui a révélé que plus de 90 % des personnes pouvaient être réidentifiées de manière unique dans un ensemble de données du prix Netflix, car elles « démontrent qu'un adversaire qui ne connaît que peu de choses sur un abonné individuel peut facilement identifier l'enregistrement de cet abonné dans l'ensemble de données. En utilisant la base de données de films Internet comme source de connaissances de base, nous avons réussi à identifier les enregistrements Netflix des utilisateurs connus, révélant ainsi leurs préférences politiques apparentes et d'autres informations potentiellement sensibles.

Désanonymisation robuste des grands ensembles de données clairsemées

En 2021, on m’a encore rappelé que « Le risque de réidentification reste élevé, même dans les ensembles de données de localisation à l'échelle nationale .» Cela vient de ma propre institution, les National Institutes of Health.

J'avais fait des études sur le traitement du signal sur le cerveau humain, pour voir si nous pouvions modifier les réseaux cérébraux sans en avoir conscience. Spoilers : vous pouvez tout à fait le faire . Ces données peuvent sembler être des données individuelles assez sensibles et hautement identifiables, mais il existe des ensembles de données bien plus dangereux que cela. Comme votre utilisation connue de Neflix.

La recherche médicale financée par le gouvernement américain exige que ces ensembles de données soient librement accessibles au public lorsque la confidentialité peut être raisonnablement préservée, mais lorsque vous calculez le risque de réidentification non seulement d'un individu dans l'ensemble de données, mais par combinaison pour tous ceux facilement disponibles dans la situation géographique à proximité.

Cela vaut la peine de lire le résumé en entier :

« Bien que les données anonymes ne soient pas considérées comme des données personnelles, des recherches récentes ont montré que les individus peuvent souvent être réidentifiés. Les chercheurs ont fait valoir que les résultats antérieurs s’appliquent uniquement aux ensembles de données à petite échelle et que la confidentialité est préservée dans les ensembles de données à grande échelle. En utilisant 3 mois de données de localisation , nous (1) montrons que le risque de réidentification diminue lentement avec la taille de l'ensemble de données, (2) approchons cette diminution avec un modèle simple prenant en compte trois distributions marginales à l'échelle de la population, et (3) prouvons cette unicité est convexe et obtient une borne inférieure linéaire. Nos estimations montrent que 93 % des personnes seraient identifiées de manière unique dans un ensemble de données de 60 millions de personnes à l'aide de quatre points d'informations auxiliaires, avec une limite inférieure à 22 %. Cette borne inférieure passe à 87 % lorsque cinq points sont disponibles. Pris ensemble, nos résultats montrent à quel point il est très peu probable que la vie privée des individus soit préservée, même dans des ensembles de données de localisation à l’échelle nationale.

C’est l’or que les pirates extraient habituellement dans les domaines de la santé, de la finance et des dossiers gouvernementaux. Ils ont besoin de quatre points de données auxiliaires en or et peuvent trouver l'individu.

Il ne s’agit pas de trouver une aiguille dans une botte de foin.
Il s'agit de trouver une aiguille spécifique dans une pile d'aiguilles.
Tout ce dont j'ai besoin, c'est de trois mois de données de localisation sur cette aiguille, et bingo , je l'ai.

L’unicité des ensembles de données constitue un énorme angle mort pour la plupart des organisations.

Cela devrait constituer un problème majeur de conformité, mais il s’agit là aussi d’un angle mort.

C'est un risque majeur pour la sécurité, jusqu'à ce que nous apprenions à l'observer.

Je viens de suivre la formation IAPP AI Governance . Il s'agit de la nouvelle norme pour comprendre la réglementation mondiale relative aux problèmes de confidentialité liés à l'intelligence artificielle qui vient d'être établie en avril 2024. J'ai une formation technique, je voulais utiliser cette formation pour entrer dans l'esprit de tous les avocats, régulateurs et responsables de la conformité. avec qui j'interagis souvent. Je suis super content de la façon dont il résume le paysage réglementaire actuel, et j'aime que la certification nécessite de mettre à jour sa formation sur le sujet chaque année : dans ce paysage réglementaire, les choses bougent vite.

J'aimerais me concentrer un instant sur ce que je souhaite que les professionnels de la gouvernance de l'IA comprennent.

J'aurais aimé que nous ayons couvert les avancées techniques en matière de technologies d'amélioration de la confidentialité que vous auriez besoin de prendre en compte si vous disposez d'un ensemble de données présentant un risque élevé d'unicité. J'aurais aimé que nous ayons couvert toutes les mesures quantitatives connues pour réduire le risque d'unicité dans des ensembles de données petits ou grands. J’aurais aimé que nous ayons couvert l’unicité, point final.

J'aurais aimé que nous ayons expliqué en quoi l'utilisation des technologies d'amélioration de la confidentialité (PET) est unique : jusqu'aux primitives du noyau Linux, cette technologie a été spécialement conçue pour protéger la vie privée. Les PET peuvent atténuer simultanément les risques de conformité et de sécurité pour les ensembles de données à haut risque.

Les risques de sécurité sont souvent examinés sous la forme d’une modélisation des menaces. Il s'agit du calcul spéculatif de la multiplication de trois facteurs : le type de menace (acteur interne, vulnérabilité de la chaîne d'approvisionnement), l'ampleur de l'impact (pour les parties prenantes, les utilisateurs finaux, la réputation de l'entreprise) et la probabilité.

RISQUE = MENACE x IMPACT x PROBABILITÉ.

Concentrons-nous sur la probabilité : j'ai tendance à calculer cela comme la valeur connue/perçue de l'actif, et même à proposer une étiquette de prix sur la propriété intellectuelle comme les algorithmes. C'est important. Vous devez évaluer votre adresse IP algorithmique comme s'il s'agissait de votre produit, car, en particulier dans le domaine de l'IA, c'est absolument votre produit.

Cela concentre également clairement votre attention sur votre modèle de menace. Si votre entreprise crée spécifiquement une propriété intellectuelle autour d’algorithmes génératifs, les méthodes de sécurité traditionnelles ne fonctionneront pas.

Laissez-moi vous expliquer pourquoi :

Nous maîtrisons désormais très bien le chiffrement des données.
Il est malheureusement littéralement impossible de calculer des données chiffrées.

Si votre entreprise s'appuie sur l'informatique (et c'est probablement le cas si vous avez lu jusqu'ici), alors vous êtes responsable de prendre des décisions concernant les menaces de sécurité motivées par la confidentialité, sur votre zone. La confidentialité est le seul aspect de la technologie où la conformité peut en fait être entièrement alignée sur la sécurité.

Revenons à ces données chiffrées embêtantes : il existe plusieurs bonnes raisons pour lesquelles elles peuvent être chiffrées. Mon cas d’utilisation réel préféré du PET Confidential Computing est la lutte contre la traite mondiale des êtres humains.

Il y a toujours eu de bonnes personnes dans le monde, luttant pour les droits et libertés des victimes de ce problème répandu à l’échelle mondiale. Traditionnellement, les techniques OSINT seraient utilisées pour identifier l'emplacement des bases de données contenant des informations, souvent un corpus d'informations photographiques ou vidéographiques, selon lesquelles légalement, vous n'étiez PAS autorisé à stocker et à détenir ces preuves, car l'objectif est de limiter toute possibilité d'accès à ces enregistrements. avoir toujours un nouveau vecteur de distribution.

Cela a créé un problème, car les prédateurs pouvaient facilement déplacer des informations en ligne, centralisant et décentralisant leur architecture selon leurs besoins. Ceux qui luttaient contre le problème n’avaient pas la même flexibilité.

Une réglementation raisonnable, des effets secondaires regrettables.

Désormais, l'informatique confidentielle nous offre un combat équitable dans l' échange de données privées Hope for Justice : une démonstration de la manière de centraliser ces enregistrements à risque extrêmement élevé dans un environnement d'exécution de confiance, en protégeant les données utilisées en effectuant des calculs dans un environnement matériel certifié. Environnement d'exécution fiable : où ces données ne seront observées que par des algorithmes, et non par des yeux humains.

Et ça va mieux. Parce que nous sommes si doués en matière de chiffrement, celui-ci pourrait désormais faire partie d’un vaste écosystème de données fédéré. Les organisations du monde entier sont en mesure de rassembler leurs dossiers et d'utiliser la magie de quatre mesures auxiliaires en or pour obtenir des informations potentiellement identifiables individuellement, non seulement sur les individus, mais aussi sur les lieux et potentiellement les schémas de mouvement. Un combat loyal, où la confidentialité est préservée par un environnement d’exécution isolé : seuls les yeux algorithmiques reverront ces images.

L'unicité n'est pas un grand mal.

Unicity un outil, un très bon outil. Unicity remplace votre angle mort par un calcul. Jetez un œil aux premières tentatives de votre propre organisation en matière d'évaluation de la conformité de l'IA : gestion des risques, gouvernance des données et pratiques de cybersécurité. Pensez au-delà de la réglementation actuelle et au risque total que votre système peut réellement représenter pour les utilisateurs finaux, et commencez à modéliser les menaces pour un monde dense en données. Mettons les choses au point.

J'ai tellement appris au cours des journées où nous avons passé des journées à couvrir tous les cadres de la réglementation de l'IA. Sur la base du cadre de réglementation fourni dans la formation AIGP, voici ma recommandation actuelle sur la façon de gérer cela dans toute organisation de moyenne à grande taille.

Donner la priorité aux cadres actuels pour la gouvernance de l’IA

Un cadre de gouvernance de l’IA enrichi

Gestion globale des risques (NIST AI RMF)

Processus structuré de gestion des risques :
- Identifier les risques : effectuer des évaluations approfondies des risques pour identifier les risques potentiels liés à l'IA.
- Évaluer les risques : évaluer la gravité et la probabilité des risques identifiés.
- Gérer les risques : Mettre en œuvre des stratégies pour atténuer les risques identifiés.
- Surveiller et mettre à jour : surveillez en permanence les systèmes d'IA pour détecter les nouveaux risques et mettez à jour les stratégies de gestion des risques en conséquence.

Développement éthique de l’IA (Principes de l’OCDE sur l’IA)

Considérations éthiques :
- Conception centrée sur l’humain : assurez-vous que les systèmes d’IA donnent la priorité à l’apport humain et répondent aux besoins et aux expériences humains.
- Transparence et explicabilité : fournissez des informations claires et compréhensibles sur la manière dont les systèmes d'IA prennent des décisions.
- Responsabilité : Établir une responsabilité claire pour les actions et les résultats des systèmes d'IA.

Conformité réglementaire (RGPD, EU AI Act)

Protection des données et confidentialité :
- Conformité RGPD : mettre en œuvre des mesures pour protéger les données personnelles, notamment la minimisation et l'anonymisation des données.
- EU AI Act : classer les systèmes d'IA par risque et garantir le respect des exigences spécifiques pour les systèmes d'IA à haut risque.
- Évaluations d'impact sur les données : mener des évaluations d'impact sur la protection des données (DPIA) et des évaluations de conformité de l'IA pour évaluer les risques liés à la vie privée.

Considérations techniques

Technologies améliorant la confidentialité (PET) :
- Confidentialité différentielle : mettez en œuvre la confidentialité différentielle pour garantir la confidentialité des données lors de l'analyse des modèles de groupe.
- Apprentissage fédéré : utilisez l'apprentissage fédéré pour former des modèles d'IA sur des données décentralisées sans partager de points de données individuels.
- Cryptage homomorphe : utilisez le cryptage homomorphe pour effectuer des calculs sur des données cryptées.
Risques d’unicité et de réidentification :
- Mesurer l'unicité : mesurer quantitativement le risque de ré-identification dans les ensembles de données pour garantir la confidentialité.
- Surveiller et réduire l'unicité : surveillez en permanence l'unicité des ensembles de données et mettez en œuvre des stratégies pour la réduire.

Essayez de mesurer l'impact au fil du temps sur votre mise en œuvre

Établir un organe central de gouvernance : créer une équipe dédiée responsable de la gouvernance de l'IA, garantissant la conformité au RGPD, à la loi de l'UE sur l'IA, au NIST AI RMF et aux principes de l'OCDE en matière d'IA.
Développer des politiques et des procédures intégrées : créer des politiques qui intègrent les principes des quatre cadres réglementaires, en se concentrant sur la protection des données, la gestion des risques, la transparence et la responsabilité.
Tirer parti de la technologie pour la conformité : utilisez des technologies avancées, telles que les technologies d’amélioration de la confidentialité (PET) et les outils de surveillance de l’IA, pour soutenir les efforts de conformité et de gestion des risques.
Restez informé des changements réglementaires et des avancées en matière de gouvernance de l’IA, en vous assurant que le cadre de gouvernance évolue avec les nouveaux développements. Gardez une ligne d'horizon réglementaire, mais commencez à penser à ce problème différemment pendant que vous le pouvez encore. Considérez toutes les façons dont nous pouvons réellement effectuer un calcul responsable.

Si nous voulons identifier des individus, sécurisons ces surfaces.

Si nous ne souhaitons pas identifier des individus, mettez en œuvre un moyen de surveiller le risque continu de réidentification dans les sorties de votre système.

Des niveaux d’unicité inférieurs dans les ensembles de données publics et violés seraient formidables pour nous tous. Il s'agit d'une pratique d'hygiène des données que votre équipe peut mettre en œuvre, qui peut mesurer quantitativement le risque d'utilisation convergente des données par un adversaire motivé par la confidentialité. Nous pouvons et devons absolument relever la barre en matière de protection des données personnelles contre la réidentification. Nous ne pouvons commencer à le faire que si nous le mesurons à l’aide de nos propres données. Si vous êtes sérieux au sujet des technologies améliorant la confidentialité et de l'évolution de la réglementation informatique, envoyez-moi une question intéressante à ce sujet . Si vos systèmes utilisent nécessairement des données à haut risque lors de la formation, vous pourriez également vous soucier de Désapprendre en IA , ou Menaces de sécurité pour les LLM à fort impact .