601 lecturas

Navegando por la privacidad en la era de la gran informática

por Sal Kimmich9m2024/05/30

Demasiado Largo; Para Leer

Los datos que incluyen información de identificación personal requieren el más alto nivel de seguridad. El significado de privacidad ha cambiado para siempre, ya que la gran informática ha hecho que la reidentificación a partir de combinaciones de conjuntos de datos totalmente "anonimizados" pueda utilizarse para identificar a las personas. Necesitamos cambiar nuestra forma de pensar si queremos preservar la privacidad en línea.

featured image - Navegando por la privacidad en la era de la gran informática

Mira, lo entiendo cumplimiento NO es seguridad .

Pero la privacidad interactúa con la seguridad de una manera realmente única: los datos que incluyen información de identificación personal requieren el más alto nivel de seguridad. El significado de privacidad ha cambiado para siempre, ya que la gran informática significa que la reidentificación a partir de combinaciones de conjuntos de datos totalmente "anonimizados" se puede utilizar para identificar personas fácilmente.

Necesitamos cambiar nuestra forma de pensar si queremos preservar la privacidad en línea.

Computación, específicamente computación grande: desbloquea patrones en datos de alta dimensión utilizando vectores de información dispersos para volverse densos en patrones personalmente identificables. Unicity mide cuantitativamente la capacidad de medir cuantitativamente cuántos individuos, o grupos de características similares.

Unicity se utiliza a menudo en el idioma inglés como encarnación de bondad y apertura.

La unicidad en matemáticas se define como la unicidad de un objeto matemático, lo que generalmente significa que hay un solo objeto que cumple determinadas propiedades, o que todos los objetos de una clase determinada son equivalentes .

Unicity Distance en criptografía no es el foco de atención hoy, pero puede ayudar a dilucidar la idea: nos dice cuánto texto cifrado se requiere para que la clave de cifrado pueda recuperarse de forma única, asumiendo que el atacante conoce el algoritmo de cifrado y tiene acceso a él. tanto el texto cifrado como algunas estadísticas sobre el texto plano. Básicamente, te permite calcular el tamaño que debe tener el pajar para encontrar una aguja, antes de comenzar a cavar.

Esta idea de medir la unicidad en grandes conjuntos de datos se hizo famosa por primera vez gracias a un estudio que encontró que más del 90% de las personas podrían ser reidentificadas de manera única en un conjunto de datos del Premio Netflix, ya que "demuestran que un adversario que sabe sólo un poco sobre un suscriptor individual puede identificar fácilmente el registro de este suscriptor en el conjunto de datos. Utilizando Internet Movie Database como fuente de conocimiento previo, identificamos con éxito los registros de Netflix de usuarios conocidos, descubriendo sus aparentes preferencias políticas y otra información potencialmente confidencial”.

Robusta anonimización de grandes conjuntos de datos dispersos

En 2021, volví a recordar que “ El riesgo de reidentificación sigue siendo alto incluso en conjuntos de datos de ubicación a escala nacional .” Esto vino de mi propia institución, los Institutos Nacionales de Salud.

Había estado realizando estudios de procesamiento de señales en el cerebro humano, para ver si podíamos cambiar las redes cerebrales sin ser conscientes. Spoilers: es totalmente posible . Puede parecer que esos datos podrían ser datos individuales bastante sensibles y altamente identificables, pero hay conjuntos de datos mucho más peligrosos que eso. Como su uso conocido de Neflix.

La investigación médica financiada por el gobierno de los EE. UU. requiere que esos conjuntos de datos estén disponibles abiertamente para el público cuando la privacidad pueda preservarse razonablemente, pero cuando se calcula el riesgo de reidentificación no solo de un individuo dentro del conjunto de datos, sino de una combinación de cualquiera que esté fácilmente disponible en la ubicación geográfica cercana.

Vale la pena leer el resumen completo:

“Aunque los datos anónimos no se consideran datos personales, investigaciones recientes han demostrado que a menudo es posible volver a identificar a las personas. Los académicos han argumentado que los hallazgos anteriores se aplican sólo a conjuntos de datos de pequeña escala y que la privacidad se preserva en conjuntos de datos de gran escala. Utilizando 3 meses de datos de ubicación , (1) mostramos que el riesgo de reidentificación disminuye lentamente con el tamaño del conjunto de datos, (2) aproximamos esta disminución con un modelo simple que toma en cuenta tres distribuciones marginales de toda la población, y (3) probamos esa unicidad es convexa y obtenemos un límite inferior lineal. Nuestras estimaciones muestran que el 93 % de las personas se identificarían de forma única en un conjunto de datos de 60 millones de personas utilizando cuatro puntos de información auxiliar, con un límite inferior del 22 %. Este límite inferior aumenta al 87% cuando hay cinco puntos disponibles. En conjunto, nuestros resultados muestran que es muy poco probable que se preserve la privacidad de las personas incluso en conjuntos de datos de ubicación a escala nacional”.

Este es el oro que los piratas informáticos suelen extraer de los registros sanitarios, financieros y gubernamentales. Necesitan cuatro puntos de datos auxiliares dorados y pueden encontrar al individuo.

Esto no es encontrar una aguja en un pajar.
Es encontrar una aguja específica entre un montón de agujas.
Todo lo que necesito son tres meses de datos de ubicación de esa aguja, y bingo , lo tengo.

La unicidad en los conjuntos de datos es un gran punto ciego para la mayoría de las organizaciones.

Debería ser un problema importante de cumplimiento, pero también es un punto ciego.

Es un riesgo importante para la seguridad, hasta que aprendamos a observarlo.

Acabo de realizar la capacitación en gobernanza de IA de IAPP . Es el nuevo estándar para comprender la regulación global en torno a las preocupaciones de privacidad para la Inteligencia Artificial recién establecido en abril de 2024. Tengo experiencia técnica, quería usar esa capacitación para entrar en las mentes de todos los abogados, reguladores y funcionarios de cumplimiento. con el que interactúo a menudo. Estoy muy satisfecho con la forma en que resume el panorama regulatorio actual y me gusta que la certificación requiera actualizar su capacitación sobre el tema cada año: en este panorama regulatorio, las cosas avanzan rápido.

Me gustaría centrarme por un momento en lo que deseo que comprendan los profesionales de la gobernanza de la IA.

Ojalá hubiéramos cubierto los avances técnicos en tecnologías de mejora de la privacidad que necesitaría considerar si tiene un conjunto de datos con alto riesgo de unicidad. Ojalá hubiéramos cubierto alguna medida cuantitativa conocida para reducir el riesgo de unicidad en conjuntos de datos pequeños o grandes. Ojalá hubiéramos cubierto la unicidad, punto.

Ojalá hubiéramos explicado por qué el uso de tecnologías de mejora de la privacidad (PET) es único: desde los primitivos del kernel de Linux, esa tecnología ha sido diseñada específicamente teniendo en cuenta la protección de la privacidad. Los PET pueden mitigar los riesgos de cumplimiento y seguridad para conjuntos de datos de alto riesgo, todo al mismo tiempo.

Los riesgos de seguridad a menudo se revisan en forma de modelos de amenazas. Es el cálculo especulativo de la multiplicación de tres factores: el tipo de amenaza (actor interno, vulnerabilidad de la cadena de suministro), la magnitud del impacto (para las partes interesadas, los usuarios finales, la reputación empresarial) y la probabilidad.

RIESGO = AMENAZA x IMPACTO x PROBABILIDAD.

Centrémonos en la probabilidad: tiendo a calcular eso como el valor del activo conocido/percibido, e incluso pongo un precio propuesto a la propiedad intelectual como los algoritmos. Esto es importante. Debe evaluar su IP algorítmica como si fuera su producto, porque particularmente en IA, es absolutamente su producto.

Esto también centra su atención claramente en su modelo de amenaza. Si su empresa crea específicamente propiedad intelectual en torno a algoritmos generativos, los métodos tradicionales de seguridad no funcionarán.

Déjame explicarte por qué:

Ahora somos muy buenos cifrando datos.
Desafortunadamente, es literalmente imposible calcular datos cifrados.

Si su empresa depende de la informática (y probablemente así sea si ha leído hasta aquí), entonces usted es responsable de tomar decisiones sobre las amenazas a la seguridad motivadas por la privacidad en su área de superficie. La privacidad es la única parte de la tecnología donde el cumplimiento puede estar totalmente alineado con la seguridad.

Volviendo a esos molestos datos cifrados: hay algunas buenas razones por las que podrían estar cifrados. Mi caso de uso real favorito de PET Confidential Computing es la lucha contra la trata global de personas.

Siempre ha habido gente buena en el mundo que lucha por los derechos y libertades de las víctimas de este problema distribuido globalmente. Tradicionalmente, las técnicas OSINT se utilizarían para identificar las ubicaciones de bases de datos con información, a menudo un corpus de información fotográfica o videográfica, que legalmente NO estaba permitido almacenar ni conservar esa evidencia, porque el objetivo es limitar cualquier capacidad de esos registros. tener alguna vez un nuevo vector de distribución.

Esto creó un problema, ya que los depredadores podían mover fácilmente información en línea, centralizando y descentralizando su arquitectura según fuera necesario. Quienes luchaban contra el problema no tenían la misma flexibilidad.

Regulación razonable, efectos secundarios desafortunados.

Ahora, Confidential Computing nos ofrece una pelea justa en Hope for Justice Private Data Exchange : una demostración de cómo centralizar esos registros de riesgo extremadamente alto en un entorno de ejecución confiable, protegiendo los datos en uso mediante la realización de cálculos en un hardware certificado y basado en hardware. Entorno de ejecución confiable: donde estos datos solo serán observados por algoritmos, no por ojos humanos.

Y se pone mejor. Como somos tan buenos con el cifrado, esto ahora podría convertirse en parte de un gran ecosistema de datos federado. Organizaciones de todo el mundo pueden reunir sus registros y utilizar la magia de sólo cuatro medidas auxiliares de oro para obtener información potencialmente identificable individualmente no sólo sobre los individuos, sino también sobre las ubicaciones y posibles patrones de movimiento. Una lucha justa, donde la privacidad se preserva mediante un entorno de ejecución aislado: sólo los ojos algorítmicos volverán a ver esas imágenes.

La unicidad no es un gran mal.

Unicity es una herramienta, una herramienta realmente buena. Unicity reemplaza su punto ciego con un cálculo. Eche un vistazo a los primeros intentos de su propia organización en materia de evaluación de la conformidad de la IA: gestión de riesgos, gobernanza de datos y prácticas de ciberseguridad. Piense más allá de la regulación actual y del riesgo total que su sistema puede representar para los usuarios finales, y comience a modelar amenazas para un mundo denso en datos. Hagamos esto bien.

Aprendí mucho en los días que pasamos cubriendo todos los marcos de la regulación de la IA. Basado en el Marco de Regulación proporcionado en la capacitación de AIGP, aquí está mi recomendación actual sobre cómo manejar esto en cualquier organización de tamaño mediano a grande.

Priorizar los marcos actuales para la gobernanza de la IA

Un marco de gobernanza de IA enriquecido

Gestión Integral de Riesgos (NIST AI RMF)

Proceso estructurado de gestión de riesgos:
- Identificar riesgos : realice evaluaciones de riesgos exhaustivas para identificar posibles riesgos relacionados con la IA.
- Evaluar riesgos : evaluar la gravedad y probabilidad de los riesgos identificados.
- Gestionar Riesgos : Implementar estrategias para mitigar los riesgos identificados.
- Monitorear y actualizar : monitorear continuamente los sistemas de IA para detectar nuevos riesgos y actualizar las estrategias de gestión de riesgos en consecuencia.

Desarrollo ético de la IA (Principios de la OCDE sobre la IA)

Consideraciones éticas :
- Diseño centrado en las personas : garantizar que los sistemas de IA prioricen la aportación humana y aborden las necesidades y experiencias humanas.
- Transparencia y explicabilidad : proporcione información clara y comprensible sobre cómo los sistemas de IA toman decisiones.
- Responsabilidad : Establecer una responsabilidad clara por las acciones y resultados de los sistemas de IA.

Cumplimiento normativo (GDPR, Ley de IA de la UE)

Protección de datos y privacidad :
- Cumplimiento del RGPD : implementar medidas para proteger los datos personales, incluida la minimización y el anonimato de los datos.
- Ley de IA de la UE : clasificar los sistemas de IA por riesgo y garantizar el cumplimiento de requisitos específicos para los sistemas de IA de alto riesgo.
- Evaluaciones de impacto de datos : realice evaluaciones de impacto de protección de datos (DPIA) y evaluaciones de conformidad de IA para evaluar los riesgos de privacidad.

Consideraciones técnicas

Tecnologías que mejoran la privacidad (PET) :
- Privacidad diferencial : implemente privacidad diferencial para garantizar la privacidad de los datos mientras analiza los patrones del grupo.
- Aprendizaje federado : utilice el aprendizaje federado para entrenar modelos de IA con datos descentralizados sin compartir puntos de datos individuales.
- Cifrado homomórfico : emplee cifrado homomórfico para realizar cálculos sobre datos cifrados.
Riesgos de unicidad y reidentificación :
- Medir la unicidad : medir cuantitativamente el riesgo de reidentificación en conjuntos de datos para garantizar la privacidad.
- Monitorear y reducir la unicidad : monitorear continuamente la unicidad de los conjuntos de datos e implementar estrategias para reducirla.

Intente medir el impacto a lo largo del tiempo en su implementación

Establecer un organismo de gobernanza central: crear un equipo dedicado responsable de la gobernanza de la IA, garantizando el cumplimiento del RGPD, la Ley de IA de la UE, el RMF de IA del NIST y los principios de IA de la OCDE.
Desarrollar políticas y procedimientos integrados: crear políticas que integren los principios de los cuatro marcos regulatorios, centrándose en la protección de datos, la gestión de riesgos, la transparencia y la rendición de cuentas.
Aproveche la tecnología para el cumplimiento: utilice tecnologías avanzadas, como tecnologías de mejora de la privacidad (PET) y herramientas de monitoreo de inteligencia artificial, para respaldar los esfuerzos de cumplimiento y gestión de riesgos.
Manténgase actualizado sobre los cambios regulatorios y los avances en la gobernanza de la IA, garantizando que el marco de gobernanza evolucione con los nuevos desarrollos. Mantener una línea de horizonte regulatorio, pero Empiece a pensar en este problema de manera diferente mientras pueda. Considere todas las formas en que realmente podemos realizar cálculos responsables.

Si queremos identificar individuos, hagamos que esas superficies sean seguras.

Si no queremos identificar personas, implemente una forma de monitorear el riesgo continuo de reidentificación en las salidas de su sistema.

Unos niveles más bajos de unicidad en los conjuntos de datos públicos y vulnerados serían fantásticos para todos nosotros. Es una práctica de higiene de datos que su equipo puede realizar, que puede realizarse con una medida cuantitativa del riesgo de uso convergente de datos por parte de un adversario motivado por la privacidad. Definitivamente podemos y debemos elevar el nivel de protección de los datos personales frente a la reidentificación. Sólo podemos empezar a hacerlo si lo medimos con nuestros propios datos. Si se toma en serio las tecnologías que mejoran la privacidad y las mareas cambiantes de la regulación en informática, envíeme una pregunta interesante al respecto . Si sus sistemas necesariamente interactúan con datos de alto riesgo durante el entrenamiento, es posible que también le interese Desaprender en IA o amenazas a la seguridad para los LLM de alto impacto .