Pero la privacidad interactúa con la seguridad de una manera realmente única: los datos que incluyen información de identificación personal requieren el más alto nivel de seguridad. El significado de privacidad ha cambiado para siempre, ya que la gran informática significa que la reidentificación a partir de combinaciones de conjuntos de datos totalmente "anonimizados" se puede utilizar para identificar personas fácilmente.
Computación, específicamente computación grande: desbloquea patrones en datos de alta dimensión utilizando vectores de información dispersos para volverse densos en patrones personalmente identificables. Unicity mide cuantitativamente la capacidad de medir cuantitativamente cuántos individuos, o grupos de características similares.
Unicity se utiliza a menudo en el idioma inglés como encarnación de bondad y apertura.
La unicidad en matemáticas se define como la unicidad de un objeto matemático, lo que generalmente significa que hay un solo objeto que cumple determinadas propiedades, o que todos los objetos de una clase determinada son equivalentes .
Unicity Distance en criptografía no es el foco de atención hoy, pero puede ayudar a dilucidar la idea: nos dice cuánto texto cifrado se requiere para que la clave de cifrado pueda recuperarse de forma única, asumiendo que el atacante conoce el algoritmo de cifrado y tiene acceso a él. tanto el texto cifrado como algunas estadísticas sobre el texto plano. Básicamente, te permite calcular el tamaño que debe tener el pajar para encontrar una aguja, antes de comenzar a cavar.
Esta idea de medir la unicidad en grandes conjuntos de datos se hizo famosa por primera vez gracias a un estudio que encontró que más del 90% de las personas podrían ser reidentificadas de manera única en un conjunto de datos del Premio Netflix, ya que "demuestran que un adversario que sabe sólo un poco sobre un suscriptor individual puede identificar fácilmente el registro de este suscriptor en el conjunto de datos. Utilizando Internet Movie Database como fuente de conocimiento previo, identificamos con éxito los registros de Netflix de usuarios conocidos, descubriendo sus aparentes preferencias políticas y otra información potencialmente confidencial”.
En 2021, volví a recordar que “
Había estado realizando estudios de procesamiento de señales en el cerebro humano, para ver si podíamos cambiar las redes cerebrales sin ser conscientes. Spoilers: es totalmente posible . Puede parecer que esos datos podrían ser datos individuales bastante sensibles y altamente identificables, pero hay conjuntos de datos mucho más peligrosos que eso. Como su uso conocido de Neflix.
La investigación médica financiada por el gobierno de los EE. UU. requiere que esos conjuntos de datos estén disponibles abiertamente para el público cuando la privacidad pueda preservarse razonablemente, pero cuando se calcula el riesgo de reidentificación no solo de un individuo dentro del conjunto de datos, sino de una combinación de cualquiera que esté fácilmente disponible en la ubicación geográfica cercana.
Vale la pena leer el resumen completo:
“Aunque los datos anónimos no se consideran datos personales, investigaciones recientes han demostrado que a menudo es posible volver a identificar a las personas. Los académicos han argumentado que los hallazgos anteriores se aplican sólo a conjuntos de datos de pequeña escala y que la privacidad se preserva en conjuntos de datos de gran escala. Utilizando 3 meses de datos de ubicación , (1) mostramos que el riesgo de reidentificación disminuye lentamente con el tamaño del conjunto de datos, (2) aproximamos esta disminución con un modelo simple que toma en cuenta tres distribuciones marginales de toda la población, y (3) probamos esa unicidad es convexa y obtenemos un límite inferior lineal. Nuestras estimaciones muestran que el 93 % de las personas se identificarían de forma única en un conjunto de datos de 60 millones de personas utilizando cuatro puntos de información auxiliar, con un límite inferior del 22 %. Este límite inferior aumenta al 87% cuando hay cinco puntos disponibles. En conjunto, nuestros resultados muestran que es muy poco probable que se preserve la privacidad de las personas incluso en conjuntos de datos de ubicación a escala nacional”.
Este es el oro que los piratas informáticos suelen extraer de los registros sanitarios, financieros y gubernamentales. Necesitan cuatro puntos de datos auxiliares dorados y pueden encontrar al individuo.
Esto no es encontrar una aguja en un pajar.
Es encontrar una aguja específica entre un montón de agujas.
Todo lo que necesito son tres meses de datos de ubicación de esa aguja, y bingo , lo tengo.
La unicidad en los conjuntos de datos es un gran punto ciego para la mayoría de las organizaciones.
Debería ser un problema importante de cumplimiento, pero también es un punto ciego.
Es un riesgo importante para la seguridad, hasta que aprendamos a observarlo.
Acabo de realizar la capacitación en gobernanza de IA de IAPP . Es el nuevo estándar para comprender la regulación global en torno a las preocupaciones de privacidad para la Inteligencia Artificial recién establecido en abril de 2024. Tengo experiencia técnica, quería usar esa capacitación para entrar en las mentes de todos los abogados, reguladores y funcionarios de cumplimiento. con el que interactúo a menudo. Estoy muy satisfecho con la forma en que resume el panorama regulatorio actual y me gusta que la certificación requiera actualizar su capacitación sobre el tema cada año: en este panorama regulatorio, las cosas avanzan rápido.
Ojalá hubiéramos cubierto los avances técnicos en tecnologías de mejora de la privacidad que necesitaría considerar si tiene un conjunto de datos con alto riesgo de unicidad. Ojalá hubiéramos cubierto alguna medida cuantitativa conocida para reducir el riesgo de unicidad en conjuntos de datos pequeños o grandes. Ojalá hubiéramos cubierto la unicidad, punto.
Ojalá hubiéramos explicado por qué el uso de tecnologías de mejora de la privacidad (PET) es único: desde los primitivos del kernel de Linux, esa tecnología ha sido diseñada específicamente teniendo en cuenta la protección de la privacidad. Los PET pueden mitigar los riesgos de cumplimiento y seguridad para conjuntos de datos de alto riesgo, todo al mismo tiempo.
Los riesgos de seguridad a menudo se revisan en forma de modelos de amenazas. Es el cálculo especulativo de la multiplicación de tres factores: el tipo de amenaza (actor interno, vulnerabilidad de la cadena de suministro), la magnitud del impacto (para las partes interesadas, los usuarios finales, la reputación empresarial) y la probabilidad.
Centrémonos en la probabilidad: tiendo a calcular eso como el valor del activo conocido/percibido, e incluso pongo un precio propuesto a la propiedad intelectual como los algoritmos. Esto es importante. Debe evaluar su IP algorítmica como si fuera su producto, porque particularmente en IA, es absolutamente su producto.
Esto también centra su atención claramente en su modelo de amenaza. Si su empresa crea específicamente propiedad intelectual en torno a algoritmos generativos, los métodos tradicionales de seguridad no funcionarán.
Déjame explicarte por qué:
Ahora somos muy buenos cifrando datos.
Desafortunadamente, es literalmente imposible calcular datos cifrados.
Si su empresa depende de la informática (y probablemente así sea si ha leído hasta aquí), entonces usted es responsable de tomar decisiones sobre las amenazas a la seguridad motivadas por la privacidad en su área de superficie. La privacidad es la única parte de la tecnología donde el cumplimiento puede estar totalmente alineado con la seguridad.
Volviendo a esos molestos datos cifrados: hay algunas buenas razones por las que podrían estar cifrados. Mi caso de uso real favorito de PET Confidential Computing es la lucha contra la trata global de personas.
Siempre ha habido gente buena en el mundo que lucha por los derechos y libertades de las víctimas de este problema distribuido globalmente. Tradicionalmente, las técnicas OSINT se utilizarían para identificar las ubicaciones de bases de datos con información, a menudo un corpus de información fotográfica o videográfica, que legalmente NO estaba permitido almacenar ni conservar esa evidencia, porque el objetivo es limitar cualquier capacidad de esos registros. tener alguna vez un nuevo vector de distribución.
Esto creó un problema, ya que los depredadores podían mover fácilmente información en línea, centralizando y descentralizando su arquitectura según fuera necesario. Quienes luchaban contra el problema no tenían la misma flexibilidad.
Regulación razonable, efectos secundarios desafortunados.
Ahora, Confidential Computing nos ofrece una pelea justa en Hope for Justice Private Data Exchange : una demostración de cómo centralizar esos registros de riesgo extremadamente alto en un entorno de ejecución confiable, protegiendo los datos en uso mediante la realización de cálculos en un hardware certificado y basado en hardware. Entorno de ejecución confiable: donde estos datos solo serán observados por algoritmos, no por ojos humanos.
Y se pone mejor. Como somos tan buenos con el cifrado, esto ahora podría convertirse en parte de un gran ecosistema de datos federado. Organizaciones de todo el mundo pueden reunir sus registros y utilizar la magia de sólo cuatro medidas auxiliares de oro para obtener información potencialmente identificable individualmente no sólo sobre los individuos, sino también sobre las ubicaciones y posibles patrones de movimiento. Una lucha justa, donde la privacidad se preserva mediante un entorno de ejecución aislado: sólo los ojos algorítmicos volverán a ver esas imágenes.
Unicity es una herramienta, una herramienta realmente buena. Unicity reemplaza su punto ciego con un cálculo. Eche un vistazo a los primeros intentos de su propia organización en materia de evaluación de la conformidad de la IA: gestión de riesgos, gobernanza de datos y prácticas de ciberseguridad. Piense más allá de la regulación actual y del riesgo total que su sistema puede representar para los usuarios finales, y comience a modelar amenazas para un mundo denso en datos. Hagamos esto bien.
Aprendí mucho en los días que pasamos cubriendo todos los marcos de la regulación de la IA. Basado en el Marco de Regulación proporcionado en la capacitación de AIGP, aquí está mi recomendación actual sobre cómo manejar esto en cualquier organización de tamaño mediano a grande.
Un marco de gobernanza de IA enriquecido
Si queremos identificar individuos, hagamos que esas superficies sean seguras.
Si no queremos identificar personas, implemente una forma de monitorear el riesgo continuo de reidentificación en las salidas de su sistema.
Unos niveles más bajos de unicidad en los conjuntos de datos públicos y vulnerados serían fantásticos para todos nosotros. Es una práctica de higiene de datos que su equipo puede realizar, que puede realizarse con una medida cuantitativa del riesgo de uso convergente de datos por parte de un adversario motivado por la privacidad. Definitivamente podemos y debemos elevar el nivel de protección de los datos personales frente a la reidentificación. Sólo podemos empezar a hacerlo si lo medimos con nuestros propios datos. Si se toma en serio las tecnologías que mejoran la privacidad y las mareas cambiantes de la regulación en informática, envíeme una pregunta interesante al respecto . Si sus sistemas necesariamente interactúan con datos de alto riesgo durante el entrenamiento, es posible que también le interese