608 leituras

Navegando pela privacidade na era da grande computação

por Sal Kimmich9m2024/05/30

Muito longo; Para ler

Os dados que incluem informações de identificação pessoal exigem o mais alto padrão de segurança. O significado de privacidade mudou para sempre, à medida que a grande computação fez com que a reidentificação a partir de combinações de conjuntos de dados totalmente “anonimizados” pudesse ser usada para identificar indivíduos. Precisamos mudar nossa mentalidade se quisermos preservar a privacidade online.

featured image - Navegando pela privacidade na era da grande computação

Olha, eu entendo isso conformidade NÃO é segurança .

Mas a privacidade interage com a segurança de uma forma realmente única: os dados que incluem informações de identificação pessoal requerem o mais alto padrão de segurança. O significado de privacidade mudou para sempre, à medida que a grande computação significa que a reidentificação a partir de combinações de conjuntos de dados totalmente “anonimizados” pode ser usada para identificar indivíduos facilmente.

Precisamos mudar nossa mentalidade se quisermos preservar a privacidade online.

Computação, especificamente computação grande - desbloqueia padrões em dados de alta dimensão usando vetores de informação esparsos para se tornarem densos em padrões pessoalmente identificáveis. A capacidade de medir quantitativamente quantos indivíduos, ou grupos de características semelhantes, é medida quantitativamente pela Unicity .

Unicidade é frequentemente usada na língua inglesa como bondade e abertura incorporadas.

A unicidade em matemática é definida como a afirmação da singularidade de um objeto matemático, o que geralmente significa que existe apenas um objeto que cumpre determinadas propriedades ou que todos os objetos de uma determinada classe são equivalentes .

A Unicity Distance em criptografia não é o foco de hoje, mas pode ajudar a elucidar a ideia: ela nos diz quanto texto cifrado é necessário para que a chave de criptografia possa ser recuperada de forma única, assumindo que o invasor conhece o algoritmo de criptografia e tem acesso a ele. tanto o texto cifrado quanto algumas estatísticas sobre o texto simples. Basicamente, ele permite calcular o tamanho que o palheiro precisa ter para encontrar uma agulha, antes de começar a cavar.

Essa ideia de medir a unicidade em grandes conjuntos de dados ficou famosa pela primeira vez por um estudo que descobriu que mais de 90% das pessoas poderiam ser reidentificadas de maneira única em um conjunto de dados do Prêmio Netflix, pois “demonstram que um adversário que sabe apenas um pouco sobre um assinante individual pode identificar facilmente o registro desse assinante no conjunto de dados. Usando o banco de dados de filmes da Internet como fonte de conhecimento prévio, identificamos com sucesso os registros de usuários conhecidos da Netflix, revelando suas aparentes preferências políticas e outras informações potencialmente confidenciais.”

Desanonimização robusta de grandes conjuntos de dados esparsos

Em 2021, fui lembrado novamente que “ O risco de reidentificação permanece elevado mesmo em conjuntos de dados de localização à escala nacional .” Isto veio da minha própria instituição, o National Institutes of Health.

Eu estava fazendo estudos de processamento de sinais no cérebro humano, para ver se poderíamos mudar as redes cerebrais sem consciência. Spoilers: você pode totalmente . Esses dados podem parecer dados individuais bastante sensíveis e altamente identificáveis - mas existem conjuntos de dados muito mais perigosos do que isso. Como o seu uso conhecido do Netflix.

A investigação médica financiada pelo governo dos EUA exige que esses conjuntos de dados estejam abertamente disponíveis ao público quando a privacidade puder ser razoavelmente preservada, mas quando se calcula o risco de reidentificação não apenas de um indivíduo dentro do conjunto de dados, mas por combinação para quaisquer facilmente disponíveis na localização geográfica próxima.

Vale a pena ler o resumo completo:

“Embora os dados anónimos não sejam considerados dados pessoais, pesquisas recentes mostraram como os indivíduos podem muitas vezes ser reidentificados. Os estudiosos argumentaram que as descobertas anteriores se aplicam apenas a conjuntos de dados de pequena escala e que a privacidade é preservada em conjuntos de dados de grande escala. Usando dados de localização de 3 meses , (1) mostramos que o risco de reidentificação diminuir lentamente com o tamanho do conjunto de dados, (2) aproximamos essa diminuição com um modelo simples levando em consideração três distribuições marginais em toda a população e (3) provamos que a unicidade é convexa e obtém um limite inferior linear. As nossas estimativas mostram que 93% das pessoas seriam identificadas de forma única num conjunto de dados de 60 milhões de pessoas utilizando quatro pontos de informação auxiliar, com um limite inferior de 22%. Este limite inferior aumenta para 87% quando cinco pontos estão disponíveis. Tomados em conjunto, os nossos resultados mostram como é muito pouco provável que a privacidade dos indivíduos seja preservada, mesmo em conjuntos de dados de localização à escala nacional.”

Este é o ouro que os hackers geralmente buscam em registros governamentais, de saúde e financeiros. Eles precisam de quatro pontos de dados auxiliares dourados e podem encontrar o indivíduo.

Isto não é encontrar uma agulha num palheiro.
É encontrar uma agulha específica em uma pilha de agulhas.
Tudo que preciso são três meses de dados de localização sobre aquela agulha e, bingo , entendi.

A unicidade nos conjuntos de dados é um enorme ponto cego para a maioria das organizações.

Deveria ser um grande problema de conformidade, mas também é um ponto cego.

É um grande risco de segurança, até aprendermos a observá-lo.

Acabei de fazer o Treinamento em Governança de IA da IAPP . É o novo padrão para entender a regulamentação global em torno de questões de privacidade para Inteligência Artificial, recém-criado em abril de 2024. Tenho formação técnica, queria usar esse treinamento para entrar na mente de todos os advogados, reguladores e responsáveis pela conformidade com quem interajo frequentemente. Estou muito satisfeito com a forma como ela resume o cenário regulatório atual e gosto que a certificação exija a atualização anual do seu treinamento no assunto: nesse cenário regulatório, as coisas andam rápido.

Gostaria de me concentrar por um momento no que desejo que os profissionais de governança de IA entendam.

Eu gostaria que tivéssemos abordado os avanços técnicos em tecnologias de aprimoramento de privacidade que você precisaria considerar se tiver um conjunto de dados com alto risco de unicidade. Eu gostaria que tivéssemos coberto quaisquer medidas quantitativas conhecidas para reduzir o risco de unicidade em conjuntos de dados pequenos ou grandes. Eu gostaria que tivéssemos coberto a unicidade, ponto final.

Eu gostaria que tivéssemos abordado como o uso de Tecnologias de Melhoramento de Privacidade (PETs) é único: desde os primórdios do Kernel Linux, essa tecnologia foi projetada especificamente com a proteção da privacidade em mente. Os PETs podem mitigar os riscos de conformidade e de segurança para conjuntos de dados de alto risco, tudo de uma só vez.

Os riscos de segurança são frequentemente analisados na forma de modelagem de ameaças. É o cálculo especulativo da multiplicação de três fatores: o tipo de ameaça (ator interno, vulnerabilidade da cadeia de abastecimento), a magnitude do impacto (para as partes interessadas, para os utilizadores finais, para a reputação empresarial) e a probabilidade.

RISCO = AMEAÇA x IMPACTO x PROBABILIDADE.

Vamos nos concentrar na probabilidade: tendo a calcular isso como o valor do ativo conhecido/percebido, e até mesmo colocar um preço proposto na propriedade intelectual, como algoritmos. Isso é importante. Você deve avaliar seu IP algorítmico como se fosse seu produto, porque particularmente em IA, ele é absolutamente seu produto.

Isso também concentra claramente sua atenção em seu modelo de ameaça. Se a sua empresa cria especificamente propriedade intelectual em torno de algoritmos generativos, os métodos tradicionais de segurança não funcionarão.

Deixe-me explicar por quê:

Somos realmente bons em criptografar dados agora.
Infelizmente, é literalmente impossível computar dados criptografados.

Se sua empresa depende de computação (e provavelmente depende se você leu até aqui), então você é responsável por tomar decisões sobre as ameaças à segurança motivadas pela privacidade em sua área de superfície. A privacidade é a única parte da tecnologia onde a conformidade pode realmente estar totalmente alinhada com a segurança.

Voltando aos incômodos dados criptografados: há alguns bons motivos pelos quais eles podem ser criptografados. Meu caso de uso real favorito para PET Confidential Computing é na luta contra o tráfico humano global.

Sempre existiram pessoas boas no mundo, lutando pelos direitos e liberdades das vítimas deste problema distribuído globalmente. Tradicionalmente, as técnicas OSINT seriam usadas para identificar a localização de bancos de dados com informações, muitas vezes um corpus de informações fotográficas ou videográficas, que legalmente NÃO era permitido armazenar e manter essas evidências, porque o objetivo é limitar qualquer capacidade desses registros. ter um novo vetor de distribuição.

Isto criou um problema, pois os predadores podiam facilmente movimentar informações online, centralizando e descentralizando a sua arquitetura conforme necessário. Aqueles que lutavam contra o problema não tinham a mesma flexibilidade.

Regulamentação razoável, efeitos secundários infelizes.

Agora, a Computação Confidencial nos dá uma luta justa no Hope for Justice Private Data Exchange : uma demonstração de como centralizar esses registros de risco extremamente alto em um Ambiente de Execução Confiável, protegendo os dados em uso executando a computação em um ambiente atestado e baseado em hardware. Ambiente de execução confiável: onde esses dados só serão observados por algoritmos, não por olhos humanos.

E fica melhor. Como somos muito bons em criptografia, isso poderá agora se tornar parte de um grande ecossistema de dados federados. Organizações em todo o mundo são capazes de reunir os seus registos e utilizar a magia de apenas quatro medidas auxiliares de ouro para obter informações potencialmente identificáveis individualmente não apenas sobre os indivíduos, mas também sobre os locais e potenciais padrões de movimento. Uma luta justa, onde a privacidade é preservada por um ambiente de execução isolado: apenas olhos algorítmicos poderão ver essas imagens novamente.

A unicidade não é um grande mal.

Unicity uma ferramenta, uma ferramenta muito boa. Unicity substitui seu ponto cego por um cálculo. Dê uma olhada nas primeiras tentativas de avaliação de conformidade de IA da sua própria organização: gerenciamento de riscos, governança de dados e práticas de segurança cibernética. Pense além da regulamentação atual e do risco total que seu sistema pode realmente representar para os usuários finais e comece a modelar ameaças para um mundo denso de dados. Vamos acertar isso.

Aprendi muito nos dias em que passamos dias cobrindo todas as estruturas da regulamentação de IA. Com base no Quadro de Regulamentação fornecido no treinamento AIGP, aqui está minha recomendação atual sobre como lidar com isso em qualquer organização de médio a grande porte.

Priorizando as Estruturas Atuais para Governança de IA

Uma estrutura de governança de IA enriquecida

Gerenciamento Abrangente de Riscos (NIST AI RMF)

Processo Estruturado de Gestão de Riscos:
- Identificar riscos : realize avaliações de risco completas para identificar possíveis riscos relacionados à IA.
- Avaliar riscos : Avalie a gravidade e a probabilidade dos riscos identificados.
- Gerenciar Riscos : Implementar estratégias para mitigar os riscos identificados.
- Monitorar e atualizar : monitore continuamente os sistemas de IA em busca de novos riscos e atualize as estratégias de gerenciamento de riscos de acordo.

Desenvolvimento Ético de IA (Princípios de IA da OCDE)

Considerações éticas :
- Design Centrado no Ser Humano : Garantir que os sistemas de IA priorizem a contribuição humana e atendam às necessidades e experiências humanas.
- Transparência e explicabilidade : Fornece informações claras e compreensíveis sobre como os sistemas de IA tomam decisões.
- Responsabilidade : Estabelecer uma responsabilidade clara pelas ações e resultados dos sistemas de IA.

Conformidade Regulatória (GDPR, Lei de IA da UE)

Proteção de dados e privacidade :
- Conformidade com o GDPR : Implementar medidas para proteger dados pessoais, incluindo minimização e anonimato de dados.
- Lei de IA da UE : Classifique os sistemas de IA por risco e garanta a conformidade com requisitos específicos para sistemas de IA de alto risco.
- Avaliações de impacto de dados : conduza avaliações de impacto de proteção de dados (DPIAs) e avaliações de conformidade de IA para avaliar riscos de privacidade.

Considerações Técnicas

Tecnologias que melhoram a privacidade (PETs) :
- Privacidade Diferencial : Implemente privacidade diferencial para garantir a privacidade dos dados ao analisar padrões de grupo.
- Aprendizagem Federada : Use a aprendizagem federada para treinar modelos de IA em dados descentralizados sem compartilhar pontos de dados individuais.
- Criptografia Homomórfica : Empregue criptografia homomórfica para realizar cálculos em dados criptografados.
Riscos de unicidade e reidentificação :
- Medir a unicidade : medir quantitativamente o risco de reidentificação em conjuntos de dados para garantir a privacidade.
- Monitore e reduza a unicidade : monitore continuamente a unicidade dos conjuntos de dados e implemente estratégias para reduzi-la.

Tente medir o impacto da sua implementação ao longo do tempo

Estabelecer um órgão de governança central: criar uma equipe dedicada responsável pela governança de IA, garantindo a conformidade com o GDPR, a Lei de IA da UE, o NIST AI RMF e os Princípios de IA da OCDE.
Desenvolver Políticas e Procedimentos Integrados: Criar políticas que integrem os princípios de todos os quatro quadros regulamentares, com foco na proteção de dados, gestão de riscos, transparência e responsabilização.
Aproveite a tecnologia para conformidade: use tecnologias avançadas, como tecnologias de aprimoramento de privacidade (PETs) e ferramentas de monitoramento de IA, para apoiar os esforços de conformidade e gerenciamento de riscos.
Mantenha-se atualizado sobre as mudanças regulatórias e os avanços na governança da IA, garantindo que a estrutura de governança evolua com os novos desenvolvimentos. Manter um horizonte regulamentar, mas comece a pensar neste problema de maneira diferente enquanto ainda pode. Considere todas as maneiras pelas quais podemos realmente fazer uma computação responsável.

Se quisermos identificar indivíduos, vamos tornar essas áreas de superfície seguras.

Se não quisermos identificar indivíduos, implemente uma forma de monitorar o risco contínuo de reidentificação nas saídas do seu sistema.

Níveis mais baixos de unicidade em conjuntos de dados públicos e violados seriam ótimos para todos nós. É uma prática de higiene de dados que sua equipe pode realizar, com medidas quantitativas do risco de uso convergente de dados por um adversário motivado pela privacidade. É absolutamente possível e devemos elevar o nível de proteção dos dados pessoais contra a reidentificação. Só podemos começar a fazer isso se medirmos com nossos próprios dados. Se você leva a sério as tecnologias de aprimoramento da privacidade e as mudanças na regulamentação da computação, envie-me uma pergunta interessante sobre isso . Se seus sistemas necessariamente se envolvem com dados de alto risco no treinamento, você também pode se preocupar com Desaprendendo em IA , ou Ameaças à Segurança para LLMs de Alto Impacto .