paint-brush
빅 컴퓨팅 시대의 개인 정보 보호 탐색~에 의해@salkimmich
580 판독값
580 판독값

빅 컴퓨팅 시대의 개인 정보 보호 탐색

~에 의해 Sal Kimmich9m2024/05/30
Read on Terminal Reader

너무 오래; 읽다

개인 식별 정보가 포함된 데이터에는 최고 수준의 보안이 필요합니다. 개인정보 보호의 의미는 완전히 "익명화된" 데이터 세트의 조합을 통해 개인을 식별하는 데 사용할 수 있는 대규모 컴퓨팅을 통해 재식별이 가능해지면서 영원히 바뀌었습니다. 온라인에서 개인정보를 보호하려면 사고방식을 바꿔야 합니다.
featured image - 빅 컴퓨팅 시대의 개인 정보 보호 탐색
Sal Kimmich HackerNoon profile picture
0-item

봐, 나도 이해해 규정 준수는 보안이 아닙니다 .

그러나 개인 정보 보호는 매우 독특한 방식으로 보안과 상호 작용합니다. 개인 식별 정보가 포함된 데이터에는 최고 수준의 보안이 필요합니다. 개인 정보 보호의 의미는 영원히 바뀌었습니다. 대규모 컴퓨팅은 완전히 "익명화된" 데이터 세트의 조합을 통해 재식별을 사용하여 개인을 쉽게 식별할 수 있음을 의미합니다.

온라인에서 개인정보를 보호하려면 사고방식을 바꿔야 합니다.

컴퓨팅, 특히 빅 컴퓨팅 - 개인 식별이 가능한 패턴으로 밀도가 높아지도록 희소 정보 벡터를 사용하여 고차원 데이터의 패턴을 잠금 해제합니다. 유사한 특성을 지닌 개인이나 집단이 얼마나 많은지를 정량적으로 측정하는 능력을 유니시티 가 정량적으로 측정합니다.


Unicity는 영어에서 친절함과 개방성을 구현하는 의미로 자주 사용됩니다.


수학에서 단일성은 수학적 개체의 고유성을 나타내는 것으로 정의됩니다. 이는 일반적으로 주어진 속성을 충족하는 개체가 하나만 있거나 주어진 클래스의 모든 개체가 동일하다는 것을 의미합니다 .


암호화의 Unicity Distance는 오늘날의 초점은 아니지만 아이디어를 명료하게 하는 데 도움이 될 수 있습니다. 이는 공격자가 암호화 알고리즘을 알고 있고 이에 대한 액세스 권한이 있다는 가정 하에 암호화 키를 고유하게 복구할 수 있도록 얼마나 많은 암호문이 필요한지 알려줍니다. 암호문과 일반 텍스트에 대한 일부 통계. 기본적으로, 땅을 파기 전에 바늘을 찾기 위해 건초 더미가 얼마나 커야 하는지 계산할 수 있습니다.


대규모 데이터 세트에서 단일성을 측정한다는 아이디어는 Netflix Prize 데이터 세트에서 90% 이상의 사람들이 고유하게 재식별될 수 있다는 연구를 통해 처음 유명해졌습니다. 개별 구독자는 데이터 세트에서 이 구독자의 기록을 쉽게 식별할 수 있습니다. 인터넷 영화 데이터베이스를 배경 지식의 소스로 사용하여 우리는 알려진 사용자의 Netflix 기록을 성공적으로 식별하고 그들의 명백한 정치적 선호와 기타 잠재적으로 민감한 정보를 찾아냈습니다."

대규모 희소 데이터 세트의 강력한 익명화 해제


2021년, 나는 “라는 사실을 다시 한번 떠올렸다. 국가 규모의 위치 데이터세트에서도 재식별 위험이 여전히 높습니다. .” 이것은 제가 소속된 국립보건원(National Institutes of Health)에서 나온 것입니다.


나는 인간의 뇌에 대한 신호 처리 연구를 하면서 의식적인 자각 없이도 뇌 네트워크를 바꿀 수 있는지 알아보고 있었습니다. 스포일러: 당신은 완전히 할 수 있습니다 . 해당 데이터는 매우 민감하고 식별 가능성이 높은 개인 데이터처럼 보일 수 있지만, 그보다 훨씬 더 위험한 데이터 세트가 있습니다. 알려진 Neflix 사용법과 같습니다.


미국 정부가 자금을 지원하는 의학 연구에서는 개인 정보가 합리적으로 보존될 수 있을 때 해당 데이터 세트가 대중에게 공개적으로 제공되어야 하지만 데이터 세트 내의 개인뿐만 아니라 다음과 같은 조합을 통해 재식별 위험을 계산할 때 필요합니다. 가까운 지리적 위치에서 쉽게 사용할 수 있는 것.


전체 요약을 읽어볼 가치가 있습니다.

“익명의 데이터는 개인 데이터로 간주되지 않지만, 최근 연구에 따르면 개인이 어떻게 재식별될 수 있는지 보여줍니다. 학자들은 이전 연구 결과가 소규모 데이터세트에만 적용되며 대규모 데이터세트에서는 개인정보가 보호된다고 주장해 왔습니다. 3개월 간의 위치 데이터를 사용하여 (1) 데이터 세트 크기에 따라 재식별 위험이 천천히 감소한다는 것을 보여주고, (2) 세 가지 인구 전체의 한계 분포를 고려한 간단한 모델을 사용하여 이 감소를 대략적으로 보여주고, (3) 증명합니다. 그 유니시티는 볼록하고 선형 하한을 얻습니다. 우리의 추정에 따르면 4가지 보조 정보 포인트를 사용하여 6천만 명의 데이터 세트에서 93%의 사람들이 고유하게 식별되며 하한은 22%입니다. 이 하한은 5개의 포인트를 사용할 수 있는 경우 87%로 증가합니다. 종합해보면, 우리의 결과는 국가 규모의 위치 데이터세트에서도 개인의 프라이버시가 어떻게 보존될 가능성이 거의 없는지를 보여줍니다.”


이는 해커들이 일반적으로 의료, 금융, 정부 기록에서 채굴하는 금입니다. 4개의 황금 보조 데이터 포인트가 필요하며 개인을 찾을 수 있습니다.


이것은 건초더미에서 바늘을 찾는 것이 아닙니다.

바늘더미에서 특정한 바늘을 찾는 것입니다.

나에게 필요한 것은 그 바늘에 대한 3개월 간의 위치 데이터와 빙고 뿐입니다.


데이터 세트의 Unicity는 대부분의 조직에서 엄청난 맹점입니다.


이는 주요 규정 준수 문제여야 하지만 거기에서도 맹점이 있습니다.


우리가 관찰하는 방법을 배우기 전까지는 이는 주요 보안 위험입니다.


방금 IAPP AI 거버넌스 교육을 받았습니다. 이는 2024년 4월에 막 확립된 인공 지능의 개인 정보 보호 문제에 대한 글로벌 규제를 이해하기 위한 새로운 표준입니다. 저는 기술적인 배경을 갖고 있으며 해당 교육을 사용하여 모든 변호사, 규제 기관 및 규정 준수 담당자의 마음 속으로 들어가고 싶었습니다. 내가 자주 교류하는 것. 저는 이것이 현재 규제 환경을 어떻게 요약하는지 매우 기쁘게 생각하며 인증을 위해서는 매년 해당 주제에 대한 교육을 업데이트해야 한다는 점이 마음에 듭니다. 이러한 규제 환경에서는 모든 것이 빠르게 움직입니다.

저는 AI 거버넌스 전문가들이 이해했으면 하는 내용에 잠시 집중하고 싶습니다.

단일성 위험이 높은 데이터 세트가 있는 경우 고려해야 할 개인 정보 보호 강화 기술의 기술적 발전을 다루었으면 좋았을 것입니다. 작거나 큰 데이터 세트의 단일성 위험을 줄이기 위해 알려진 정량적 측정을 모두 다루었으면 좋았을 것입니다. 통일성을 다루었으면 좋았을 텐데요.


개인정보 보호 강화 기술(PET) 의 사용이 어떻게 고유한지 다루었으면 좋았을 것입니다. 즉, Linux 커널의 기본 요소에 이르기까지 해당 기술은 개인정보 보호를 염두에 두고 특별히 설계되었습니다. PET는 고위험 데이터 세트에 대한 규정 준수 및 보안 위험을 동시에 완화할 수 있습니다.


보안 위험은 위협 모델링의 형태로 검토되는 경우가 많습니다. 이는 위협 유형(내부 행위자, 공급망 취약성), 영향 규모(이해관계자, 최종 사용자, 비즈니스 평판에 대한) 및 가능성이라는 세 가지 요소를 곱한 추측에 의한 계산입니다.

위험 = 위협 x 영향 x 가능성.

가능성에 초점을 맞춰 보겠습니다. 저는 이를 알려진/인식된 자산 가치로 계산하고 심지어 알고리즘과 같은 지적 재산에 제안된 가격표를 붙이는 경향이 있습니다. 이건 중요하다. 특히 AI에서는 알고리즘 IP가 귀하의 제품인 것처럼 평가해야 합니다.


이는 또한 위협 모델에 명확하게 주의를 집중시킵니다. 귀하의 비즈니스가 생성 알고리즘을 중심으로 지적 재산을 특별히 생성하는 경우 전통적인 보안 방법은 작동하지 않습니다.


이유를 설명하겠습니다.


우리는 이제 데이터 암호화에 능숙합니다.

안타깝게도 암호화된 데이터를 계산하는 것은 말 그대로 불가능합니다.


귀하의 비즈니스가 컴퓨팅에 의존하는 경우(여기까지 읽으셨다면 아마도 그럴 것입니다), 귀하는 표면 영역에 대한 개인 정보 보호 보안 위협에 대한 결정을 내릴 책임이 있습니다. 개인 정보 보호는 규정 준수가 실제로 보안과 완전히 일치할 수 있는 기술의 한 부분입니다.


성가신 암호화된 데이터로 돌아가서, 데이터가 암호화되는 데에는 몇 가지 좋은 이유가 있습니다. 제가 가장 좋아하는 PET 기밀 컴퓨팅의 실제 사용 사례는 글로벌 인신매매와의 싸움입니다.


세상에는 항상 전 세계적으로 확산된 문제의 희생자들의 권리와 자유를 위해 싸우는 선한 사람들이 있었습니다. 전통적으로 OSINT 기술은 정보(종종 사진 또는 비디오 그래픽 정보 모음)로 데이터베이스의 위치를 식별하는 데 사용되었습니다. 이러한 정보는 해당 기록에 대한 능력을 제한하는 것이 목표이기 때문에 법적으로 해당 증거를 저장하고 보유하는 것이 허용되지 않았습니다. 새로운 분포 벡터를 가지게 됩니다.


포식자가 정보를 온라인으로 쉽게 이동하고 필요에 따라 아키텍처를 중앙 집중화 및 분산화할 수 있기 때문에 이로 인해 문제가 발생했습니다. 문제와 싸우는 사람들은 유연성이 부족했습니다.


합리적인 규제, 불행한 부수효과.


이제 기밀 컴퓨팅은 Hope for Justice Private Data Exchange 에서 공정한 싸움을 벌이고 있습니다. 이는 매우 위험도가 높은 기록을 신뢰할 수 있는 실행 환경으로 중앙 집중화하고 하드웨어 기반의 증명된 환경에서 계산을 수행하여 사용 중인 데이터를 보호하는 방법을 보여줍니다. 신뢰할 수 있는 실행 환경: 이 데이터는 인간의 눈이 아닌 알고리즘에 의해서만 관찰됩니다.


그리고 그것은 좋아집니다. 우리는 암호화에 능숙하기 때문에 이제 이는 대규모 연합 데이터 생태계의 일부가 될 수 있습니다. 전 세계의 조직은 기록을 종합하고 단 4가지 황금 보조 조치의 마법을 사용하여 개인뿐만 아니라 위치 및 잠재적인 이동 패턴에 대해 잠재적으로 개인 식별이 가능한 정보를 얻을 수 있습니다. 격리된 실행 환경을 통해 개인정보가 보호되는 공정한 싸움입니다. 알고리즘을 사용하는 눈만이 해당 이미지를 다시 볼 수 있습니다.

유니시티는 대단한 악이 아닙니다.

유니시티는 정말 좋은 도구입니다. Unicity는 여러분의 사각지대를 계산으로 대체합니다. 위험 관리, 데이터 거버넌스, 사이버 보안 관행 등 AI 적합성 평가에 대한 조직의 첫 번째 시도를 살펴보세요. 현재 규정을 넘어서 시스템이 최종 사용자에게 실제로 나타낼 수 있는 전체 위험을 생각하고 데이터 밀도가 높은 세계에 대한 위협 모델링을 시작하십시오. 이것을 바로 잡자.


저는 AI 규제의 모든 프레임워크를 다루면서 며칠을 보내면서 많은 것을 배웠습니다. AIGP 교육에서 제공되는 규제 프레임워크를 기반으로 중대형 조직에서 이를 처리하는 방법에 대한 현재 권장 사항은 다음과 같습니다.

AI 거버넌스를 위한 현재 프레임워크의 우선순위 지정

강화된 AI 거버넌스 프레임워크

종합적인 위험 관리(NIST AI RMF)

  1. 구조화된 위험 관리 프로세스:
    • 위험 식별 : 철저한 위험 평가를 수행하여 잠재적인 AI 관련 위험을 식별합니다.
    • 위험 평가 : 식별된 위험의 심각도와 가능성을 평가합니다.
    • 위험 관리 : 식별된 위험을 완화하기 위한 전략을 구현합니다.
    • 모니터링 및 업데이트 : 새로운 위험이 있는지 AI 시스템을 지속적으로 모니터링하고 이에 따라 위험 관리 전략을 업데이트합니다.

윤리적 AI 개발(OECD AI 원칙)

  1. 윤리적 고려사항 :
    • 인간 중심 설계 : AI 시스템이 인간의 입력을 우선시하고 인간의 요구와 경험을 해결하도록 보장합니다.
    • 투명성 및 설명 가능성 : AI 시스템이 의사 결정을 내리는 방법에 대한 명확하고 이해하기 쉬운 정보를 제공합니다.
    • 책임성 : AI 시스템의 행동과 결과에 대한 명확한 책임성을 확립합니다.

규정 준수(GDPR, EU AI법)

  1. 데이터 보호 및 개인정보 보호 :
    • GDPR 규정 준수 : 데이터 최소화 및 익명화를 포함하여 개인 데이터를 보호하기 위한 조치를 구현합니다.
    • EU AI법 : AI 시스템을 위험별로 분류하고 고위험 AI 시스템에 대한 특정 요구 사항을 준수하도록 보장합니다.
    • 데이터 영향 평가 : DPIA(데이터 보호 영향 평가) 및 AI 적합성 평가를 수행하여 개인 정보 보호 위험을 평가합니다.

기술적 고려사항

  1. 개인정보 보호 강화 기술(PET) :
    • 차등 개인 정보 보호 : 그룹 패턴을 분석하는 동안 데이터 개인 정보 보호를 보장하기 위해 차등 개인 정보 보호를 구현합니다.
    • 연합 학습 : 연합 학습을 사용하여 개별 데이터 포인트를 공유하지 않고 분산 데이터에서 AI 모델을 훈련합니다.
    • 동형암호화 : 동형암호를 사용하여 암호화된 데이터에 대한 계산을 수행합니다.
  2. Unicity 및 재식별 위험 :
    • 유니시티 측정(Measure Unicity) : 개인 정보 보호를 보장하기 위해 데이터 세트의 재식별 위험을 정량적으로 측정합니다.
    • 단일성 모니터링 및 감소 : 데이터 세트의 단일성을 지속적으로 모니터링하고 이를 줄이기 위한 전략을 구현합니다.

구현에 대한 시간 경과에 따른 영향을 측정해 보십시오.

  1. 중앙 거버넌스 기관 설립: AI 거버넌스를 담당하는 전담 팀을 만들어 GDPR, EU AI 법, NIST AI RMF 및 OECD AI 원칙 준수를 보장합니다.
  2. 통합 정책 및 절차 개발: 데이터 보호, 위험 관리, 투명성 및 책임에 중점을 두고 4가지 규제 프레임워크의 원칙을 모두 통합하는 정책을 만듭니다.
  3. 규정 준수를 위한 기술 활용: 개인 정보 보호 강화 기술(PET) 및 AI 모니터링 도구와 같은 고급 기술을 사용하여 규정 준수 및 위험 관리 노력을 지원합니다.
  4. AI 거버넌스의 규제 변경 및 발전에 대한 최신 정보를 받아 거버넌스 프레임워크가 새로운 개발로 발전하도록 하세요. 규제 범위를 유지하되, 아직 할 수 있을 때 이 문제를 다르게 생각하기 시작하십시오. 실제로 책임 있는 컴퓨팅을 수행할 수 있는 모든 방법을 고려하십시오.


개인을 식별하려면 해당 표면 영역을 안전하게 보호합시다.


개인 식별을 원하지 않는 경우 시스템 출력에서 지속적인 재식별 위험을 모니터링하는 방법을 구현하십시오.



공개 및 침해된 데이터 세트의 단일성 수준이 낮아지면 우리 모두에게 좋습니다. 이는 개인 정보 보호를 목적으로 하는 공격자가 수렴하는 데이터를 사용할 위험을 정량적으로 측정하여 팀에서 수행할 수 있는 데이터 위생 관행입니다. 우리는 개인 데이터를 재식별하지 않도록 보호하는 기준을 절대적으로 높일 수 있고, 높여야 합니다. 우리는 우리 자신의 데이터로 이를 측정해야만 그 일을 시작할 수 있습니다. 개인 정보 보호 강화 기술과 컴퓨팅 규제의 변화에 대해 진지하게 생각하고 계시다면 이에 대한 흥미로운 질문을 저에게 보내주십시오 . 시스템이 훈련 시 반드시 고위험 데이터를 사용하는 경우 다음 사항에 관심을 가질 수도 있습니다. AI에서의 언러닝 또는 영향력이 큰 LLM에 대한 보안 위협 .