601 測定値

ビッグコンピューティング時代のプライバシーのあり方

に Sal Kimmich9m2024/05/30

長すぎる; 読むには

個人を特定できる情報を含むデータには、最高水準のセキュリティが必要です。ビッグコンピューティングによって、完全に「匿名化された」データセットの組み合わせからの再識別が個人の特定に使用できるようになったため、プライバシーの意味は永久に変わりました。オンラインでプライバシーを保護するには、考え方を変える必要があります。

featured image - ビッグコンピューティング時代のプライバシーのあり方

わかりますよコンプライアンスはセキュリティではない。

しかし、プライバシーはセキュリティと非常に独特な方法で相互作用します。個人を特定できる情報を含むデータには、最高水準のセキュリティが必要です。ビッグコンピューティングによって、完全に「匿名化された」データセットの組み合わせからの再識別を使用して個人を簡単に特定できるようになったため、プライバシーの意味は永久に変わりました。

オンラインでプライバシーを保護するには、考え方を変える必要があります。

コンピューティング、特にビッグコンピューティングでは、スパースな情報ベクトルを使用して高次元データのパターンをロック解除し、個人を識別できるパターンを密にします。個人または類似の特性を持つグループの数を定量的に測定する能力は、 Unicityによって定量的に測定されます。

英語では、Unicity は親切さと開放性を体現したものとしてよく使われます。

数学における一意性は、数学的オブジェクトの一意性を述べることとして定義され、通常、特定のプロパティを満たすオブジェクトが 1 つだけであること、または特定のクラスのすべてのオブジェクトが同等であることを意味します。

暗号学における単一性距離は、今日の焦点ではありませんが、この考え方を解明するのに役立つかもしれません。つまり、攻撃者が暗号化アルゴリズムを知っていて、暗号文と平文に関する統計情報の両方にアクセスできると仮定すると、暗号キーを一意に復元するために必要な暗号文の量を示します。基本的に、干し草の山を掘る前に、針を見つけるために必要な干し草の山の大きさを計算できます。

大規模なデータセットで単一性を測定するというこのアイデアは、Netflix Prize データセットで 90% 以上の人物を一意に再識別できるという研究によって初めて有名になりました。「個々の加入者についてほんの少ししか知らない敵対者でも、データセット内のこの加入者の記録を簡単に特定できることが実証されています。インターネット映画データベースを背景知識のソースとして使用することで、既知のユーザーの Netflix 記録を特定し、彼らの政治的嗜好やその他の潜在的に機密性の高い情報を明らかにすることに成功しました。」

大規模スパースデータセットの堅牢な匿名化

2021年、私は改めて「国規模の位置情報データセットでも再識別のリスクは高いままであるこれは私の所属機関である国立衛生研究所から出たものです。

私は人間の脳の信号処理研究を行っていて、意識せずに脳のネットワークを変更できるかどうかを調べていました。ネタバレ:絶対に可能です。そのデータは非常に機密性が高く、個人を特定しやすいデータのように見えるかもしれませんが、それよりもはるかに危険なデータセットがあります。たとえば、あなたの既知の Netflix の使用状況などです。

米国政府が資金を提供する医療研究では、プライバシーが合理的に保護される限り、それらのデータセットを一般に公開する必要がありますが、データセット内の個人だけでなく、近隣の地理的な場所で容易に入手できる個人との組み合わせによって個人が再識別されるリスクを計算する必要があります。

要約全体を読む価値があります:

「匿名データは個人データとは見なされませんが、最近の研究では、個人が再識別されることが多いことが示されています。学者たちは、これまでの研究結果は小規模なデータセットにのみ適用され、大規模なデータセットではプライバシーが保護されると主張しています。3か月分の位置データを使用して、（1）再識別のリスクがデータセットのサイズとともに徐々に減少することを示し、（2）人口全体の3つの周辺分布を考慮した単純なモデルでこの減少を近似し、（3）単一性が凸であることを証明し、線形の下限を得ました。推定によると、4つの補助情報ポイントを使用して6000万人のデータセットで93％の人が一意に識別され、下限は22％です。この下限は、5つのポイントが利用できる場合は87％に増加します。総合すると、私たちの結果は、個人のプライバシーが国規模の位置データセットであっても保護される可能性が非常に低いことを示しています。」

これは、ハッカーが医療、金融、政府の記録から通常掘り出す金塊です。ハッカーは 4 つの黄金の補助データポイントを必要とし、それがあれば個人を見つけることができます。

これは干し草の山から針を探すようなものではありません。
針の山の中から特定の針を見つけることです。
必要なのは、その針に関する 3 か月分の位置データだけです。これで、すべて手に入りました。

データセットの単一性は、ほとんどの組織にとって大きな盲点です。

これは重大なコンプライアンス問題であるはずですが、そこにも盲点があります。

私たちがそれを観察することを学ぶまでは、それは大きなセキュリティリスクです。

私はIAPP AIガバナンストレーニングを受講しました。これは、2024年4月に制定されたばかりの、人工知能のプライバシー問題に関する世界的な規制を理解するための新しい基準です。私は技術的なバックグラウンドを持っているので、このトレーニングを利用して、頻繁にやり取りするすべての弁護士、規制当局、コンプライアンス担当者の考えを理解したいと考えました。このトレーニングが現在の規制環境を要約していることに非常に満足しています。また、認定には毎年このテーマに関するトレーニングの更新が義務付けられている点も気に入っています。この規制環境では、物事は急速に変化します。

AI ガバナンスの専門家に理解してもらいたい点について少し焦点を当てたいと思います。

単一性のリスクが高いデータセットがある場合に考慮する必要があるプライバシー強化テクノロジの技術的進歩について取り上げておけばよかったと思います。小規模または大規模なデータセットでの単一性のリスクを軽減するための既知の定量的測定について取り上げておけばよかったと思います。単一性について取り上げておけばよかったと思います。

プライバシー強化テクノロジー (PET)の使用がいかにユニークであるかをここで取り上げておけばよかったと思います。Linux カーネルのプリミティブに至るまで、このテクノロジーはプライバシー保護を念頭に置いて特別に設計されています。PET は、高リスクデータセットのコンプライアンスとセキュリティの両方のリスクを一度に軽減できます。

セキュリティリスクは、多くの場合、脅威モデリングの形で検討されます。これは、脅威の種類 (内部のアクター、サプライチェーンの脆弱性)、影響の規模 (利害関係者、エンドユーザー、企業の評判)、および可能性という 3 つの要素を掛け合わせて推測的に計算したものです。

リスク = 脅威 x 影響 x 可能性。

可能性に焦点を当てましょう。私は、それを既知/認識された資産価値として計算し、アルゴリズムなどの知的財産に提案価格を付ける傾向があります。これは重要です。アルゴリズム IP は、自分の製品であるかのように評価する必要があります。特に AI では、それは完全に自分の製品だからです。

これにより、脅威モデルへの注意も明確になります。ビジネスで特に生成アルゴリズムに関する知的財産を作成している場合、従来のセキュリティ方法は機能しません。

理由を説明しましょう:

私たちは現在、データの暗号化に非常に長けています。
残念ながら、暗号化されたデータを計算することは文字通り不可能です。

あなたのビジネスがコンピューティングに依存している場合 (ここまで読んでいるなら、おそらくそうでしょう)、あなたは、あなたのビジネス領域に対するプライバシーを動機とするセキュリティの脅威について決定を下す責任があります。プライバシーは、コンプライアンスが実際にセキュリティと完全に一致する可能性があるテクノロジーの唯一の部分です。

厄介な暗号化データに戻りますが、暗号化されるのにはいくつかの理由があります。PET Confidential Computing の実際の使用例として私が気に入っているのは、世界的な人身売買との戦いです。

この地球規模で広がる問題の被害者の権利と自由のために戦う善良な人々は、常に世界に存在してきました。従来、OSINT 技術は、多くの場合、写真やビデオ画像の情報の集合体である情報を含むデータベースの場所を特定するために使用されてきましたが、その目的は、それらの記録が新たな配布ベクトルを持つ可能性を制限することであるため、法的にその証拠を保存および保持することは許可されていませんでした。

これにより、捕食者がオンラインで情報を簡単に移動し、必要に応じてアーキテクチャを集中化または分散化できるため、問題が発生しました。問題と戦っている人たちには、同じ柔軟性がありませんでした。

合理的な規制、残念な副次的影響。

現在、Confidential Computing は、Hope for Justice プライベートデータ交換で公平な戦いを繰り広げています。これは、極めてリスクの高いレコードを Trusted Execution Environment に集中させ、ハードウェアベースの証明された Trusted Execution Environment で計算を実行することで使用中のデータを保護する方法のデモンストレーションです。このデータは、人間の目ではなく、アルゴリズムによってのみ監視されます。

さらに良いことに、私たちは暗号化に非常に長けているため、これは大規模な連合データエコシステムの一部になることができます。世界中の組織は、記録をまとめて、わずか 4 つの黄金の補助手段の魔法を使用して、個人だけでなく、場所や移動パターンに関する個人を特定できる可能性のある情報を取得できます。プライバシーは隔離された実行環境によって保護される公平な戦いです。アルゴリズムの目だけが、それらの画像を再び見ることができます。

ユニシティは大きな悪ではありません。

Unicity は、本当に優れたツールです。Unicity は、計算によって盲点を解消します。ご自身の組織における AI 適合性評価の最初の試み、つまりリスク管理、データガバナンス、サイバーセキュリティの実践について考えてみましょう。現在の規制を超えて、システムがエンドユーザーに実際に与える可能性のある全体的なリスクについて考え、データ密度の高い世界に対する脅威のモデリングを始めましょう。これを正しく理解しましょう。

AI 規制のあらゆるフレームワークを数日かけてカバーし、私は多くのことを学びました。AIGPトレーニングで提供された規制のフレームワークに基づいて、中規模から大規模の組織でこれを処理するための現在の推奨事項を以下に示します。

AIガバナンスの現在のフレームワークの優先順位付け

強化された AI ガバナンスフレームワーク

包括的リスク管理 (NIST AI RMF)

構造化されたリスク管理プロセス:
- リスクの特定: 徹底的なリスク評価を実施して、AI に関連する潜在的なリスクを特定します。
- リスクの評価: 特定されたリスクの重大度と可能性を評価します。
- リスク管理: 特定されたリスクを軽減するための戦略を実行します。
- 監視と更新: AI システムを継続的に監視して新たなリスクを検出し、それに応じてリスク管理戦略を更新します。

倫理的な AI 開発 (OECD AI 原則)

倫理的配慮：
- 人間中心の設計: AI システムが人間の入力を優先し、人間のニーズと経験に対応できるようにします。
- 透明性と説明可能性: AI システムがどのように意思決定を行うかについて、明確で理解しやすい情報を提供します。
- 説明責任: AI システムのアクションと結果に対する明確な説明責任を確立します。

規制コンプライアンス（GDPR、EU AI法）

データ保護とプライバシー:
- GDPR コンプライアンス: データの最小化や匿名化など、個人データを保護するための対策を実施します。
- EU AI 法: AI システムをリスク別に分類し、高リスク AI システムに対する特定の要件への準拠を確保します。
- データ影響評価: データ保護影響評価 (DPIA) と AI 適合性評価を実施して、プライバシーリスクを評価します。

技術的な考慮事項

プライバシー強化技術 (PET) :
- 差分プライバシー: グループパターンを分析しながらデータのプライバシーを確保するために差分プライバシーを実装します。
- フェデレーテッドラーニング: フェデレーテッドラーニングを使用して、個々のデータポイントを共有せずに分散データで AI モデルをトレーニングします。
- 準同型暗号化: 暗号化されたデータに対して計算を実行するために準同型暗号化を使用します。
単一性と再識別のリスク:
- 単一性の測定: プライバシーを確保するために、データセットの再識別のリスクを定量的に測定します。
- 単一性の監視と削減: データセットの単一性を継続的に監視し、それを削減するための戦略を実装します。

実装による影響を時間の経過とともに測定する

中央ガバナンス機関の設立: AI ガバナンスを担当する専任チームを作成し、GDPR、EU AI 法、NIST AI RMF、OECD AI 原則への準拠を確保します。
統合されたポリシーと手順を開発する:データ保護、リスク管理、透明性、説明責任に重点を置き、4 つの規制フレームワークすべての原則を統合したポリシーを作成します。
コンプライアンスのためのテクノロジーの活用:プライバシー強化テクノロジー (PET) や AI 監視ツールなどの高度なテクノロジーを使用して、コンプライアンスとリスク管理の取り組みをサポートします。
AIガバナンスの規制変更と進歩について最新情報を入手し、ガバナンスフレームワークが新しい開発に合わせて進化するようにしてください。規制の見通しは維持しつつ、まだできるうちに、この問題について別の視点から考え始めてください。責任あるコンピューティングを実際に実行できるすべての方法を検討してください。

個人を特定したいのであれば、それらの表面領域を安全にしましょう。

個人を特定したくない場合は、システムの出力における再識別の継続的なリスクを監視する方法を実装してください。

公開データセットや侵害されたデータセットの単一性レベルが低いことは、私たち全員にとって素晴らしいことです。これは、プライバシーを動機とする敵対者による集中的なデータ使用のリスクを定量的に測定できる、チームが実行できるデータ衛生の実践です。個人データの再識別から保護するための基準を引き上げることは絶対に可能であり、そうしなければなりません。それを開始できるのは、私たち自身のデータで測定した場合のみです。プライバシー強化テクノロジーとコンピューティングの規制の変化の潮流に真剣に取り組んでいる場合は、それに関する興味深い質問を送ってください。システムがトレーニングで高リスクデータを扱う必要がある場合は、次のことも気にするかもしれません。 AIにおけるアンラーニング、または影響力の大きい LLM に対するセキュリティの脅威。