しかし、プライバシーはセキュリティと非常に独特な方法で相互作用します。個人を特定できる情報を含むデータには、最高水準のセキュリティが必要です。ビッグコンピューティングによって、完全に「匿名化された」データセットの組み合わせからの再識別を使用して個人を簡単に特定できるようになったため、プライバシーの意味は永久に変わりました。
コンピューティング、特にビッグ コンピューティングでは、スパースな情報ベクトルを使用して高次元データのパターンをロック解除し、個人を識別できるパターンを密にします。個人または類似の特性を持つグループの数を定量的に測定する能力は、 Unicityによって定量的に測定されます。
英語では、Unicity は親切さと開放性を体現したものとしてよく使われます。
数学における一意性は、数学的オブジェクトの一意性を述べることとして定義され、通常、特定のプロパティを満たすオブジェクトが 1 つだけであること、または特定のクラスのすべてのオブジェクトが同等であることを意味します。
暗号学における単一性距離は、今日の焦点ではありませんが、この考え方を解明するのに役立つかもしれません。つまり、攻撃者が暗号化アルゴリズムを知っていて、暗号文と平文に関する統計情報の両方にアクセスできると仮定すると、暗号キーを一意に復元するために必要な暗号文の量を示します。基本的に、干し草の山を掘る前に、針を見つけるために必要な干し草の山の大きさを計算できます。
大規模なデータセットで単一性を測定するというこのアイデアは、Netflix Prize データセットで 90% 以上の人物を一意に再識別できるという研究によって初めて有名になりました。「個々の加入者についてほんの少ししか知らない敵対者でも、データセット内のこの加入者の記録を簡単に特定できることが実証されています。インターネット映画データベースを背景知識のソースとして使用することで、既知のユーザーの Netflix 記録を特定し、彼らの政治的嗜好やその他の潜在的に機密性の高い情報を明らかにすることに成功しました。」
2021年、私は改めて「
私は人間の脳の信号処理研究を行っていて、意識せずに脳のネットワークを変更できるかどうかを調べていました。ネタバレ:絶対に可能です。そのデータは非常に機密性が高く、個人を特定しやすいデータのように見えるかもしれませんが、それよりもはるかに危険なデータセットがあります。たとえば、あなたの既知の Netflix の使用状況などです。
米国政府が資金を提供する医療研究では、プライバシーが合理的に保護される限り、それらのデータセットを一般に公開する必要がありますが、データセット内の個人だけでなく、近隣の地理的な場所で容易に入手できる個人との組み合わせによって個人が再識別されるリスクを計算する必要があります。
要約全体を読む価値があります:
「匿名データは個人データとは見なされませんが、最近の研究では、個人が再識別されることが多いことが示されています。学者たちは、これまでの研究結果は小規模なデータセットにのみ適用され、大規模なデータセットではプライバシーが保護されると主張しています。3か月分の位置データを使用して、(1)再識別のリスクがデータセットのサイズとともに徐々に減少することを示し、(2)人口全体の3つの周辺分布を考慮した単純なモデルでこの減少を近似し、(3)単一性が凸であることを証明し、線形の下限を得ました。推定によると、4つの補助情報ポイントを使用して6000万人のデータセットで93%の人が一意に識別され、下限は22%です。この下限は、5つのポイントが利用できる場合は87%に増加します。総合すると、私たちの結果は、個人のプライバシーが国規模の位置データセットであっても保護される可能性が非常に低いことを示しています。」
これは、ハッカーが医療、金融、政府の記録から通常掘り出す金塊です。ハッカーは 4 つの黄金の補助データ ポイントを必要とし、それがあれば個人を見つけることができます。
これは干し草の山から針を探すようなものではありません。
針の山の中から特定の針を見つけることです。
必要なのは、その針に関する 3 か月分の位置データだけです。これで、すべて手に入りました。
データ セットの単一性は、ほとんどの組織にとって大きな盲点です。
これは重大なコンプライアンス問題であるはずですが、そこにも盲点があります。
私たちがそれを観察することを学ぶまでは、それは大きなセキュリティリスクです。
私はIAPP AIガバナンストレーニングを受講しました。これは、2024年4月に制定されたばかりの、人工知能のプライバシー問題に関する世界的な規制を理解するための新しい基準です。私は技術的なバックグラウンドを持っているので、このトレーニングを利用して、頻繁にやり取りするすべての弁護士、規制当局、コンプライアンス担当者の考えを理解したいと考えました。このトレーニングが現在の規制環境を要約していることに非常に満足しています。また、認定には毎年このテーマに関するトレーニングの更新が義務付けられている点も気に入っています。この規制環境では、物事は急速に変化します。
単一性のリスクが高いデータ セットがある場合に考慮する必要があるプライバシー強化テクノロジの技術的進歩について取り上げておけばよかったと思います。小規模または大規模なデータ セットでの単一性のリスクを軽減するための既知の定量的測定について取り上げておけばよかったと思います。単一性について取り上げておけばよかったと思います。
プライバシー強化テクノロジー (PET)の使用がいかにユニークであるかをここで取り上げておけばよかったと思います。Linux カーネルのプリミティブに至るまで、このテクノロジーはプライバシー保護を念頭に置いて特別に設計されています。PET は、高リスク データ セットのコンプライアンスとセキュリティの両方のリスクを一度に軽減できます。
セキュリティ リスクは、多くの場合、脅威モデリングの形で検討されます。これは、脅威の種類 (内部のアクター、サプライ チェーンの脆弱性)、影響の規模 (利害関係者、エンド ユーザー、企業の評判)、および可能性という 3 つの要素を掛け合わせて推測的に計算したものです。
可能性に焦点を当てましょう。私は、それを既知/認識された資産価値として計算し、アルゴリズムなどの知的財産に提案価格を付ける傾向があります。これは重要です。アルゴリズム IP は、自分の製品であるかのように評価する必要があります。特に AI では、それは完全に自分の製品だからです。
これにより、脅威モデルへの注意も明確になります。ビジネスで特に生成アルゴリズムに関する知的財産を作成している場合、従来のセキュリティ方法は機能しません。
理由を説明しましょう:
私たちは現在、データの暗号化に非常に長けています。
残念ながら、暗号化されたデータを計算することは文字通り不可能です。
あなたのビジネスがコンピューティングに依存している場合 (ここまで読んでいるなら、おそらくそうでしょう)、あなたは、あなたのビジネス領域に対するプライバシーを動機とするセキュリティの脅威について決定を下す責任があります。プライバシーは、コンプライアンスが実際にセキュリティと完全に一致する可能性があるテクノロジーの唯一の部分です。
厄介な暗号化データに戻りますが、暗号化されるのにはいくつかの理由があります。PET Confidential Computing の実際の使用例として私が気に入っているのは、世界的な人身売買との戦いです。
この地球規模で広がる問題の被害者の権利と自由のために戦う善良な人々は、常に世界に存在してきました。従来、OSINT 技術は、多くの場合、写真やビデオ画像の情報の集合体である情報を含むデータベースの場所を特定するために使用されてきましたが、その目的は、それらの記録が新たな配布ベクトルを持つ可能性を制限することであるため、法的にその証拠を保存および保持することは許可されていませんでした。
これにより、捕食者がオンラインで情報を簡単に移動し、必要に応じてアーキテクチャを集中化または分散化できるため、問題が発生しました。問題と戦っている人たちには、同じ柔軟性がありませんでした。
合理的な規制、残念な副次的影響。
現在、Confidential Computing は、Hope for Justice プライベート データ交換で公平な戦いを繰り広げています。これは、極めてリスクの高いレコードを Trusted Execution Environment に集中させ、ハードウェア ベースの証明された Trusted Execution Environment で計算を実行することで使用中のデータを保護する方法のデモンストレーションです。このデータは、人間の目ではなく、アルゴリズムによってのみ監視されます。
さらに良いことに、私たちは暗号化に非常に長けているため、これは大規模な連合データ エコシステムの一部になることができます。世界中の組織は、記録をまとめて、わずか 4 つの黄金の補助手段の魔法を使用して、個人だけでなく、場所や移動パターンに関する個人を特定できる可能性のある情報を取得できます。プライバシーは隔離された実行環境によって保護される公平な戦いです。アルゴリズムの目だけが、それらの画像を再び見ることができます。
Unicity は、本当に優れたツールです。Unicity は、計算によって盲点を解消します。ご自身の組織における AI 適合性評価の最初の試み、つまりリスク管理、データ ガバナンス、サイバー セキュリティの実践について考えてみましょう。現在の規制を超えて、システムがエンド ユーザーに実際に与える可能性のある全体的なリスクについて考え、データ密度の高い世界に対する脅威のモデリングを始めましょう。これを正しく理解しましょう。
AI 規制のあらゆるフレームワークを数日かけてカバーし、私は多くのことを学びました。AIGPトレーニングで提供された規制のフレームワークに基づいて、中規模から大規模の組織でこれを処理するための現在の推奨事項を以下に示します。
強化された AI ガバナンス フレームワーク
個人を特定したいのであれば、それらの表面領域を安全にしましょう。
個人を特定したくない場合は、システムの出力における再識別の継続的なリスクを監視する方法を実装してください。
公開データセットや侵害されたデータセットの単一性レベルが低いことは、私たち全員にとって素晴らしいことです。これは、プライバシーを動機とする敵対者による集中的なデータ使用のリスクを定量的に測定できる、チームが実行できるデータ衛生の実践です。個人データの再識別から保護するための基準を引き上げることは絶対に可能であり、そうしなければなりません。それを開始できるのは、私たち自身のデータで測定した場合のみです。プライバシー強化テクノロジーとコンピューティングの規制の変化の潮流に真剣に取り組んでいる場合は、それに関する興味深い質問を送ってください。システムがトレーニングで高リスクデータを扱う必要がある場合は、次のことも気にするかもしれません。