著者:
(1)アンヘル・メリノ、マドリード・カルロス3世大学テレマティクス工学部 {[email protected]}
(2) ホセ・ゴンザレス・カバーニャス、UC3M-サンタンデールビッグデータ研究所 {[email protected]}
(3)アンヘル・クエバス、マドリード・カルロス3世大学テレマティクス工学部およびUC3M-サンタンデールビッグデータ研究所{[email protected]}
(4) Rubén Cuevas、マドリード・カルロス3世大学テレマティクス工学部およびUC3M-サンタンデールビッグデータ研究所{[email protected]}。
多数の文献では、個人を特定できない情報 (PII 以外) をいくつか組み合わせるだけで、数百万、あるいは数億人のユーザーを含むデータセット内でユーザーを一意に特定できることが何度も示されています。本研究ではこの研究分野を拡張し、公開されている PII 以外の属性をいくつか組み合わせることで、第三者がアクティブ化して、超パーソナライズされたメッセージでユーザーを個別にターゲットにできることを実証しています。本論文ではまず、LinkedIn プロフィールでユーザーが報告した場所と 6 つの珍しい (または 14 のランダムな) 職業スキルの組み合わせが、約 8 億人のユーザーで構成されるユーザー ベースで 75% の確率で一意になるのに十分であることを実証する方法論を実装しています。文献の以前の研究と比較して、この場合の斬新な特徴は、LinkedIn プロフィールで報告された場所とスキルが、プラットフォームに登録されている他のユーザーや企業に公開されており、さらに広告キャンペーンを通じてアクティブ化できることです。私たちは、論文の著者 3 人を対象に概念実証実験を実施しました。著者の LinkedIn プロフィールから取得した位置情報と 13 以上のランダムな専門スキルを使用して構成されたすべての広告キャンペーンで、ターゲット ユーザーだけに広告が配信されることが実証されました。この手法はナノターゲティングと呼ばれ、LinkedIn ユーザーをマルバタイジングや操作などの潜在的なプライバシーとセキュリティのリスクにさらす可能性があります。
キーワードLinkedIn · オンライン広告 · ユーザープライバシー · ナノターゲティング
第三者がユーザーの同意なしに大規模にユーザーを一意に識別できることは、市民のプライバシーがいかに脆弱であるかを示す良い指標です。ユーザーを識別する明白な方法は、電子メール、電話番号、郵便番号などの個人識別情報 (PII) を使用することです。PII の大規模な違法データベースを作成すると、ユーザーのプライバシーが危険にさらされる可能性があります。そのため、頻繁な啓発キャンペーンでは、不明なソースから送信される電子メール、SMS、WhatsApp メッセージなどに注意するようユーザーに指示しています。実際、GDPR [1] などの現在のデータ保護規制では、PII は個人データであり、処理するには (ほとんどの場合) ユーザーの同意が必要であると明確に規定されています。ユーザーを一意に識別し、潜在的にターゲットとするより巧妙な方法は、単独では個人データとは見なされない複数の非 PII 項目を組み合わせることです。この非 PII に基づく識別は検出が困難ですが、大きなリスクをもたらします。そのため、非 PII データに基づくユーザーの一意性は、近年の文献で取り上げられています。
研究文献では、大規模なデータセットでユーザーを一意に識別するには、PII以外の項目がわずかしかないことが繰り返し証明されています。たとえば、150万人のユーザーのデータセットでは、携帯電話の通話記録が4つあればユーザーを識別できます[2]。同様に、110万人のユーザーベースでは、個人を特定するのに必要なクレジットカード購入記録は4つだけです[3]。
同様に、8つの映画の評価とおおよそのレビュー日で、48万人のNetflixユーザーの中から1人のユーザーを特定することができます[4]。性別、郵便番号、生年月日を組み合わせると、1990年と2000年の米国国勢調査の市民の87%と63%の身元をそれぞれ明らかにすることができます[5][6]。また、15の人口統計属性により、どのデータセットでもアメリカ人の99.98%を再識別することができます[7]。
これらの研究は、人間のプライバシーの脆弱性を評価する上で非常に貴重な貢献をしています。しかし、これらの研究はすべて理論的なものであり、ユーザーのセキュリティやプライバシーを侵害する特定の攻撃で非 PII データ項目がどのようにアクティブ化されるかについては議論されていません。この研究分野を完了するための自然なステップは、非 PII 項目の組み合わせが実際に第三者によってアクティブ化され、ユーザーを個別に標的にし、セキュリティやプライバシーを(潜在的に)侵害できることを実証する方法論と実験を開発することであると考えています。
著者らの知る限り、この分野で非 PII 項目の組み合わせをアクティブにして、広告を 1 人のユーザーにのみ表示できることを実際的に示した唯一の先行研究は [8] である。この研究では概念実証実験が行われ、攻撃者がユーザーから約 20 個のランダムな広告設定を明らかにすることができれば、それらをナノターゲティング広告キャンペーンでターゲットにできる、つまり広告がターゲット ユーザーにのみ表示されることが示された。これは、明示的な同意なしに非 PII 情報を利用して個々のユーザーをターゲットにし、それらの手段で一意に広告を表示できることを初めて具体的に証明したものだ。ただし、報告された手法を大規模に実用化する際には大きな制限がある。攻撃者はユーザーの広告設定にアクセスする必要があり、公開されていないため複雑な作業となる。この制限により、潜在的な攻撃者は、ユーザーの広告設定を推測できる高度な技術的知識を持つ人だけになる。参照された研究は非常に重要な研究貢献ですが、ユーザーが積極的に開示する公開されている非 PII 項目を条件として、超パーソナライズ攻撃を実行することが可能であることを示すさらなる研究を研究コミュニティが貢献することが重要であると考えています。このような研究は、多くの場合個人データとは見なされない非 PII 項目が、ユーザーにとって重大なプライバシーおよび/またはセキュリティリスクを伴う可能性があることを証明するでしょう。
私たちの研究は、数億人のユーザーを、少数の非 PII 公開データ項目を組み合わせたハイパーパーソナライズされたメッセージで個別にターゲット設定できることを示しています。この目的を達成するために、この研究では、次の 3 つの要件を課しました。(i) ユーザー ベースには、世界中に分散した数千万から数億人のユーザーが含まれている必要があります。(ii) 個々のユーザーをターゲット設定するために必要な非 PII データ項目は公開されている必要があります。(iii) 非 PII 項目は、ハイパーパーソナライズされたメッセージを個別にユーザーに届けるために、外部の第三者によってアクティブ化できます。私たちの知る限り、文献の以前の研究で、これら 3 つの要件を同時に満たしているものはありません。
私たちの論文は、LinkedIn で、場所 (国、地域、または都市) とプロフィールで利用可能な専門スキルの組み合わせを使用して、個々のユーザーを広告でナノターゲティングできることを証明しています。これは、次の 3 つの要件を満たしています。(i) LinkedIn には約 8 億人のユーザーがおり、つまり、世界中の人口の約 10% が利用可能です。(ii) ユーザーの場所と専門スキルは、LinkedIn にログインしているすべてのユーザーが公開されている非 PII 項目です。したがって、誰でも LinkedIn でユーザーを一意に識別するために必要な情報を簡単に入手できます。(iii) 専門スキルと場所の組み合わせは、LinkedIn 広告マネージャーを通じてアクティブ化され、ユーザーに高度にパーソナライズされた広告を配信できます。実際には、ユーザーをナノターゲティングするには、LinkedIn アカウントを持ち、ターゲット ユーザー プロフィールから場所と専門スキルを取得し、その情報を使用して広告キャンペーンを構成するだけで済みます。これは非常に単純な操作であり、多くのサードパーティが非 PII 項目を悪用して LinkedIn でナノターゲティング キャンペーン/攻撃を実行できる可能性があります。
私たちはこの研究を 2 つの部分に分けました。論文の最初の部分では、1,699 人のユーザーから収集した 39,000 のスキルに関する情報を含むデータセットを使用し、ユーザーのプロフィールで公開されている場所と N 個の専門スキルを組み合わせて、LinkedIn でのユーザーの一意性の確率を定義するデータ駆動型モデルを開発しました。論文の 2 番目の部分では、モデルの結果を使用して、この論文の 3 人の著者を対象とした概念実証実験を実施し、LinkedIn でナノターゲティング キャンペーンを実行することが可能であることを実証しました。
LinkedIn は広告ガイドラインで、キャンペーンを開始するための対象メンバーの最小数は 300 であると主張していますが、この制限は、実装上のバグと思われるものを悪用することで簡単に回避できます。私たちは、推奨されているプロセスに従って、調査で明らかになったプライバシーの脆弱性を LinkedIn に報告しました。残念ながら、私たちのレポートを受け取ったプラットフォーム管理者は、調査結果が脆弱性を表しているとは考えませんでした。
この研究により、いくつかの重要な発見が得られました。
• ユーザーの所在地と、報告されたスキルセットからランダムに選択された 14 (23) のスキルを組み合わせると、LinkedIn 上で 75% (90%) の確率でそのユーザーがユニークになります。代わりに最も人気のないスキルを使用すると、同じレベルのユニークさを達成するために必要なスキルは 6 (8) 個だけです。
• 私たちの概念実証実験では、位置情報と 13 以上のランダム スキルを使用したすべてのキャンペーンが、ターゲットの著者 3 名をナノターゲティングすることに成功したことが示されています。
• 私たちの知る限り、これは、公開されている非個人情報データを使用して、特定の国民を大規模に効果的にターゲットにできることを証明する初の調査です。
この論文は、CC BY-NC-ND 4.0 DEED ライセンスの下でarxiv で公開されています。