paint-brush
基于公开的非PII的LinkedIn纳米定位分析与实现经过@netizenship
163 讀數

基于公开的非PII的LinkedIn纳米定位分析与实现

太長; 讀書

本文探讨了 LinkedIn 上纳米定位的隐私风险,表明结合公开数据中的位置和专业技能可以唯一地识别用户并向他们展示超个性化广告,凸显了人们对社交媒体平台上数据隐私和安全的担忧。
featured image - 基于公开的非PII的LinkedIn纳米定位分析与实现
Netizenship Meaning in Online Communities HackerNoon profile picture
0-item

作者:

(1)Ángel Merino,马德里卡洛斯三世大学远程工程系{[email protected]};

(2)José González-Cabañas,卡三世桑坦德大数据研究所{[email protected]}

(3)安赫尔·库埃瓦斯(Ángel Cuevas),马德里卡洛斯三世大学远程信息工程系 & 卡三世桑坦德大数据研究所 {[email protected]};

(4)Rubén Cuevas,马德里卡洛斯三世大学远程信息工程系和卡三桑坦德大学大数据研究所{[email protected]}。

链接表

摘要和引言

LinkedIn广告平台背景

数据集

方法

LinkedIn 上的用户唯一性

纳米靶向概念验证

讨论

相关工作

道德和法律考虑

结论、致谢和参考文献

附录

抽象的

大量文献多次表明,只需组合几个非个人身份信息 (non-PII) 项,就足以使用户在包含数百万甚至数亿用户的数据集中独一无二。这项研究扩展了这一研究领域,表明第三方可以激活几个非 PII 公开属性的组合,以超个性化消息单独定位用户。本文首先实施了一种方法,证明用户在其 LinkedIn 个人资料中报告的位置和 6 种罕见(或 14 种随机)专业技能的组合足以以 75% 的概率在由 ∼8 亿用户组成的用户群中独一无二。与文献中的先前研究相比,本案例的一个新颖之处在于,LinkedIn 个人资料中报告的位置和技能可供平台上注册的任何其他用户或公司公开访问,此外,还可以通过广告活动激活。我们针对该论文的三位作者进行了概念验证实验。我们证明,所有配置了位置和从作者 LinkedIn 个人资料中检索到的 ≥13 项随机专业技能的广告活动都成功地将广告专门投放给了目标用户。这种做法被称为纳米定位,可能会让 LinkedIn 用户面临潜在的隐私和安全风险,例如恶意广告或操纵。


关键词LinkedIn · 在线广告 · 用户隐私 · 纳米靶向

1 简介

第三方能够在未经用户同意的情况下大规模唯一识别用户,这是衡量公民隐私脆弱程度的一个很好的温度计。识别用户的一种明显方法是通过个人身份信息 (PII),例如电子邮件、电话号码、邮政地址等。创建大型非法 PII 数据库可能会给用户带来隐私风险。这就是为什么频繁的宣传活动会指导用户小心来自未知来源的电子邮件、短信、WhatsApp 消息等。事实上,当前的数据保护法规(例如 GDPR [1])明确指出 PII 是个人数据,并且(在大多数情况下)需要用户同意才能处理。唯一识别和潜在定位用户的一种更微妙的方法是组合多个非 PII 项目,这些项目在单独时不被视为个人数据。这种基于非 PII 的识别更难检测,但却带来重大风险。这就是为什么近年来文献中一直在研究基于非 PII 数据的用户唯一性的原因。


研究文献一再证明,少量非 PII 项足以在大型数据集中唯一地识别用户。例如,仅 4 条手机通话记录即可在 150 万用户的数据集中识别出一名用户 [2]。同样,在 110 万用户的用户群中,仅需 4 条信用卡购买记录即可识别出个人 [3]。


同样,8 个电影评级和大概的评论日期可以在 48 万 Netflix 用户中识别出一名用户 [4]。结合性别、邮政编码和出生日期,可以分别揭示 1990 年和 2000 年美国人口普查中 87% 和 63% 公民的身份 [5][6]。此外,15 个人口统计属性可以在任何数据集中重新识别 99.98% 的美国人 [7]。


这些研究为评估人类隐私的脆弱性做出了宝贵贡献。然而,所有这些工作都只是理论上的,并没有讨论非 PII 数据项如何在特定攻击中被激活,从而危及用户的安全和/或隐私。我们认为,完成这一研究领域的自然步骤是开发方法和实验,以证明非 PII 项目的组合可以在实践中被第三方激活,以针对个人用户并(可能)危及他们的安全和/或隐私。


据作者所知,该领域唯一一项实际表明可以激活非 PII 项目组合以通过广告专门接触单个用户的先前研究是 [8]。这项工作进行了概念验证实验,表明攻击者能够从用户那里发现 ∼20 个随机广告偏好,可以通过纳米定位广告活动定位他们,即广告专门接触目标用户。这是第一个切实的证据,证明可以利用非 PII 信息来定位个人用户,而无需明确同意通过这些方式专门接触。然而,所报告技术的实际使用在规模上存在很大的局限性。它要求攻击者访问用户的广告偏好,这是一项复杂的任务,因为它们不公开。这种限制将潜在攻击者限制为那些具有强大技术知识、能够推断用户广告偏好的人。虽然提到的工作是一项非常重要的研究贡献,但我们认为重要的是研究界应该进一步研究,表明在用户主动披露的公开非 PII 项目下实施超个性化攻击是可行的。这些研究将证明,非 PII 项目(通常不被视为个人数据)可能给用户带来严重的隐私和/或安全风险。


我们的研究表明,数亿用户可能会成为个人目标,而超个性化消息会结合一些非 PII 公开数据项。为此,在本研究中,我们给自己设定了三个要求:(i) 用户群应包括分布在世界各地的数千万或数亿用户;(ii) 定位个人用户所需的非 PII 数据项必须公开,以及 (iii) 非 PII 项可以由外部第三方激活,以便向个人用户发送超个性化消息。据我们所知,文献中之前的研究均未同时满足这三个要求。


我们的论文证明,可以利用位置(国家、地区或城市)和个人资料中可用的专业技能组合,在 LinkedIn 上对个人用户进行广告微定位。这满足了以下三个要求:(i)LinkedIn 拥有约 8 亿用户,即全球约 10% 的人口可用;(ii)其用户的位置和专业技能是公开的非 PII 项目,任何登录 LinkedIn 的人都可以访问。因此,任何人都可以轻松获得唯一标识 LinkedIn 用户的所需信息;(iii)可以通过 LinkedIn 广告管理器激活专业技能和位置的组合,向用户提供超个性化广告。实际上,这意味着对用户进行微定位只需要拥有 LinkedIn 帐户,从目标用户个人资料中检索位置和专业技能,并使用该信息配置广告活动。这是一个非常简单的操作,可能使许多愿意这样做的第三方能够利用非 PII 项目在 LinkedIn 上开展微定位活动/攻击。


我们将工作分为两部分。在论文的第一部分,我们使用了从 1699 名用户收集的包含 39k 项技能信息的数据集,并开发了一个数据驱动模型,该模型通过结合位置和个人资料中公开的 N 项专业技能来定义 LinkedIn 上用户独特性的概率。在论文的第二部分,我们利用模型的结果实施了一项概念验证实验,针对本文的三位作者,证明了在 LinkedIn 上开展纳米定位活动的可行性。


LinkedIn 在其广告指南中声称,发起广告活动的目标会员人数最低为 300 人,但通过利用我们认为是实施漏洞的漏洞,可以轻松绕过这一限制。我们按照 LinkedIn 推荐的流程向其报告了研究发现的隐私漏洞。不幸的是,收到我们报告的平台管理员并不认为我们的研究结果代表了漏洞。


这项工作取得了几个重要发现:


• 将用户的位置与从其报告的技能组合中随机选择的 14 (23) 项技能相结合,可使其在 LinkedIn 上具有 75% (90%) 的独特性。如果我们使用最不受欢迎的技能,则只需要 6 (8) 项技能即可达到相同程度的独特性。


• 我们的概念验证实验表明,所有使用位置和≥13 种随机技能的活动均成功地对三位目标作者进行了纳米目标定位。


• 据我们所知,这是第一项证明可公开使用的非 PII 数据来大规模有效定位唯一公民的研究。


图 1:我们的数据样本中每个用户资料的技能数量的 CDF。


图 2:与我们数据集中的 4941 项独特专业技能相关的全球受众规模的 CDF。


图 3:根据考虑的专业技能数量,我们方法中使用的向量的长度范围从 N=1 到 N=50 技能。