大多數人只想到他們的社會保障號碼,當一個表格要求它或當一個身份盜竊警告在屏幕上闪烁時。 ,试图在一个地方重建这个结构,提供发行模式的参考,而不与任何人的个人身份相关联。 安德鲁 当政府数据很难到达时 这个前提很简单:一个SSN在什么时候和什么地方被发行? 直到几年前,研究人员可以通过检查社会保障局从1963年到2011年生产的历史“区域编号发行表”来回答这一问题。 今天,官方档案不再是公开在线访问的。验证现在通常需要付费的SSA服务或分散的非官方来源。对于任何从事历史数据集,欺诈分析或人口统计工作的人来说,这种缺失造成了显著的差距。 为什么一位研究人员重建了地图 网络安全研究员Del Andujar在研究数据透明度方面的相关问题时注意到这一差距,而不是试图获取敏感信息或绕过限制,他寻找原始公共文件的副本。 结果是SSN区域组数据库,这是发行模式的开放参考,不包括完整的SSN、名称或任何个人标识符,而是恢复了缺失的背景:哪个地理区域与SSN的第一位数相匹配,以及这些代码在哪个时期是活跃的。 透明度不把人变成目标 发布与SSN结构相关的东西可能会引起担忧,但这个项目专注于模式,而不是个人。它反映了政府曾经广泛分布的信息,但不再以易于访问的格式维护。 这种区别反映了人们如何接近身份系统的更广泛的变化。透明性并不总是需要暴露。 可访问的SSN模式可以揭示什么 模式级数据有几个实际用途。 比较历史数据集的研究人员可以标记SSN前缀不匹配声称的状态或年份的不一致性。 欺诈分析师在发现伪造身份时可以将信息作为一个层 - 永远不是唯一的层。 教育者可以展示2011年以前的SSN结构在引入随机编号之前是如何工作的。 该数据库不是正式SSA验证的替代品,而是作为一个额外的检查点来了解身份号码是如何结构的,以及为什么出现某些异常。 来自机构之外的数据伦理 处理身份系统的项目通常来自政府机构或大型机构,SSN区域小组的努力表明,独立研究人员也可以通过汇集公共记录并公开记录过程来为数据伦理做出贡献。 通过重建公众曾经拥有的参考,该项目强调了一个更广泛的点:可以使政府控制的身份数据更容易理解,同时尊重隐私界限。 这个故事是由Sanya Kapoor在HackerNoon的商业博客计划下发布的。 这个故事是由Sanya Kapoor在HackerNoon的商业博客计划下发布的。