上面的电子邮件似乎没什么特别的。事实上,在 1997 年至 2004 年期间发送给安然公司、来自安然公司以及在一家公司内部发送的超过 50 万封样本集中,这只是一封无关紧要的电子邮件。
在这篇文章中包含所有 500,000 多封电子邮件似乎过多,因此我挑选了一些示例。这里的历史与其说是个别电子邮件,不如说是安然公司最终消亡的整个过程,世界上最大的会计师事务所之一的倒闭,五大会计师事务所变成四大会计师事务所,以及安然公司的发展反垃圾邮件过滤器。
这是一个足够戏剧性的事件,即使在二十多年后,它仍出现在流行文化中,即使许多人不再记得它指的是什么。
Enron Corporation 成立于 1985 年,由两家小型地区性公司合并而成,该公司出售能源、商品和服务,直到 2001 年宣布破产。拥有 20,000 多名员工,他们声称收入超过 1000 亿美元,《财富》杂志将其命名为“
到 2001 年底,很明显,其巨大(甚至不成比例)成功的原因是蓄意和创造性的欺诈,被他们的审计员忽视了(当时据称得到了他们的帮助)
后果是巨大而迅速的,安然在 2001 年申请破产,安达信被解散(因此我们现在有了德勤、安永、毕马威和普华永道四大巨头),随后 WorldCom 在 2002 年倒闭,原因是更大的会计丑闻,再次以安达信为审计师。事实上,其他公司的一些错误审计也被曝光。
2002 年颁布了萨班斯-奥克斯利法案,试图对审计进行一些控制,避免将来发生类似事件。
在调查安然期间,联邦能源监管委员会 (FERC) 获得了该公司电子邮件数据的样本——跨越数年和 150 名安然员工(主要是高级管理人员)。这些数据被用作调查的一部分,以确定感兴趣的人,然后 FERC 做出了一个不寻常且有争议的决定。
每一朵云都有一线希望,安然丑闻导致发布了有史以来最大、最全面的电子邮件数据集。曾经用来收集欺诈和阴谋证据的工具,将成为世界上有史以来最强大的打击垃圾邮件和网络钓鱼欺诈的工具之一。
出于透明度、历史和学术研究的目的,FERC 公开了数据集并将其发布到互联网上。
后来它被麻省理工学院的 Leslie Kaelbling 购买,SRI International 的许多人的辛勤工作纠正了完整性错误,并根据受影响员工的要求进行了一些编辑。最新版本的数据集来自 2015 年,压缩后约为 1.7Gb。
电子邮件对研究的影响怎么强调都不为过。这是最大的公开电子邮件集合,超过 500,000 封。换句话说,众所周知的
然后是垃圾邮件。虽然数据集的结构使其难以分析,但在不同时间点进行采样是查看垃圾邮件数量增加和网络钓鱼发展的有效方法。对于那些试图开发反垃圾邮件工具或网络钓鱼过滤器的人来说,这非常有价值。这些是来自组织的真实电子邮件,而不是一组简单的虚拟数据,因此如果过滤器可以在安然数据集上有效工作,那么它很可能在其他地方也有效。
该数据集最初用于训练我们今天所依赖的过滤器,以检测垃圾邮件并保护我们免受网络钓鱼的侵害,并且仍然是最大的公开可用的公司电子邮件集合。另一个团队使用该数据集来训练合规性工具,该工具会提醒用户注意文本中的敏感元素,这种技术仍然是当今应用于电子邮件的数据泄漏预防工具的核心技术。其他人使用安然电子邮件来检查人们如何组织和存储电子邮件,看看它是否可以有效地自动化(在很大程度上,任何依赖自动分类的人都知道,答案似乎是否定的)。
还有更多人查看数据以更好地了解公司和组织。建立了高级管理人员的社交图,揭示了围绕几个节点的巢穴连接,与其他人的路径很窄。
文本分析、语言处理、自动完成、语法纠正、垃圾邮件过滤,各种研究都使用了安然数据集。英语教师埃文·弗兰多 (Evan Frendo) 的一项研究发现,美国商业语言中存在对“球”隐喻的迷恋。
安然数据集记录了美国企业史、技术史(例如,许多电子邮件是在黑莓设备上编写的)和人类交流史。它还标志着研究中处理数据集的方式发生了转变——从关注作者身份(价值来自创建数据的专家)转移到公共资源(数据的价值不是因为个人贡献,而是因为它们所展示的内容)统称)。
由于数据集涵盖了十多年,它显示了从 1991 年到 00 年代中期电子邮件礼仪和使用的演变。甚至还有一些今天人们可能认识的笑话(一个关于用奶牛解释不同的政府系统),以及种族主义、厌女症和色情内容。
如果您想要真实的历史电子邮件体验,