上記のメールは特別なものではないようです。実際、これは、1997 年から 2004 年の間に 1 つの企業であるエンロン社との間で送受信された 50 万通を超えるサンプル セットの中で、取るに足らない電子メールの 1 つにすぎません。
この記事に 500,000 件以上の電子メールをすべて含めるのは過剰に思えたので、いくつかのサンプルを選び出しました。ここでの歴史は、個々の電子メールに関するものではなく、エンロン社の最終的な終焉、世界最大の会計事務所の 1 つの崩壊、ビッグ 5 からビッグ 4 への変化、そしてスパム対策フィルター。
これは非常に劇的な出来事であり、20 年以上経った今でも、大衆文化の中で取り上げられています。
1985 年に 2 つの小さな地域企業の合併として設立されたエンロン コーポレーションは、2001 年に倒産を宣言するまで、エネルギー、商品、サービスを販売していました。
2001 年末に向けて、その大規模な (不釣り合いなほどの) 成功の理由は、監査人によって見落とされていた (当時は、監査人によって支援されたとされている) 意図的で創造的な詐欺であることが明らかになりました。
2001 年にエンロンが破産を申請し、アーサー アンダーセンが解散し (したがって、現在、デロイト、EY、KPMG、および PwC のビッグ 4 が存在する)、2002 年のワールドコムのその後の崩壊により、影響は計り知れず、急速でした。さらに大規模な会計スキャンダルが発生し、再びアーサー アンダーセンが監査人になりました。
2002 年には、サーベンス オクスリー法が制定され、監査に関する管理策を講じ、将来同様の事態が発生しないようにしました。
連邦エネルギー規制委員会 (FERC) は、エンロンの調査中に、同社の電子メール データのサンプルを入手しました。これは、数年にわたる 150 人のエンロンの従業員 (主に上級管理職) に関するものです。このデータは、関心のある人物を特定するための調査の一環として使用された後、FERC は異常で物議を醸す決定を下しました。
すべてのクラウドには銀色の裏地があり、エンロンのスキャンダルにより、これまでにコンパイルされた最大かつ最も包括的な電子メール データセットがリリースされました。かつて詐欺や陰謀の証拠を収集するために使用されたものは、世界がこれまでに見たことのないフィッシングによるスパムや詐欺に対する最高のツールの 1 つになりました。
透明性、歴史、および学術研究の目的で、FERC はデータセットを公開し、インターネットに投稿しました。
その後、MIT の Leslie Kaelbling によって購入され、SRI International の多くの人々の懸命な作業により、整合性エラーが修正され、影響を受けた従業員からの要求に従っていくつかの編集が行われました。データセットの最新バージョンは 2015 年のもので、圧縮すると約 1.7Gb になります。
電子メールが研究に与えた影響は計り知れません。これは、500,000 を超える、公開されている電子メールの最大のコレクションでした。ざっくり言うと、よく知られているのは
次に、スパムがあります。データセットの構造が分析を困難にしていますが、さまざまな時点でのサンプリングは、スパムの量の増加とフィッシングの発展を確認する効果的な方法です。これは、スパム対策ツールやフィッシング フィルターを開発しようとしている人にとって、非常に価値のあるものでした。これらは組織からの本物の電子メールであり、単純なダミー データのセットではありません。そのため、フィルターがエンロンのデータセットで効果的に機能する場合、他の場所でも効果的である可能性があります。
このデータセットは当初、スパムを検出してフィッシングから保護するために今日私たちが依存しているフィルターそのものをトレーニングするために使用され、現在でも公開されている企業の電子メールの最大のコレクションです。別のチームは、データセットを使用して、テキスト内の機密要素についてユーザーに警告するコンプライアンス ツールをトレーニングしました。これは、今日の電子メールに適用されるデータ漏洩防止ツールの中核にある手法です。エンロンの電子メールを使用して、電子メールを効果的に自動化できるかどうかを調べるために、人々が電子メールをどのように整理および保存したかを調べた人もいます (主に、自動ソートに依存している人なら誰でも知っているように、答えはノーのようです)。
企業や組織をよりよく理解するために、さらに多くのデータを調べました。上級管理職のソーシャル グラフが作成され、いくつかのノードの周りにネストされたつながりが明らかになり、他のすべての人への細い経路が明らかになりました。
テキスト分析、言語処理、オートコンプリート、文法修正、スパム フィルターなど、あらゆる種類の研究でエンロンのデータセットが利用されています。英語教師のエヴァン・フレンドによるある研究では、アメリカのビジネス用語における「ボール」の比喩への執着が発見されました。
エンロンのデータセットは、企業アメリカ、テクノロジー (たとえば、多数の電子メールが BlackBerry デバイスで作成された)、および人間のコミュニケーションの歴史の期間を捉えています。また、研究におけるデータセットへのアプローチ方法が変化したことも示しています。オーサーシップ (価値はデータを作成する専門家に由来する) からコモンズ (データは個人の貢献ではなく、データが示すものによって価値がある) へと移行しています。まとめて)。
データセットは 10 年以上をカバーしているため、1991 年から 00 年代半ばまでの電子メールのエチケットと使用法の進化を示しています。人種差別、ミソジニー、ポルノグラフィーに加えて、人々が今日認識しているかもしれないいくつかのジョーク (さまざまな政府システムを牛で説明することについてのジョーク) さえあります。
生きた過去のメール エクスペリエンスが必要な場合は、