उपरोक्त ईमेल कुछ खास नहीं लगता है। वास्तव में, यह 1997 और 2004 के बीच एक कंपनी, एनरॉन कॉर्पोरेशन को, से और उसके भीतर भेजे गए आधे मिलियन से अधिक के नमूने के सेट में केवल एक अप्रासंगिक ईमेल है।
इस लेख में सभी 500,000+ ईमेल शामिल करना अत्यधिक लग रहा था, इसलिए मैंने कुछ नमूने चुने हैं। यहां का इतिहास व्यक्तिगत ईमेल के बारे में इतना नहीं है, जितना कि एनरॉन कॉर्पोरेशन की पूरी यात्रा से लेकर इसके अंतिम निधन तक, दुनिया की सबसे बड़ी अकाउंटेंसी फर्मों में से एक का पतन, बिग फाइव को बिग फोर में बदलना, और इसका विकास एंटी-स्पैम फिल्टर।
यह एक नाटकीय पर्याप्त घटना थी कि दो दशक बाद भी, यह लोकप्रिय संस्कृति में सामने आती है, तब भी जब कई लोगों को अब यह याद नहीं है कि इसका क्या मतलब है।
1985 में दो छोटी क्षेत्रीय कंपनियों के बीच विलय के रूप में स्थापित, एनरॉन कॉर्पोरेशन ने 2001 में दिवालिया घोषित होने तक ऊर्जा, वस्तुओं और सेवाओं को बेचा। 20,000 से अधिक कर्मचारियों के साथ, उन्होंने $100 बिलियन से अधिक के राजस्व का दावा किया, और फॉर्च्यून ने इसे "
2001 के अंत तक यह स्पष्ट हो गया कि इसकी व्यापक (असमान सम) सफलता का कारण जानबूझकर और रचनात्मक धोखाधड़ी थी, जिसे उनके लेखा परीक्षकों द्वारा (उस समय, कथित रूप से सहायता प्राप्त) द्वारा अनदेखा किया गया था।
2001 में दिवालिएपन के लिए एनरॉन फाइलिंग के साथ, आर्थर एंडर्सन को भंग कर दिया गया था (इसलिए अब हमारे पास डेलॉयट, ईवाई, केपीएमजी, और पीडब्ल्यूसी के बिग फोर हैं), और 2002 में वर्ल्डकॉम के बाद के पतन के कारण नतीजा बहुत बड़ा और तेज़ था। इससे भी बड़ा लेखांकन घोटाला, फिर से आर्थर एंडरसन के साथ उनके लेखा परीक्षकों के रूप में। वास्तव में, अन्य कंपनियों के कई दोषपूर्ण ऑडिट भी प्रकाश में आए।
2002 में सरबेंस-ऑक्सले अधिनियम को ऑडिट के आसपास कुछ नियंत्रण रखने और भविष्य में इसी तरह की घटनाओं से बचने के लिए अधिनियमित किया गया था।
एनरॉन में जांच के दौरान, संघीय ऊर्जा नियामक आयोग (एफईआरसी) ने कंपनी के ई-मेल डेटा का एक नमूना प्राप्त किया - वर्षों और 150 एनरॉन कर्मचारियों (ज्यादातर वरिष्ठ प्रबंधन)। रुचि के व्यक्तियों की पहचान करने के लिए डेटा का उपयोग जांच के हिस्से के रूप में किया गया था, और फिर एफईआरसी ने एक असामान्य और विवादास्पद निर्णय लिया।
हर क्लाउड में उम्मीद की किरण होती है, और एनरॉन स्कैंडल ने अब तक संकलित किए गए सबसे बड़े और सबसे व्यापक ईमेल डेटासेट को जारी किया। जो एक बार धोखाधड़ी और साजिश के सबूत इकट्ठा करने के लिए इस्तेमाल किया गया था, वह दुनिया में अब तक देखे गए फ़िशिंग के माध्यम से स्पैम और धोखाधड़ी के खिलाफ सबसे बड़ा उपकरण बन जाएगा।
पारदर्शिता, ऐतिहासिक और शैक्षणिक अनुसंधान उद्देश्यों के लिए एफईआरसी ने डेटासेट को सार्वजनिक किया और इसे इंटरनेट पर पोस्ट किया।
बाद में इसे MIT के लेस्ली कैलब्लिंग द्वारा खरीदा गया, और SRI इंटरनेशनल में कई लोगों की कड़ी मेहनत ने अखंडता त्रुटियों को ठीक किया, और प्रभावित कर्मचारियों के अनुरोध के बाद कुछ सुधार किए। डेटासेट का नवीनतम संस्करण 2015 से है, और लगभग 1.7 जीबी संकुचित हो गया है।
अनुसंधान पर ईमेल के प्रभाव को कम करना कठिन है। यह 500,000 से अधिक पर सार्वजनिक रूप से उपलब्ध ईमेल का सबसे बड़ा संग्रह था। इसे परिप्रेक्ष्य में रखने के लिए, प्रसिद्ध
फिर स्पैम है। जबकि डेटासेट की संरचना का विश्लेषण करना कठिन हो जाता है, समय के विभिन्न बिंदुओं पर नमूनाकरण स्पैम की मात्रा में वृद्धि और फ़िशिंग के विकास को देखने का एक प्रभावी तरीका है। जो, एंटी-स्पैम टूल या फ़िशिंग फ़िल्टर विकसित करने का प्रयास करने वालों के लिए अविश्वसनीय रूप से मूल्यवान था। ये एक संगठन से वास्तविक ईमेल हैं, डमी डेटा का एक साधारण सेट नहीं है, और इसलिए यदि कोई फ़िल्टर एनरॉन डेटासेट पर प्रभावी ढंग से काम कर सकता है तो इसके कहीं और प्रभावी होने की संभावना है।
इस डेटासेट का उपयोग शुरू में उन फ़िल्टरों को प्रशिक्षित करने के लिए किया गया था, जिन पर हम आज स्पैम का पता लगाने और फ़िशिंग से बचाने के लिए भरोसा करते हैं, और अभी भी कंपनी ईमेल का सबसे बड़ा सार्वजनिक रूप से उपलब्ध संग्रह है। एक अन्य टीम ने एक अनुपालन उपकरण को प्रशिक्षित करने के लिए डेटासेट का उपयोग किया, जो उपयोगकर्ताओं को पाठ में संवेदनशील तत्वों के बारे में सचेत करेगा, आज भी ईमेल पर लागू होने वाले डेटा लीक रोकथाम टूल के मूल में एक तकनीक है। दूसरों ने एनरॉन ईमेल का उपयोग यह जांचने के लिए किया कि लोगों ने ईमेल को कैसे व्यवस्थित और संग्रहीत किया, यह देखने के लिए कि क्या इसे प्रभावी ढंग से स्वचालित किया जा सकता है (बड़े पैमाने पर, जैसा कि स्वचालित छँटाई पर भरोसा करने वाले किसी को भी पता चल जाएगा, उत्तर नहीं प्रतीत होता है)।
अभी भी कंपनियों और संगठनों को बेहतर ढंग से समझने के लिए डेटा पर अधिक ध्यान दिया गया। वरिष्ठ प्रबंधन के सामाजिक ग्राफ़ बनाए गए थे, जो कुछ नोड्स के आस-पास कनेक्शन के घोंसले का खुलासा करते थे, बाकी सभी के लिए पतले रास्ते थे।
टेक्स्ट एनालिटिक्स, लैंग्वेज प्रोसेसिंग, ऑटोकंप्लीट, ग्रामर करेक्शन, स्पैम फिल्ट्रेशन, सभी प्रकार के शोधों ने एनरॉन डेटासेट का उपयोग किया है। एक अंग्रेजी शिक्षक, इवान फ्रेंडो द्वारा किए गए एक अध्ययन ने अमेरिकी व्यावसायिक भाषा में 'बॉल' के रूपकों पर एक निर्धारण की खोज की।
एनरॉन डेटासेट कॉर्पोरेट अमेरिका के इतिहास, प्रौद्योगिकी (उदाहरण के लिए, ब्लैकबेरी उपकरणों पर कई ईमेल लिखे गए थे), और मानव संचार के इतिहास में एक अवधि को कैप्चर करता है। यह शोध में डेटासेट के संपर्क के तरीके में भी बदलाव को चिह्नित करता है - ऑथरशिप पर ध्यान केंद्रित करने से हटकर (मूल्य डेटा बनाने वाले विशेषज्ञ से आता है) कॉमन्स (डेटा व्यक्तिगत योगदान के कारण मूल्यवान नहीं है, बल्कि वे जो दिखाते हैं उसके कारण सामूहिक रूप से)।
चूंकि डेटासेट में एक दशक से अधिक का समय शामिल है, यह ईमेल शिष्टाचार के विकास और 1991 से 00 के मध्य तक के उपयोग को दर्शाता है। यहाँ तक कि कुछ चुटकुले भी हैं जिन्हें लोग आज पहचान सकते हैं (एक गायों के साथ विभिन्न सरकारी प्रणालियों की व्याख्या करने के बारे में), जातिवाद, स्त्री-द्वेष और अश्लील साहित्य के साथ।
यदि आप एक जीवंत ऐतिहासिक ईमेल अनुभव चाहते हैं,