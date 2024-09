Email trên dường như không có gì đặc biệt. Trên thực tế, đây chỉ là một email vụn vặt trong một tập hợp hơn nửa triệu email mẫu được gửi từ năm 1997 đến 2004 đến, từ và trong một công ty, Tập đoàn Enron.



Bao gồm tất cả hơn 500.000 email trong bài viết này có vẻ quá nhiều, vì vậy tôi đã chọn ra một vài mẫu. Lịch sử ở đây không nói nhiều về các email riêng lẻ, mà là toàn bộ hành trình của Tập đoàn Enron đi đến sự sụp đổ cuối cùng, sự sụp đổ của một trong những công ty kế toán lớn nhất thế giới, biến Big Five thành Big Four, và sự phát triển của bộ lọc chống thư rác.



Đây là một sự kiện kịch tính đến nỗi hơn hai thập kỷ sau, nó vẫn xuất hiện trong văn hóa đại chúng, ngay cả khi nhiều người không còn nhớ nó đề cập đến điều gì.

Vụ bê bối Enron: Tóm tắt ngắn

Được thành lập vào năm 1985 như một sự hợp nhất giữa hai công ty nhỏ trong khu vực, Tập đoàn Enron đã bán năng lượng, hàng hóa và dịch vụ cho đến khi tuyên bố phá sản vào năm 2001. Với hơn 20.000 nhân viên, họ đã đạt doanh thu hơn 100 tỷ đô la và Fortune đã đặt tên cho nó là “ Công ty sáng tạo nhất nước Mỹ ” sáu năm liên tiếp; đó là một câu chuyện thành công lớn.

Đến cuối năm 2001, rõ ràng là lý do cho sự thành công to lớn (thậm chí không tương xứng) của nó là gian lận có chủ ý và sáng tạo, bị bỏ qua bởi (vào thời điểm đó, được cho là có sự trợ giúp của) các kiểm toán viên của họ. Arthur Andersen , một trong năm công ty kế toán lớn nhất vào thời điểm đó. Trên cơ sở mỗi nhân viên, Enron đã báo cáo lợi nhuận cao hơn hầu hết các công ty có quy mô tương tự khác và hơn gấp đôi so với Exxon Mobil.





Hậu quả là rất lớn và nhanh chóng, với việc Enron nộp đơn xin phá sản vào năm 2001, Arthur Andersen bị giải thể (do đó chúng ta hiện có Big Four gồm Deloitte, EY, KPMG và PwC), và sự sụp đổ sau đó của WorldCom vào năm 2002 do một vụ bê bối kế toán thậm chí còn lớn hơn, một lần nữa với Arthur Andersen là kiểm toán viên của họ. Trên thực tế, một số cuộc kiểm toán sai lầm của các công ty khác cũng được đưa ra ánh sáng.





Vào năm 2002, Đạo luật Sarbanes-Oxley đã được ban hành để cố gắng đặt một số biện pháp kiểm soát xung quanh các cuộc kiểm toán và tránh các sự kiện tương tự trong tương lai.





các email

Trong quá trình điều tra Enron, Ủy ban Điều tiết Năng lượng Liên bang (FERC) đã lấy được một mẫu dữ liệu e-mail của công ty - kéo dài nhiều năm và 150 nhân viên của Enron (hầu hết là quản lý cấp cao). Dữ liệu được sử dụng như một phần của cuộc điều tra để xác định những người quan tâm, và sau đó FERC đã đưa ra một quyết định bất thường và gây tranh cãi.





Mọi đám mây đều có lớp lót bạc và vụ bê bối Enron đã dẫn đến việc phát hành bộ dữ liệu email lớn nhất và toàn diện nhất từng được biên soạn. Công cụ từng được sử dụng để thu thập bằng chứng về hành vi gian lận và âm mưu sẽ trở thành một trong những công cụ chống thư rác và gian lận thông qua lừa đảo hiệu quả nhất mà thế giới từng thấy.





Để đảm bảo tính minh bạch, lịch sử và mục đích nghiên cứu học thuật, FERC đã công khai bộ dữ liệu và đăng nó lên internet.





Sau đó, Leslie Kaelbling của MIT đã mua nó và một số người tại SRI International đã làm việc chăm chỉ để sửa các lỗi về tính toàn vẹn và thực hiện một số thao tác biên tập theo yêu cầu của các nhân viên bị ảnh hưởng. Phiên bản mới nhất của tập dữ liệu là từ năm 2015 và có dung lượng nén khoảng 1,7Gb.





Khó có thể phóng đại tác động của các email đối với nghiên cứu. Đây là bộ sưu tập email lớn nhất có sẵn công khai với hơn 500.000. Đặt nó trong quan điểm, nổi tiếng Hình ảnh Sony hack bao gồm dưới 200.000 email. Làm việc qua các email, điều quan trọng là tất cả chúng đều bình thường như thế nào, các cuộc trò chuyện đơn giản và trò chuyện văn phòng. Không có cảm giác về một âm mưu gian lận kế toán lớn đằng sau hậu trường.





Sau đó là thư rác. Mặc dù cấu trúc của tập dữ liệu khiến việc phân tích trở nên khó khăn nhưng việc lấy mẫu tại các thời điểm khác nhau là một cách hiệu quả để xem khối lượng thư rác ngày càng tăng và sự phát triển của lừa đảo. Điều đó, đối với những người đang cố gắng phát triển các công cụ chống thư rác hoặc bộ lọc lừa đảo, là vô cùng quý giá. Đây là những email chính hãng từ một tổ chức, không phải là một bộ dữ liệu giả đơn giản và vì vậy nếu một bộ lọc có thể hoạt động hiệu quả trên bộ dữ liệu Enron thì nó có thể sẽ hiệu quả ở những nơi khác.





Email của Enron cho chúng ta biết điều gì?

Tập dữ liệu này ban đầu được sử dụng để đào tạo chính các bộ lọc mà chúng tôi dựa vào ngày nay để phát hiện thư rác và bảo vệ chúng tôi khỏi hành vi lừa đảo và vẫn là bộ sưu tập email công ty lớn nhất có sẵn công khai. Một nhóm khác đã sử dụng tập dữ liệu để đào tạo một công cụ tuân thủ sẽ cảnh báo người dùng về các yếu tố nhạy cảm trong văn bản, một kỹ thuật vẫn là cốt lõi của các công cụ ngăn chặn rò rỉ dữ liệu được áp dụng cho email ngày nay. Những người khác đã sử dụng các email của Enron để kiểm tra cách mọi người sắp xếp và lưu trữ email để xem liệu nó có thể được tự động hóa một cách hiệu quả hay không (phần lớn, như bất kỳ ai dựa vào phân loại tự động sẽ biết, câu trả lời dường như là không).





Vẫn còn nhiều người xem xét dữ liệu để hiểu rõ hơn về các công ty và tổ chức. Các biểu đồ xã hội của ban quản lý cấp cao đã được xây dựng, cho thấy một tập hợp các kết nối xung quanh một vài nút, với những con đường mỏng đến những người khác.









Phân tích văn bản, xử lý ngôn ngữ, tự động điền, sửa ngữ pháp, lọc thư rác, tất cả các loại nghiên cứu đã sử dụng bộ dữ liệu Enron. Một nghiên cứu của Giáo viên tiếng Anh, Evan Frendo, đã phát hiện ra sự cố định về phép ẩn dụ 'quả bóng' trong ngôn ngữ kinh doanh của người Mỹ.





Bộ dữ liệu Enron ghi lại một giai đoạn trong lịch sử của công ty Mỹ, công nghệ (ví dụ: một số email được viết trên thiết bị BlackBerry) và giao tiếp của con người. Nó cũng đánh dấu một sự thay đổi trong cách tiếp cận bộ dữ liệu trong nghiên cứu - chuyển từ tập trung vào quyền tác giả (giá trị đến từ một chuyên gia tạo dữ liệu) sang tập trung chung (dữ liệu có giá trị không phải vì đóng góp của cá nhân, mà vì những gì họ thể hiện chung).





Vì bộ dữ liệu bao gồm hơn một thập kỷ, nó cho thấy sự phát triển của nghi thức và cách sử dụng email từ năm 1991 đến giữa những năm 00. Thậm chí còn có một vài câu chuyện cười mà ngày nay mọi người có thể nhận ra (một câu nói về việc giải thích các hệ thống chính phủ khác nhau bằng những con bò), cùng với phân biệt chủng tộc, kỳ thị phụ nữ và nội dung khiêu dâm.









Nếu bạn muốn trải nghiệm lịch sử email trực tiếp, Cuộc sống tốt đẹp (Enron Simulator) sẽ cho bạn trải nghiệm nhận từng cái một trong số hơn nửa triệu e-mail theo thứ tự thời gian, trong khoảng thời gian từ 7-28 năm.