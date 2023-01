Trop long; Pour lire Jusqu'à son effondrement, Enron était l'une des grandes réussites des entreprises américaines. Ensuite, il s'est avéré être construit sur la fraude et s'est effondré. L'un des bons côtés de l'effondrement a été la publication de plus d'un demi-million d'e-mails d'entreprise, qui constituent encore aujourd'hui la plus grande base de données publique d'e-mails d'entreprise.





L'e-mail ci-dessus ne semble rien de spécial. En fait, il ne s'agit que d'un seul e-mail sans conséquence dans un échantillon de plus d'un demi-million d'envois entre 1997 et 2004 vers, depuis et au sein d'une entreprise, Enron Corporation.



Inclure les plus de 500 000 e-mails dans cet article semblait excessif, j'ai donc sélectionné quelques exemples. L'histoire ici ne concerne pas tant les e-mails individuels, que tout le parcours d'Enron Corporation jusqu'à sa disparition définitive, l'effondrement de l'un des plus grands cabinets comptables au monde transformant les Big Five en Big Four, et le développement de filtres anti-spam.



Ce fut un événement suffisamment dramatique pour que même plus de deux décennies plus tard, il revienne dans la culture populaire, même lorsque beaucoup ne se souviennent plus à quoi il se réfère.

Le scandale Enron : un bref résumé

Fondée en 1985 à la suite d'une fusion entre deux petites entreprises régionales, Enron Corporation a vendu de l'énergie, des produits de base et des services jusqu'à déclarer faillite en 2001. Avec plus de 20 000 employés, elle a revendiqué un chiffre d'affaires de plus de 100 milliards de dollars, et Fortune l'a nommé " L'entreprise la plus innovante d'Amérique « six années de suite ; ce fut une énorme réussite.

Vers la fin de 2001, il est devenu clair que la raison de son succès massif (même disproportionné) était une fraude délibérée et créative, négligée par (à l'époque, prétendument aidée par) leurs auditeurs. Arthur Andersen , l'un des cinq grands cabinets comptables à l'époque. Sur une base par employé, Enron affichait des bénéfices d'un ordre de grandeur supérieur à celui de presque toutes les autres entreprises de taille similaire, et plus du double de celui d'Exxon Mobil.





Les retombées ont été immenses et rapides, avec le dépôt de bilan d'Enron en 2001, la dissolution d'Arthur Andersen (nous avons donc maintenant les Big Four de Deloitte, EY, KPMG et PwC), et l'effondrement ultérieur de WorldCom en 2002 en raison d'un un scandale comptable encore plus important, encore une fois avec Arthur Andersen comme auditeur. En fait, un certain nombre d'audits défectueux d'autres sociétés ont également été révélés.





En 2002, la loi Sarbanes-Oxley a été promulguée pour tenter de mettre en place des contrôles autour des audits et éviter des événements similaires à l'avenir.





Les e-mails

Au cours de l'enquête sur Enron, la Federal Energy Regulatory Commission (FERC) a obtenu un échantillon des données de courrier électronique de l'entreprise - couvrant des années et 150 employés d'Enron (principalement des cadres supérieurs). Les données ont été utilisées dans le cadre de l'enquête pour identifier les personnes d'intérêt, puis la FERC a pris une décision inhabituelle et controversée.





Chaque nuage a une doublure argentée, et le scandale Enron a conduit à la publication des ensembles de données de messagerie les plus vastes et les plus complets jamais compilés. Ce qui était autrefois utilisé pour recueillir des preuves de fraude et de complot allait devenir l'un des meilleurs outils de lutte contre le spam et la fraude par hameçonnage que le monde ait jamais vu.





À des fins de transparence, de recherche historique et universitaire, la FERC a rendu public l'ensemble de données et l'a publié sur Internet.





Plus tard, il a été acheté par Leslie Kaelbling du MIT, et le travail acharné d'un certain nombre de personnes de SRI International a corrigé les erreurs d'intégrité et effectué quelques expurgations à la suite des demandes des employés concernés. La dernière version de l'ensemble de données date de 2015 et représente environ 1,7 Go compressé.





L'impact des e-mails sur la recherche est difficile à surestimer. Il s'agissait de la plus grande collection d'e-mails accessible au public avec plus de 500 000. Pour mettre les choses en perspective, le célèbre Piratage de Sony Pictures consistait en moins de 200 000 e-mails. Travailler à travers les e-mails, c'est à quel point ils sont normaux, les conversations simples et les bavardages au bureau. Il n'y a aucun sens d'un grand complot de fraude comptable dans les coulisses.





Ensuite, il y a le spam. Bien que la structure de l'ensemble de données rende son analyse difficile, l'échantillonnage à différents moments dans le temps est un moyen efficace de voir les volumes de spam augmenter et le développement du phishing. Ce qui, pour ceux qui essayaient de développer des outils anti-spam ou des filtres de phishing, était incroyablement précieux. Ce sont de véritables e-mails d'une organisation, pas un simple ensemble de données factices, et donc si un filtre peut fonctionner efficacement sur l'ensemble de données Enron, il est susceptible d'être efficace ailleurs.





Que nous disent les e-mails d'Enron ?

Cet ensemble de données a été initialement utilisé pour former les filtres mêmes sur lesquels nous comptons aujourd'hui pour détecter le spam et nous protéger contre le phishing, et reste la plus grande collection publiquement disponible d'e-mails d'entreprise. Une autre équipe a utilisé l'ensemble de données pour former un outil de conformité qui alerterait les utilisateurs sur les éléments sensibles du texte, une technique toujours au cœur des outils de prévention des fuites de données appliqués aux e-mails aujourd'hui. D'autres ont utilisé les e-mails d'Enron pour examiner comment les gens organisaient et stockaient les e-mails pour voir s'ils pouvaient être automatisés efficacement (en grande partie, comme le savent tous ceux qui s'appuient sur le tri automatisé, la réponse semble être non).





Encore plus regardé les données pour mieux comprendre les entreprises et les organisations. Des graphes sociaux de la haute direction ont été construits, révélant un nid de connexions autour de quelques nœuds, avec de minces voies vers tous les autres.





Source : https://tuva.s3-us-west-2.amazonaws.com/EnronSNA.pdf





Analyse de texte, traitement du langage, saisie semi-automatique, correction grammaticale, filtrage des spams, toutes sortes de recherches ont utilisé l'ensemble de données Enron. Une étude menée par un professeur d'anglais, Evan Frendo, a découvert une fixation sur les métaphores du «ballon» dans le langage des affaires américain.





L'ensemble de données Enron capture une période de l'histoire des entreprises américaines, de la technologie (un certain nombre d'e-mails ont été écrits sur des appareils BlackBerry, par exemple) et de la communication humaine. Cela marque également un changement dans la façon dont les ensembles de données ont été abordés dans la recherche - passant d'une focalisation sur la paternité (la valeur provient d'un expert créant les données) aux biens communs (les données sont précieuses non pas à cause des contributions individuelles, mais à cause de ce qu'elles montrent collectivement).





Étant donné que l'ensemble de données couvre plus d'une décennie, il montre l'évolution de l'étiquette et de l'utilisation des e-mails de 1991 au milieu des années 2000. Il y a même quelques blagues que les gens peuvent reconnaître aujourd'hui (une sur l'explication des différents systèmes gouvernementaux avec des vaches), ainsi que le racisme, la misogynie et la pornographie.









Si vous voulez une expérience de messagerie historique vécue, La belle vie (Simulateur Enron) vous donnera l'expérience de recevoir chacun des plus d'un demi-million d'e-mails dans l'ordre chronologique, sur des périodes allant de 7 à 28 ans.