O e-mail acima não parece nada de especial. Na verdade, é apenas um e-mail inconseqüente em um conjunto de amostras de mais de meio milhão enviado entre 1997 e 2004 para, de e dentro de uma empresa, a Enron Corporation.
Incluir todos os mais de 500.000 e-mails neste artigo parecia excessivo, então escolhi algumas amostras. A história aqui não é tanto sobre os e-mails individuais, mas toda a jornada da Enron Corporation até sua morte final, o colapso de uma das maiores firmas de contabilidade do mundo transformando as Cinco Grandes nas Quatro Grandes e o desenvolvimento de filtros anti-spam.
Foi um acontecimento tão dramático que, mesmo mais de duas décadas depois, ressurge na cultura popular, mesmo quando muitos já não se lembram a que se refere.
Fundada em 1985 como uma fusão entre duas pequenas empresas regionais, a Enron Corporation vendeu energia, commodities e serviços até declarar falência em 2001. Com mais de 20.000 funcionários, eles reivindicaram uma receita de mais de $ 100 bilhões, e a Fortune a nomeou “
No final de 2001, ficou claro que a razão de seu sucesso maciço (até desproporcional) foi uma fraude deliberada e criativa, ignorada por (na época, supostamente auxiliada por) seus auditores.
As consequências foram imensas e rápidas, com a Enron declarando falência em 2001, a Arthur Andersen sendo dissolvida (portanto, agora temos as Quatro Grandes da Deloitte, EY, KPMG e PwC) e o subsequente colapso da WorldCom em 2002 devido a um escândalo contábil ainda maior, novamente com Arthur Andersen como seus auditores. De fato, várias auditorias defeituosas de outras empresas também vieram à tona.
Em 2002, a Lei Sarbanes-Oxley foi promulgada para tentar colocar alguns controles em torno das auditorias e evitar eventos semelhantes no futuro.
Durante a investigação sobre a Enron, a Federal Energy Regulatory Commission (FERC) obteve uma amostra dos dados de e-mail da empresa - abrangendo anos e 150 funcionários da Enron (a maioria da alta administração). Os dados foram usados como parte da investigação para identificar pessoas de interesse, e então a FERC tomou uma decisão incomum e controversa.
Cada nuvem tem um lado bom, e o escândalo da Enron levou ao lançamento dos maiores e mais abrangentes conjuntos de dados de e-mail já compilados. O que antes era usado para reunir evidências de fraude e conspiração se tornaria uma das maiores ferramentas contra spam e fraude por meio de phishing que o mundo já viu.
Para fins de transparência, pesquisa histórica e acadêmica, a FERC tornou o conjunto de dados público e o publicou na Internet.
Mais tarde, foi comprado por Leslie Kaelbling, do MIT, e o trabalho árduo de várias pessoas da SRI International corrigiu erros de integridade e realizou algumas redações após solicitações de funcionários afetados. A versão mais recente do conjunto de dados é de 2015 e chega a cerca de 1,7 Gb compactado.
É difícil exagerar o impacto dos e-mails na pesquisa. Esta foi a maior coleção de e-mails publicamente disponível em mais de 500.000. Para colocar em perspectiva, o conhecido
Depois, há o spam. Embora a estrutura do conjunto de dados dificulte a análise, a amostragem em diferentes pontos no tempo é uma maneira eficaz de ver o aumento dos volumes de spam e o desenvolvimento de phishing. O que, para quem está tentando desenvolver ferramentas anti-spam ou filtros de phishing, foi incrivelmente valioso. Esses são e-mails genuínos de uma organização, não um simples conjunto de dados fictícios e, portanto, se um filtro pode funcionar de maneira eficaz no conjunto de dados da Enron, provavelmente será eficaz em outro lugar.
Esse conjunto de dados foi inicialmente usado para treinar os próprios filtros com os quais contamos hoje para detectar spam e nos proteger contra phishing, e ainda é a maior coleção publicamente disponível de e-mails corporativos. Outra equipe usou o conjunto de dados para treinar uma ferramenta de conformidade que alertaria os usuários sobre elementos confidenciais no texto, uma técnica ainda no centro das ferramentas de prevenção de vazamento de dados aplicadas ao e-mail hoje. Outros usaram os e-mails da Enron para examinar como as pessoas organizavam e armazenavam e-mails para ver se isso poderia ser automatizado de forma eficaz (em grande parte, como qualquer pessoa que dependa da classificação automatizada saberá, a resposta parece ser não).
Ainda mais analisaram os dados para entender melhor as empresas e organizações. Gráficos sociais da alta administração foram construídos, revelando um ninho de conexões em torno de alguns nós, com caminhos estreitos para todos os outros.
Análise de texto, processamento de linguagem, preenchimento automático, correção gramatical, filtragem de spam, todos os tipos de pesquisa fizeram uso do conjunto de dados da Enron. Um estudo realizado por um professor de inglês, Evan Frendo, descobriu uma fixação em metáforas de 'bola' na linguagem comercial americana.
O conjunto de dados da Enron captura um período na história da América corporativa, da tecnologia (vários e-mails foram escritos em dispositivos BlackBerry, por exemplo) e da comunicação humana. Também marca uma mudança na forma como os conjuntos de dados foram abordados na pesquisa - mudando do foco na autoria (o valor vem de um especialista que cria os dados) para os comuns (os dados são valiosos não por causa de contribuições individuais, mas por causa do que eles mostram coletivamente).
Como o conjunto de dados abrange mais de uma década, ele mostra a evolução da etiqueta e do uso de e-mail de 1991 até meados dos anos 2000. Existem até algumas piadas que as pessoas podem reconhecer hoje (uma sobre explicar diferentes sistemas de governo com vacas), junto com racismo, misoginia e pornografia.
Se você deseja uma experiência de e-mail histórico ao vivo,