El correo electrónico anterior no parece nada especial. De hecho, es solo un correo electrónico intrascendente en un conjunto de muestra de más de medio millón enviado entre 1997 y 2004 a, desde y dentro de una empresa, Enron Corporation.
Incluir los más de 500 000 correos electrónicos en este artículo parecía excesivo, por lo que seleccioné algunos ejemplos. La historia aquí no se trata tanto de los correos electrónicos individuales, sino de todo el viaje de Enron Corporation hasta su desaparición final, el colapso de una de las firmas contables más grandes del mundo que convirtió a los Cinco Grandes en los Cuatro Grandes, y el desarrollo de filtros anti-spam.
Este fue un evento lo suficientemente dramático que, incluso más de dos décadas después, aparece en la cultura popular, incluso cuando muchos ya no recuerdan a qué se refiere.
Fundada en 1985 como una fusión entre dos pequeñas empresas regionales, Enron Corporation vendió energía, materias primas y servicios hasta que se declaró en bancarrota en 2001. Con más de 20 000 empleados, reclamaron ingresos de más de $100 mil millones, y Fortune lo nombró “
Hacia fines de 2001 quedó claro que la razón de su éxito masivo (incluso desproporcionado) fue un fraude deliberado y creativo, pasado por alto (en ese momento, supuestamente ayudado por) sus auditores.
Las consecuencias fueron inmensas y rápidas, con la declaración de quiebra de Enron en 2001, la disolución de Arthur Andersen (por lo tanto, ahora tenemos los Cuatro Grandes de Deloitte, EY, KPMG y PwC) y el posterior colapso de WorldCom en 2002 debido a una escándalo contable aún mayor, nuevamente con Arthur Andersen como sus auditores. De hecho, también salieron a la luz varias auditorías defectuosas de otras compañías.
En 2002, se promulgó la Ley Sarbanes-Oxley para tratar de colocar algunos controles en torno a las auditorías y evitar eventos similares en el futuro.
Durante la investigación de Enron, la Comisión Federal Reguladora de Energía (FERC) obtuvo una muestra de los datos de correo electrónico de la empresa, que abarcan años y 150 empleados de Enron (en su mayoría, altos directivos). Los datos se usaron como parte de la investigación para identificar a las personas de interés, y luego la FERC tomó una decisión inusual y controvertida.
Cada nube tiene un resquicio de esperanza, y el escándalo de Enron condujo al lanzamiento de los conjuntos de datos de correo electrónico más grandes y completos jamás compilados. Lo que una vez se usó para recopilar evidencia de fraude y conspiración, se convertiría en una de las mejores herramientas contra el spam y el fraude a través del phishing que el mundo haya visto.
Con fines de transparencia, investigación histórica y académica, la FERC hizo público el conjunto de datos y lo publicó en Internet.
Más tarde fue comprado por Leslie Kaelbling del MIT, y el arduo trabajo de varias personas en SRI International corrigieron los errores de integridad y llevaron a cabo algunas redacciones a raíz de las solicitudes de los empleados afectados. La última versión del conjunto de datos es de 2015 y llega a alrededor de 1,7 Gb comprimidos.
Es difícil exagerar el impacto de los correos electrónicos en la investigación. Esta fue la colección más grande de correos electrónicos disponibles públicamente con más de 500,000. Para ponerlo en perspectiva, el conocido
Luego está el spam. Si bien la estructura del conjunto de datos dificulta el análisis, el muestreo en diferentes puntos en el tiempo es una forma efectiva de ver el aumento de los volúmenes de spam y el desarrollo del phishing. Lo cual, para aquellos que intentaban desarrollar herramientas antispam o filtros de phishing, fue increíblemente valioso. Estos son correos electrónicos genuinos de una organización, no un simple conjunto de datos ficticios, por lo que si un filtro puede funcionar de manera efectiva en el conjunto de datos de Enron, es probable que sea efectivo en otros lugares.
Este conjunto de datos se usó inicialmente para entrenar los mismos filtros en los que confiamos hoy para detectar spam y protegernos del phishing, y sigue siendo la mayor colección de correos electrónicos de empresas disponible públicamente. Otro equipo usó el conjunto de datos para entrenar una herramienta de cumplimiento que alertaría a los usuarios sobre elementos confidenciales en el texto, una técnica que aún se encuentra en el centro de las herramientas de prevención de fugas de datos aplicadas al correo electrónico en la actualidad. Otros utilizaron los correos electrónicos de Enron para examinar cómo las personas organizaban y almacenaban los correos electrónicos para ver si podían automatizarse de manera efectiva (en gran parte, como sabrá cualquiera que confíe en la clasificación automática, la respuesta parece ser no).
Aún más observaron los datos para comprender mejor a las empresas y organizaciones. Se construyeron gráficos sociales de la alta gerencia, revelando un nido de conexiones alrededor de unos pocos nodos, con vías delgadas para todos los demás.
El análisis de texto, el procesamiento de idiomas, el autocompletado, la corrección gramatical, la filtración de spam y todo tipo de investigación han hecho uso del conjunto de datos de Enron. Un estudio realizado por un profesor de inglés, Evan Frendo, descubrió una fijación con las metáforas de la 'pelota' en el lenguaje comercial estadounidense.
El conjunto de datos de Enron captura un período en la historia de las empresas estadounidenses, de la tecnología (varios de los correos electrónicos se escribieron en dispositivos BlackBerry, por ejemplo) y de la comunicación humana. También marca un cambio en la forma en que se abordaron los conjuntos de datos en la investigación: cambiar de un enfoque en la autoría (el valor proviene de un experto que crea los datos) a los bienes comunes (los datos son valiosos no por las contribuciones individuales, sino por lo que muestran). colectivamente).
Dado que el conjunto de datos cubre más de una década, muestra la evolución de la etiqueta y el uso del correo electrónico desde 1991 hasta mediados de la década de 2000. Incluso hay algunos chistes que la gente puede reconocer hoy (uno sobre explicar diferentes sistemas de gobierno con vacas), junto con el racismo, la misoginia y la pornografía.
Si desea una experiencia de correo electrónico histórica vivida,