从计算和数据分析的起源到我们现在所说的“现代数据堆栈”的旅程。接下来是什么?
计算和数据分析的起源
计算和数据分析的起源始于 20 世纪 50 年代中期,并随着 1970 年 SQL 的引入而开始成形:
- 1970:结构化查询语言 (SQL)
- 1970 年代:交互式财务规划系统- 创建一种语言“允许高管在没有中介的情况下建立模型”
- 1972 年: C,LUNAR - 现代计算的最早应用之一,自然语言信息检索系统,帮助地质学家访问、比较和评估有关月球岩石和土壤成分的化学分析数据
- 1975 年: Express - 第一个在线分析处理 (OLAP) 系统,旨在从不同角度分析业务数据
- 1979 年: VisiCalc - 第一个电子表格计算机程序
- 20世纪80年代:群体决策支持系统——“计算机化协同工作系统”
“现代数据堆栈”
“现代数据堆栈”是一组用于在集成良好的云平台中收集、存储、处理、分析和可视化数据的技术和工具。尽管 QlikView 出现在云时代之前,但它是大多数人认为 Tableau 和 PowerBI 等现代平台使用的分析仪表板的最早示例:
- 1994 年: QlikView - “仪表板驱动的分析”
- 2003:画面
- 2009 年: Wolfram Alpha - “计算搜索引擎”
- 2015: PowerBI
- 2017 年: ThoughtSpot - “搜索驱动的分析”
纸张、查询语言、电子表格、仪表板、搜索,下一步是什么?
一些最具创新性的分析应用程序,至少在用户体验方面,将人类语言转换为某些计算输出:
- 文本到 SQL: LUNAR 的历史悠久,最初开发于 70 年代,旨在帮助地质学家使用自然语言访问、比较和评估化学分析数据。 Salesforce WikiSQL 引入了第一个为文本到 SQL 用例构建的广泛数据纲要,但仅包含简单的 SQL 查询。 Yale Spider 数据集引入了针对更复杂查询的基准,最近,BIRD 引入了现实世界的“脏”查询和效率分数,以为文本到 SQL 应用程序创建适当的基准。
- 文本到计算语言: Wolfram Alpha、ThoughtSpot
- 文本到代码: ChatGPT 高级数据分析
“对话驱动的数据分析”是自然演变吗?
- 在 NLP 和 LLM 的推动下,搜索和聊天等现代分析界面的用户体验正在不断发展,变得更加直观
- 分析界面起源于为决策者提供支持,但决策者仍然在很大程度上依赖数据分析师
- 许多决策者查询都是临时的,最适合“一次性分析”
- 洞察力的产生是一个创造性的过程,在数据对话中(可能是与同行)获得许多洞察力
- 从分析的想象到结果的呈现,数据分析工作流程是脱节的。
致谢
“计算和数据分析的起源”部分的日期感谢https://web.paristech.com/hs-fs/file-2487731396.pdf和http://dssresources.com/history/dsshistoryv28.html 。