作者：  （1） Sasun Hambardzumyan，Activeloop，加利福尼亚州山景城，美国；  （2） Abhinav Tuli，Activeloop，美国加利福尼亚州山景城；  （3） Levon Ghukasyan，Activeloop，美国加利福尼亚州山景城；  （4）Fariz Rahman，Activeloop，美国加利福尼亚州山景城；  （5） Hrant Topchyan，Activeloop，美国加利福尼亚州山景城；  （6）David Isayan，Activeloop，美国加利福尼亚州山景城；  （7）Mark McQuade，Activeloop，美国加利福尼亚州山景城；  （8） Mikayel Harutyunyan，Activeloop，美国加利福尼亚州山景城；  （9） Tatevik Hakobyan，Activeloop，加利福尼亚州山景城，美国；  （10） Ivo Stranic，Activeloop，加利福尼亚州山景城，美国；  （11）Davit Buniatyan，Activeloop，加利福尼亚州山景城，美国。 链接表 摘要和简介 当前的挑战 张量存储格式 深湖系统概述 机器学习用例 性能基准 讨论和局限性 相关工作 结论、致谢和参考文献 9. 结论 我们介绍了 Deep Lake，即深度学习的 Lakehouse。Deep Lake 旨在帮助深度学习工作流程像在 Modern Data Stack 上运行的分析工作流程一样无缝运行。值得注意的是，Deep Lake 的构建是为了保留数据湖的突出特点，例如时间旅行、查询和大规模快速数据提取。与传统数据湖的一个重要区别是 Deep Lake 能够以深度学习原生的列格式存储非结构化数据及其所有元数据，从而实现快速数据流。这允许即时实现数据子集、在浏览器中可视化它们或将它们提取到深度学习框架中，而不会牺牲 GPU 利用率。最后，我们通过多个基准测试表明 Deep Lake 在大型数据集上实现了深度学习的最新性能。  10. 确认 作者要感谢 Richard Socher、Travis Oliphant、Charu Rudrakshi、Artem Harutyunyan、Iason Ofeidis、Diego Kiedanski、Vishnu Nair、Fayaz Rahman、Dyllan McCreary、Benjamin Hindman、Eduard Grigoryan、Kristina Grigoryan、Ben Chislett、Joubin Houshyar、Andrii Liubimov、Assaf Pinhasi、Vishnu Nair、Eshan Arora、Shashank Agarwal、Pawel Janowski、Kristina Arezina、Gevorg Karapetyan、Vigen Sahakyan 以及包括贡献者在内的开源社区。该项目由 Activeloop 资助。我们还要感谢 CIDR 审阅者的反馈。 参考 [1] 2006.亚马逊 S3。 GitHub 2022,1（2006）。 https://aws.amazon。 com/s3  [2] 2009. Clickhouse。GitHub 2022, 1 (2009)。https://github.com/ClickHouse/ClickHouse  [3] 2010. Google Cloud Storage。GitHub 2022, 1 (2010)。https://cloud.google.com/storage  [4] 2012. Google BigQuery。GitHub 2022, 1 (2012)。https://cloud.google.com/bigquery  [5] 2014. Protocol Buffers - Google 的数据交换格式。GitHub 2022, 1 (2014)。https://github.com/protocolbuffers/ protobuf  [6] 2015. Apache 软件基金会：Apache ORC。GitHub 2022, 1 (2015)。https://github.com/apache/orc  [7] 2016. Feather。GitHub 2022, 1 (2016)。https://github.com/wesm/feather  [8] 2016 年。Weaviate：机器学习优先的矢量搜索引擎。GitHub 2022, 1 (2016 年)。https://github.com/semi-technologies/weaviate  [9] 2017. Apache Airflow。GitHub 2022, 1 (2017)。http://airflow.incubator.apache.org  [10] 2017. Apache 软件基金会：Apache Hudi。GitHub 2022, 1 (2017)。https://hudi.apache.org  [11] 2017. CloudVolume：用于 Neuroglancer 数据集的 IO。GitHub 2022, 1 (2017)。https://github.com/seung-lab/cloud-volume  [12] 2018. Amazon Athena。GitHub 2022, 1 (2018)。https://aws. amazon.com/athena  [13] 2018. Apache 软件基金会：Apache Arrow。GitHub 2022, 1 (2018)。https://arrow.apache.org  [14] 2018. Apache 软件基金会：Apache Hadoop。GitHub 2022, 1 (2018)。https://hadoop.apache.org  [15] 2018 年。Apache 软件基金会：Apache Iceberg。GitHub 2022, 1 (2018)。https://iceberg.apache.org  [16] 2018. Feast：机器学习的开源特征存储。GitHub 2022, 1 (2018)。https://github.com/feast-dev/feast  [17] 2018. 与 Amazon S3 API 兼容的 MinIO 高性能对象存储服务器。GitHub 2022, 1 (2018)。https://github.com/minio/minio  [18] 2018. Petastorm。GitHub 2022, 1 (2018)。https://github.com/uber/petastorm [19] 2018. WebDataset 格式。GitHub 2022, 1 (2018)。https://github.com/webdataset/webdataset  [20] 2019. Apache 软件基金会：Apache Avro。GitHub 2019, 1 (2019)。https://avro.apache.org  [21] 2019. LakeFS：具有类似 Git 存储库的数据湖。GitHub 2022, 1 (2019)。https://github.com/treeverse/lakeFS  [22] 2020. Airbyte。GitHub 2022, 1 (2020)。https://github.com/airbytehq/airbyte  [23] 2020. TensorStore：用于读取和写入大型多维数组的库。GitHub 2022, 1 (2020)。https://github. com/google/tensorstore  [24] 2021. N5：指定存储大型分块 n 维张量和任意元数据所需的原始操作，这些元数据位于与 HDF5 类似的组层次结构中。GitHub 2021，1 (2021)。https://github.com/saalfeldlab/n5  [25] Martín Abadi、Paul Barham、Jianmin Chen、Zhifeng Chen、Andy Davis、Jeffrey Dean、Matthieu Devin、Sanjay Ghemawat、Geoffrey Irving、Michael Isard 等。2016 年。Tensorflow：一种用于大规模机器学习的系统。第 12 届 {USENIX} 操作系统设计与实现研讨会 ({OSDI} 16)。265–283。  [26] Alex Aizman、Gavin Maltby 和 Thomas Breuel。2019 年。适用于大规模深度学习的高性能 I/O。2019 年 IEEE 大数据国际会议（大数据）。IEEE，5965–5967。  [27] Michael Armbrust、Tathagata Das、Liwen Sun、Burak Yavuz、Shixiong Zhu、Mukul Murthy、Joseph Torres、Herman van Hovell、Adrian Ionescu、Alicja Łuszczak 等人。2020 年。Delta Lake：基于云对象存储的高性能 ACID 表存储。VLDB Endowment 论文集 13、12（2020 年），3411–3424。[28] Michael Armbrust、Ali Ghodsi、Reynold Xin 和 Matei Zaharia。2021 年。Lakehouse：统一数据仓库和高级分析的新一代开放平台。CIDR 论文集。  [29] Alexei Baevski、Wei-Ning Hsu、Qiantong Xu、Arun Babu、Jiatao Gu 和 Michael Auli。2022 年。Data2vec：语音、视觉和语言自监督学习的通用框架。arXiv 预印本 arXiv:2202.03555 (2022 年)。  [30] Dzmitry Bahdanau、Kyunghyun Cho 和 Yoshua Bengio。2014 年。通过联合学习对齐和翻译实现神经机器翻译。arXiv 预印本 arXiv:1409.0473（2014 年）。  [31] James Bradbury、Roy Frostig、Peter Hawkins、Matthew James Johnson、Chris Leary、Dougal Maclaurin、George Necula、Adam Paszke、Jake VanderPlas、Skye Wanderman-Milne 和 Qiao Zhang。2018 年。JAX：Python+NumPy 程序的可组合转换。http://github.com/google/jax  [32] Tom Brown、Benjamin Mann、Nick Ryder、Melanie Subbiah、Jared D Kaplan、Prafulla Dhariwal、Arvind Neelakantan、Pranav Shyam、Girish Sastry、Amanda Askell 等人。2020 年。语言模型是少样本学习器。神经信息处理系统进展 33（2020 年），1877–1901 年。  [33] Benoit Dageville、Thierry Cruanes、Marcin Zukowski、Vadim Antonov、Artin Avanes、Jon Bock、Jonathan Claybaugh、Daniel Engovatov、Martin Hentschel、Jiansheng Huang 等。2016 年。雪花弹性数据仓库。2016 年国际数据管理会议论文集。215–226。  [34] 邓佳、董伟、Richard Socher、李莉佳、李凯、李飞飞。 2009.Imagenet：一个大规模分层图像数据库。参加2009年IEEE计算机视觉与模式识别会议。 IEEE，248-255。  [35] J. Deng、W. Dong、R. Socher、L.-J. Li、K. Li 和 L. Fei-Fei。2009 年。ImageNet：一个大规模分层图像数据库。CVPR09。  [36] Jacob Devlin、Ming-Wei Chang、Kenton Lee 和 Kristina Toutanova。2018 年。Bert：用于语言理解的深度双向转换器的预训练。arXiv 预印本 arXiv:1810.04805（2018 年）。  [37] Markus Dreseler、Jan Kossmann、Martin Boissier、Stefan Klauck、Matthias Uflacker 和 Hasso Plattner。2019 年。Hyrise 重新设计：用于关系内存数据管理研究的可扩展数据库系统。数据库技术进展 - 第 22 届扩展数据库技术国际会议，EDBT 2019，葡萄牙里斯本，2019 年 3 月 26-29 日，Melanie Herschel、Helena Galhardas、Berthold Reinwald、Irini Fundulaki、Carsten Binnig 和 Zoi Kaoudi（编辑）。OpenProceedings.org，313–324。https://doi.org/10.5441/002/edbt。2019.28  [38] Ian Goodfellow、Yoshua Bengio 和 Aaron Courville。2016 年。深度学习。麻省理工学院出版社。  [39] Andrew Ilyas Sam Park Hadi Salman Guillaume Leclerc、Logan Engstrom。2021 年。WebDataset 格式。GitHub 2022, 1 (2021)。https://github.com/libffcv/ffcv  [40] Anurag Gupta、Deepak Agarwal、Derek Tan、Jakub Kulesza、Rahul Pathak、Stefano Stefani 和 Vidhya Srinivasan。2015 年。《亚马逊红移和更简单的数据仓库案例》。2015 年 ACM SIGMOD 国际数据管理会议论文集。1917-1923 年。  [41] Dong He、Supun Nakandala、Dalitso Banda、Rathijit Sen、Karla Saur、Kwanghyun Park、Carlo Curino、Jesús CamachoRodríguez、Konstantinos Karanasos 和 Matteo Interlandi。2022 年。张量计算运行时的查询处理。arXiv 预印本 arXiv:2203.01877 (2022 年)。  [42] 黄宇和陈越。2020 年。深度学习在自动驾驶领域的应用现状调查。2020 年 IEEE 第 20 届软件质量、可靠性和安全性国际会议（QRS-C）。IEEE，221–228。  [43] Tero Karras、Samuli Laine 和 Timo Aila。2019 年。基于风格的生成对抗网络生成器架构。IEEE/CVF 计算机视觉和模式识别会议论文集。4401–4410。  [44] Alex Krizhevsky、Ilya Sutskever 和 Geoffrey E Hinton。2012 年。使用深度卷积神经网络进行 Imagenet 分类。神经信息处理系统进展。1097–1105。Deep Lake：深度学习的 Lakehouse  [45] Abhishek Vijaya Kumar 和 Muthian Sivathanu。2020 年。Quiver：用于深度学习的知情存储缓存。第 18 届 USENIX 文件和存储技术会议 (FAST 20)。283–296。  [46] Ruslan Kuprieiev、skshetry、Dmitry Petrov、Paweł Redzyński、Peter Rowlands、Casper da Costa-Luis、Alexander Schepanovski、Ivan Shcheklein、Batuhan Taskaya、Gao、Jorge Orpinel、David de la Iglesia Castro、Fábio Santos、Aman Sharma、Dave Berenbaum、Zhanibek、Dani Hodovic、Nikita Kodenko、Andrew Grigorev、Earl、daniele、Nabanita Dash、George Vyshnya、maykulkarni、Max Hora、Vera、Sanidhya Mangal 和 Wojciech Baranowski。2022 年。DVC：数据版本控制 - 用于数据和模型的 Git。https://doi.org/10.5281/zenodo.7039863  [47] Yann LeCun、Yoshua Bengio 和 Geoffrey Hinton。2015 年。深度学习。《自然》521，7553（2015），436。  [48] Kisuk Lee、Jonathan Zung、Peter Li、Viren Jain 和 H Sebastian Seung。2017 年。SNEMI3D 连接组学挑战赛超人准确率。arXiv 预印本 arXiv:1706.00120（2017 年）。  [49] Tsung-Yi Lin、Michael Maire、Serge Belongie、James Hays、Pietro Perona、Deva Ramanan、Piotr Dollár 和 C Lawrence Zitnick。2014 年。Microsoft coco：上下文中的常见对象。欧洲计算机视觉会议。Springer，740–755。  [50] Frank Sifei Luan、Stephanie Wang、Samyukta Yagati、Sean Kim、Kenneth Lien、SangBin Cho、Eric Liang 和 Ion Stoica。2022 年。Exoshuffle：应用级别的大规模改组。arXiv 预印本 arXiv:2203.05072 (2022 年)。  [51] Tomas Mikolov、Kai Chen、Greg Corrado 和 Jeffrey Dean。2013 年。向量空间中词语表征的有效估计。arXiv 预印本 arXiv:1301.3781（2013 年）。  [52] Alistair Miles、John Kirkham、Martin Durant、James Bourbeau、Tarik Onalan、Joe Hamman、Zain Patel、shikharsg、Matthew Rocklin、raphael dussin、Vincent Schut、Elliott Sales de Andrade、Ryan Abernathey、Charles Noyes、sbalmer、pyup.io bot、Tommy Tran、Stephan Saalfeld、Justin Swaney、Josh Moore、Joe Jevnik、Jerome Kelleher、Jan Funke、George Sakkis、Chris Barnes 和 Anderson Banihirwe。2020 年。zarr-developers/zarrpython：v2.4.0。https://doi.org/10.5281/zenodo.3773450  [53] Philipp Moritz、Robert Nishihara、Stephanie Wang、Alexey Tumanov、Richard Liaw、Eric Liang、Melih Elibol、Zongheng Yang、William Paul、Michael I Jordan 等人。2018 年。Ray：面向新兴 {AI} 应用程序的分布式框架。第 13 届 {USENIX} 操作系统设计与实现研讨会 ({OSDI} 18)。561–577。  [54] Iason Ofeidis、Diego Kiedanski 和 Leandros Tassiulas。2022 年。数据加载器概况：比较性能分析。arXiv 预印本 arXiv:2209.13705 (2022)。[  55] Travis E Oliphant。2006 年。NumPy 指南。第 1 卷。Trelgol Publishing USA。  [56] Aaron van den Oord、Sander Dieleman、Heiga Zen、Karen Simonyan、Oriol Vinyals、Alex Graves、Nal Kalchbrenner、Andrew Senior 和 Koray Kavukcuoglu。2016 年。Wavenet：原始音频的生成模型。arXiv 预印本 arXiv:1609.03499（2016 年）。  [57] Stavros Papadopoulos、Kushal Datta、Samuel Madden 和 Timothy Mattson。2016 年。tiledb 阵列数据存储管理器。VLDB Endowment 论文集 10，4（2016 年），349–360。  [58] Adam Paszke、Sam Gross、Soumith Chintala、Gregory Chanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga 和 Adam Lerer。2017 年。Pytorch 中的自动微分。（2017 年）。  [59] Masha Basmanova Kevin Wilfong Laith Sakka Krishna Pai Wei He Biswapesh Chattopadhyay Pedro Pedreira、Orri Erling。2022 年。Velox：Meta 的统一执行引擎。VLDB 捐赠基金论文集 (2022)。  [60] Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、Jack Clark 等人。2021 年。通过自然语言监督学习可迁移视觉模型。国际机器学习会议。PMLR，8748–8763。  [61] Pranav Rajpurkar、Jeremy Irvin、Kaylie Zhu、Brandon Yang、Hershel Mehta、Tony Duan、Daisy Ding、Aarti Bagul、Curtis Langlotz、Katie Shpanskaya 等人。2017 年。Chexnet：利用深度学习在胸部 X 光片上进行放射科医生级别的肺炎检测。arXiv 预印本 arXiv:1711.05225（2017 年）。  [62] Aditya Ramesh、Mikhail Pavlov、Gabriel Goh、Scott Gray、Chelsea Voss、Alec Radford、Mark Chen 和 Ilya Sutskever。2021 年。零样本文本到图像生成。国际机器学习会议。PMLR，8821–8831。  [63] Joseph Redmon、Santosh Divvala、Ross Girshick 和 Ali Farhadi。2016 年。只需看一次：统一的实时物体检测。IEEE 计算机视觉和模式识别会议论文集。779–788。  [64] 阿米特·萨布内 (Amit Sabne)。2020 年。Xla：编译机器学习以实现最佳性能。(2020 年)。  [65] Chitwan Saharia、William Chan、Saurabh Saxena、Lala Li、Jay Whang、Emily Denton、Seyed Kamyar Seyed Ghasemipour、Burcu Karagol Ayan、S Sara Mahdavi、Rapha Gontijo Lopes 等人。2022 年。具有深度语言理解的逼真文本到图像扩散模型。arXiv 预印本 arXiv:2205.11487 (2022 年)。  [66] Tom van Bussel Samwel、Herman van Hovell、Maryann Xue、Reynold Xin 和 Matei Zaharia。2022 年。Photon：Lakehouse Systems 的快速查询引擎。(2022 年)。  [67] Christoph Schuhmann、Romain Beaumont、Cade W Gordon、Ross Wightman、Theo Coombes、Aarush Katta、Clayton Mullis、Patrick Schramowski、Srivatsa R Kundurthy、Katherine Crowson 等人。2022 年。LAION-5B：用于训练下一代图像文本模型的开放大规模数据集。（2022 年）。  [68] Christoph Schuhmann、Richard Vencu、Romain Beaumont、Robert Kaczmarczyk、Clayton Mullis、Aarush Katta、Theo Coombes、Jenia Jitsev 和 Aran Komatsuzaki。2021 年。Laion400m：经过剪辑过滤的 4 亿个图像-文本对的开放数据集。arXiv 预印本 arXiv:2111.02114 (2021 年)。  [69] Philip Schwan 等，2003 年。《Lustre：为 1000 节点集群构建文件系统》。《2003 年 Linux 研讨会论文集》，第 2003 卷，第 380–386 页。  [70] Raghav Sethi、Martin Traverso、Dain Sundstrom、David Phillips、Wenlei Xie、Yutian Sun、Nezih Yegitbasi、Haozhun Jin、Eric Hwang、Nileema Shingte 等人。2019 年。Presto：一切皆 SQL。2019 年 IEEE 第 35 届国际数据工程会议 (ICDE)。IEEE，1802–1813。  [71] Konstantin Shvachko、Hairong Kuang、Sanjay Radia、Robert Chansler 等人，2010 年，Hadoop 分布式文件系统，MSST，第 10 卷，1-10。  [72] David Silver、Thomas Hubert、Julian Schrittwieser、Ioannis Antonoglou、Matthew Lai、Arthur Guez、Marc Lanctot、Laurent Sifre、Dharshan Kumaran、Thore Graepel 等人。2018 年。一种通过自我对弈掌握国际象棋、将棋和围棋的通用强化学习算法。Science 362，6419（2018 年），1140–1144。  [73] K Stumpf、S Bedratiuk 和 O Cirit。2018 年。Michelangelo PyML：介绍 Uber 的快速 Python ML 模型开发平台。Uber。请参阅：https://eng. uber. com/michelangelo-pyml (2018)。  [74] Pedro Javier Ortiz Suárez、Benoît Sagot 和 Laurent Romary。2019 年。在中低资源基础设施上处理大型语料库的异步管道。第 7 届大型语料库管理挑战研讨会 (CMLC-7)。莱布尼茨德语研究所。  [75] Squirrel 开发团队。2022 年。Squirrel：一个 Python 库，使 ML 团队能够以协作、灵活和高效的方式共享、加载和转换数据。GitHub。注：https://github.com/merantix-momentum/squirrel-core (2022)。https://doi.org/10.5281/zenodo.6418280  [76] Ashish Thusoo、Joydeep Sen Sarma、Namit Jain、Zheng Shao、Prasad Chakka、Ning Zhang、Suresh Antony、Hao Liu 和 Raghotham Murthy。2010 年。Hive - 使用 Hadoop 的 PB 级数据仓库。2010 年 IEEE 第 26 届数据工程国际会议（ICDE 2010）。IEEE，996-1005。  [77] Kathryn Tunyasuvunakool、Jonas Adler、Zachary Wu、Tim Green、Michal Zielinski、Augustin Žídek、Alex Bridgland、Andrew Cowie、Clemens Meyer、Agata Laydon 等人。2021 年。人类蛋白质组的高精度蛋白质结构预测。《自然》596，7873（2021 年），590–596。  [78] Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Łukasz Kaiser 和 Illia Polosukhin。2017 年。注意力就是你所需要的一切。神经信息处理系统进展 30（2017 年）。  [79] Deepak Vohra。2016 年。Apache Parquet。《实用 Hadoop 生态系统》。Springer，325-335。  [80]王建国、易小萌、郭仁彤、金海、徐鹏、李胜军、王翔宇、郭祥洲、李成明、徐小海等。 2021. Milvus：专用的矢量数据管理系统。在 2021 年国际数据管理会议论文集上。 2614–2627。  [81] Zhilin Yang、Zihang Dai、Yiming Yang、Jaime Carbonell、Russ R Salakhutdinov 和 Quoc V Le。2019 年。Xlnet：用于语言理解的广义自回归预训练。神经信息处理系统进展 32（2019 年）。  [82] Matei Zaharia、Mosharaf Chowdhury、Michael J Franklin、Scott Shenker 和 Ion Stoica。2010 年。Spark：使用工作集的集群计算。HotCloud 10, 10-10（2010 年），95。  [83] 张翔、赵俊波、Yann LeCun。2015 年。用于文本分类的字符级卷积网络。神经信息处理系统进展。649–657。 该论文 。 可在 arxiv 上根据 CC 4.0 许可获取

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Dataology.TECH

Dataology is the study of data. We publish the highest quality university papers & blog posts about the essence of data.

Dataology

該音頻是用故事的原始語言製作的！

Deep Lake，深度学习的 Lakehouse：结论、致谢和参考文献

About Author

註釋

標籤

这篇文章刊登在

Related Stories

Claude Sonnet 3.5 系统提示泄漏：法医分析

从论坛到信息流：社交媒体算法如何塑造数字互动

架构师指南：构建 AI/ML 数据湖参考架构

比特币 UTXO 模型，为独特的生态系统提供动力

Claude Sonnet 3.5 系统提示泄漏：法医分析

从论坛到信息流：社交媒体算法如何塑造数字互动

架构师指南：构建 AI/ML 数据湖参考架构

比特币 UTXO 模型，为独特的生态系统提供动力

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps