Autores:
(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, EUA;
(2) Abhinav Tuli, Activeloop, Mountain View, CA, EUA;
(3) Levon Ghukasyan, Activeloop, Mountain View, CA, EUA;
(4) Fariz Rahman, Activeloop, Mountain View, CA, EUA;.
(5) Hrant Topchyan, Activeloop, Mountain View, CA, EUA;
(6) David Isayan, Activeloop, Mountain View, CA, EUA;
(7) Mark McQuade, Activeloop, Mountain View, CA, EUA;
(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, EUA;
(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, EUA;
(10) Ivo Stranic, Activeloop, Mountain View, CA, EUA;
(11) Davit Buniatyan, Activeloop, Mountain View, CA, EUA.
Apresentamos Deep Lake, a casa do lago para aprendizado profundo. O Deep Lake foi projetado para ajudar os fluxos de trabalho de aprendizagem profunda a funcionarem tão perfeitamente quanto os fluxos de trabalho analíticos executados no Modern Data Stack. Notavelmente, Deep Lake foi desenvolvido para reter recursos proeminentes de data lakes, como viagem no tempo, consulta e ingestão rápida de dados em escala. Uma distinção importante dos data lakes tradicionais é a capacidade do Deep Lake de armazenar dados não estruturados com todos os seus metadados em formato colunar nativo de aprendizagem profunda, o que permite o rápido streaming de dados. Isso permite materializar subconjuntos de dados dinamicamente, visualizá-los no navegador ou ingeri-los em estruturas de aprendizado profundo sem sacrificar a utilização da GPU. Finalmente, mostramos que Deep Lake alcança desempenho de última geração para aprendizagem profunda em grandes conjuntos de dados por meio de vários benchmarks.
Os autores gostariam de agradecer a Richard Socher, Travis Oliphant, Charu Rudrakshi, Artem Harutyunyan, Iason Ofeidis, Diego Kiedanski, Vishnu Nair, Fayaz Rahman, Dyllan McCreary, Benjamin Hindman, Eduard Grigoryan, Kristina Grigoryan, Ben Chislett, Joubin Houshyar, Andrii Liubimov , Assaf Pinhasi, Vishnu Nair, Eshan Arora, Shashank Agarwal, Pawel Janowski, Kristina Arezina, Gevorg Karapetyan, Vigen Sahakyan e a comunidade de código aberto, incluindo colaboradores. O projeto foi financiado pela Activeloop. Agradecemos também aos revisores do CIDR pelos seus comentários.
[1] 2006. Amazon S3. GitHub 2022, 1 (2006). https://aws.amazon. com/s3
[2] 2009. Clickhouse. GitHub 2022, 1 (2009). https://github.com/ClickHouse/ClickHouse
[3] 2010. Armazenamento em nuvem do Google. GitHub 2022, 1 (2010). https: //cloud.google.com/storage
[4] 2012. Google BigQuery. GitHub 2022, 1 (2012). https://nuvem. google.com/bigquery
[5] 2014. Protocol Buffers - formato de intercâmbio de dados do Google. GitHub 2022, 1 (2014). https://github.com/protocolbuffers/ protobuf
[6] 2015. Fundação Apache Software: Apache ORC. GitHub 2022, 1 (2015). https://github.com/apache/orc
[7] 2016. Pena. GitHub 2022, 1 (2016). https://github.com/wesm/feather
[8] 2016. Weaviate: O primeiro mecanismo de pesquisa vetorial de ML. GitHub 2022, 1 (2016). https://github.com/semi-technologies/weaviate
[9] 2017. Fluxo de ar Apache. GitHub 2022, 1 (2017). http://fluxo de ar. incubadora.apache.org
[10] 2017. Fundação Apache Software: Apache Hudi. GitHub 2022, 1 (2017). https://hudi.apache.org
[11] 2017. CloudVolume: IO para conjuntos de dados Neuroglancer. GitHub 2022, 1 (2017). https://github.com/seung-lab/cloud-volume
[12] 2018. Amazon Atena. GitHub 2022, 1 (2018). https://aws. amazon.com/athena
[13] 2018. Fundação Apache Software: Apache Arrow. GitHub 2022, 1 (2018). https://arrow.apache.org
[14] 2018. Fundação Apache Software: Apache Hadoop. GitHub 2022, 1 (2018). https://hadoop.apache.org
[15] 2018. Fundação Apache Software: Apache Iceberg. GitHub 2022, 1 (2018). https://iceberg.apache.org
[16] 2018. Festa: armazenamento de recursos de código aberto para aprendizado de máquina. GitHub 2022, 1 (2018). https://github.com/feast-dev/feast
[17] 2018. Servidor de armazenamento de objetos de alto desempenho MinIO compatível com API Amazon S3. GitHub 2022, 1 (2018). https://github.com/minio/minio
[18] 2018. Petatempestade. GitHub 2022, 1 (2018). https://github.com/uber/petastorm [19] 2018. O formato WebDataset. GitHub 2022, 1 (2018). https: //github.com/webdataset/webdataset
[20] 2019. Fundação Apache Software: Apache Avro. GitHub 2019, 1 (2019). https://avro.apache.org
[21] 2019. LakeFS: data lake com repositório semelhante ao Git. GitHub 2022, 1 (2019). https://github.com/treeverse/lakeFS
[22] 2020. Byte aéreo. GitHub 2022, 1 (2020). https://github.com/airbytehq/airbyte
[23] 2020. TensorStore: Biblioteca para leitura e gravação de grandes arrays multidimensionais. GitHub 2022, 1 (2020). https://github. com/google/tensorstore
[24] 2021. N5: especifica as operações primitivas necessárias para armazenar grandes tensores n-dimensionais fragmentados e metadados arbitrários em uma hierarquia de grupos semelhante a HDF5. GitHub 2021, 1 (2021). https://github.com/saalfeldlab/n5
[25] Martín Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard, e outros. 2016. Tensorflow: Um sistema para aprendizado de máquina em larga escala. No 12º Simpósio {USENIX} sobre Design e Implementação de Sistemas Operacionais ({OSDI} 16). 265–283.
[26] Alex Aizman, Gavin Maltby e Thomas Breuel. 2019. E/S de alto desempenho para aprendizado profundo em larga escala. Em 2019 Conferência Internacional IEEE sobre Big Data (Big Data). IEEE, 5965–5967.
[27] Michael Armbrust, Tathagata Das, Liwen Sun, Burak Yavuz, Shixiong Zhu, Mukul Murthy, Joseph Torres, Herman van Hovell, Adrian Ionescu, Alicja Łuszczak, e outros. 2020. Delta lake: armazenamento de tabelas ACID de alto desempenho em armazenamentos de objetos em nuvem. Anais do VLDB Endowment 13, 12 (2020), 3411–3424. [28] Michael Armbrust, Ali Ghodsi, Reynold Xin e Matei Zaharia. 2021. Lakehouse: uma nova geração de plataformas abertas que unificam armazenamento de dados e análises avançadas. Em Anais do CIDR.
[29] Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu e Michael Auli. 2022. Data2vec: Uma estrutura geral para aprendizagem autossupervisionada em fala, visão e linguagem. Pré-impressão arXiv arXiv:2202.03555 (2022).
[30] Dzmitry Bahdanau, Kyunghyun Cho e Yoshua Bengio. 2014. Tradução automática neural aprendendo em conjunto a alinhar e traduzir. pré-impressão arXiv arXiv:1409.0473 (2014).
[31] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne e Qiao Zhang. 2018. JAX: transformações combináveis de programas Python+NumPy. http://github.com/google/jax
[32] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. 2020. Os modelos de linguagem são aprendizes rápidos. Avanços em sistemas de processamento de informação neural 33 (2020), 1877–1901.
[33] Benoit Dageville, Thierry Cruanes, Marcin Zukowski, Vadim Antonov, Artin Avanes, Jon Bock, Jonathan Claybaugh, Daniel Engovatov, Martin Hentschel, Jiansheng Huang, et al. 2016. O data warehouse elástico em floco de neve. Nos Anais da Conferência Internacional sobre Gestão de Dados de 2016. 215-226.
[34] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li e Li Fei-Fei. 2009. Imagenet: Um banco de dados de imagens hierárquicas em grande escala. Em 2009, conferência IEEE sobre visão computacional e reconhecimento de padrões. Sim, 248–255.
[35] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li e L. Fei-Fei. 2009. ImageNet: um banco de dados de imagens hierárquicas em grande escala. Em CVPR09.
[36] Jacob Devlin, Ming-Wei Chang, Kenton Lee e Kristina Toutanova. 2018. Bert: Pré-treinamento de transformadores bidirecionais profundos para compreensão de linguagem. pré-impressão arXiv arXiv:1810.04805 (2018).
[37] Markus Dreseler, Jan Kossmann, Martin Boissier, Stefan Klauck, Matthias Uflacker e Hasso Plattner. 2019. Hyrise reprojetado: um sistema de banco de dados extensível para pesquisa em gerenciamento de dados relacionais na memória. In Advances in Database Technology - 22nd International Conference on Extending Database Technology, EDBT 2019, Lisboa, Portugal, 26 a 29 de março de 2019, Melanie Herschel, Helena Galhardas, Berthold Reinwald, Irini Fundulaki, Carsten Binnig e Zoi Kaoudi (Eds.) . OpenProceedings.org, 313–324. https://doi.org/10.5441/002/edbt. 2019.28
[38] Ian Goodfellow, Yoshua Bengio e Aaron Courville. 2016. Aprendizagem profunda. Imprensa do MIT.
[39] Andrew Ilyas Sam Park Hadi Salman Guillaume Leclerc, Logan Engstrom. 2021. O formato WebDataset. GitHub 2022, 1 (2021). https://github.com/libffcv/ffcv
[40] Anurag Gupta, Deepak Agarwal, Derek Tan, Jakub Kulesza, Rahul Pathak, Stefano Stefani e Vidhya Srinivasan. 2015. Amazon redshift e o caso de data warehouses mais simples. Nos Anais da conferência internacional ACM SIGMOD 2015 sobre gerenciamento de dados. 1917–1923.
[41] Dong He, Supun Nakandala, Dalitso Banda, Rathijit Sen, Karla Saur, Kwanghyun Park, Carlo Curino, Jesús Camacho Rodríguez, Konstantinos Karanasos e Matteo Interlandi. 2022. Processamento de consultas em tempos de execução de computação tensor. Pré-impressão do arXiv arXiv:2203.01877 (2022).
[42] Yu Huang e Yue Chen. 2020. Pesquisa de tecnologias de condução autônoma de última geração com aprendizagem profunda. Em 2020, IEEE 20ª Conferência Internacional sobre Qualidade de Software, Confiabilidade e Segurança Companion (QRS-C). IEEE, 221–228.
[43] Tero Karras, Samuli Laine e Timo Aila. 2019. Uma arquitetura geradora baseada em estilo para redes adversárias generativas. Em Anais da conferência IEEE/CVF sobre visão computacional e reconhecimento de padrões. 4401–4410.
[44] Alex Krizhevsky, Ilya Sutskever e Geoffrey E Hinton. 2012. Classificação Imagenet com redes neurais convolucionais profundas. Em Avanços em sistemas de processamento de informação neural. 1097–1105. Deep Lake: um Lakehouse para aprendizado profundo
[45] Abhishek Vijaya Kumar e Muthian Sivathanu. 2020. Quiver: Um cache de armazenamento informado para aprendizado profundo. Na 18ª Conferência USENIX sobre Tecnologias de Arquivo e Armazenamento (FAST 20). 283–296.
[46] Ruslan Kuprieiev, skshetry, Dmitry Petrov, Paweł Redzyński, Peter Rowlands, Casper da Costa-Luis, Alexander Schepanovski, Ivan Shcheklein, Batuhan Taskaya, Gao, Jorge Orpinel, David de la Iglesia Castro, Fábio Santos, Aman Sharma, Dave Berenbaum, Zhanibek, Dani Hodovic, Nikita Kodenko, Andrew Grigorev, Earl, daniele, Nabanita Dash, George Vyshnya, maykulkarni, Max Hora, Vera, Sanidhya Mangal e Wojciech Baranowski. 2022. DVC: Controle de versão de dados - Git para dados e modelos. https://doi.org/10.5281/zenodo.7039863
[47] Yann LeCun, Yoshua Bengio e Geoffrey Hinton. 2015. Aprendizagem profunda. natureza 521, 7553 (2015), 436.
[48] Kisuk Lee, Jonathan Zung, Peter Li, Viren Jain e H Sebastian Seung. 2017. Precisão sobre-humana no desafio de conectômica SNEMI3D. pré-impressão arXiv arXiv:1706.00120 (2017).
[49] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár e C Lawrence Zitnick. 2014. Microsoft coco: objetos comuns no contexto. Na conferência europeia sobre visão computacional. Springer, 740-755.
[50] Frank Sifei Luan, Stephanie Wang, Samyukta Yagati, Sean Kim, Kenneth Lien, SangBin Cho, Eric Liang e Ion Stoica. 2022. Exoshuffle: Shuffle em larga escala no nível do aplicativo. Pré-impressão do arXiv arXiv:2203.05072 (2022).
[51] Tomas Mikolov, Kai Chen, Greg Corrado e Jeffrey Dean. 2013. Estimativa eficiente de representações de palavras no espaço vetorial. pré-impressão arXiv arXiv:1301.3781 (2013).
[52] Alistair Miles, John Kirkham, Martin Durant, James Bourbeau, Tarik Onalan, Joe Hamman, Zain Patel, shikharsg, Matthew Rocklin, raphael dussin, Vincent Schut, Elliott Sales de Andrade, Ryan Abernathey, Charles Noyes, sbalmer, pyup. io bot, Tommy Tran, Stephan Saalfeld, Justin Swaney, Josh Moore, Joe Jevnik, Jerome Kelleher, Jan Funke, George Sakkis, Chris Barnes e Anderson Banihirwe. 2020. zarr-developers/zarrpython: v2.4.0. https://doi.org/10.5281/zenodo.3773450
[53] Philipp Moritz, Robert Nishihara, Stephanie Wang, Alexey Tumanov, Richard Liaw, Eric Liang, Melih Elibol, Zongheng Yang, William Paul, Michael I Jordan, et al. 2018. Ray: Uma estrutura distribuída para aplicativos emergentes de {AI}. No 13º Simpósio {USENIX} sobre Design e Implementação de Sistemas Operacionais ({OSDI} 18). 561–577.
[54] Iason Ofeidis, Diego Kiedanski e Leandros Tassiulas. 2022. Uma Visão Geral do Cenário do Data-Loader: Análise Comparativa de Desempenho. Pré-impressão arXiv arXiv:2209.13705 (2022). [
55] Travis E Oliphant. 2006. Um guia para NumPy. Vol. 1. Trelgol Publishing EUA.
[56] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior e Koray Kavukcuoglu. 2016. Wavenet: Um modelo generativo para áudio bruto. Pré-impressão do arXiv arXiv:1609.03499 (2016).
[57] Stavros Papadopoulos, Kushal Datta, Samuel Madden e Timothy Mattson. 2016. O gerenciador de armazenamento de dados de matriz tiledb. Anais do VLDB Endowment 10, 4 (2016), 349–360.
[58] Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga e Adam Lerer. 2017. Diferenciação automática em pytorch. (2017).
[59] Masha Basmanova Kevin Wilfong Laith Sakka Krishna Pai Wei He Biswapesh Chattopadhyay Pedro Pedreira, Orri Erling. 2022. Velox: mecanismo de execução unificado da Meta. Anais do Fundo VLDB (2022).
[60] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, e outros. 2021. Aprendendo modelos visuais transferíveis com supervisão de linguagem natural. Na Conferência Internacional sobre Aprendizado de Máquina. PMLR, 8748–8763.
[61] Pranav Rajpurkar, Jeremy Irvin, Kaylie Zhu, Brandon Yang, Hershel Mehta, Tony Duan, Daisy Ding, Aarti Bagul, Curtis Langlotz, Katie Shpanskaya, et al. 2017. Chexnet: Detecção de pneumonia em nível de radiologista em radiografias de tórax com aprendizado profundo. Pré-impressão do arXiv arXiv:1711.05225 (2017).
[62] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen e Ilya Sutskever. 2021. Geração de texto para imagem com disparo zero. Na Conferência Internacional sobre Aprendizado de Máquina. PMLR, 8821–8831.
[63] Joseph Redmon, Santosh Divvala, Ross Girshick e Ali Farhadi. 2016. Você olha apenas uma vez: detecção unificada de objetos em tempo real. Em Anais da conferência IEEE sobre visão computacional e reconhecimento de padrões. 779–788.
[64] Amit Sabne. 2020. Xla: Compilando aprendizado de máquina para desempenho máximo. (2020).
[65] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S Sara Mahdavi, Rapha Gontijo Lopes, et al. 2022. Modelos fotorrealistas de difusão de texto para imagem com compreensão profunda da linguagem. Pré-impressão arXiv arXiv:2205.11487 (2022).
[66] Tom van Bussel Samwel, Herman van Hovell, Maryann Xue, Reynold Xin e Matei Zaharia. 2022. Photon: um mecanismo de consulta rápida para sistemas Lakehouse. (2022).
[67] Christoph Schuhmann, Romain Beaumont, Cade W Gordon, Ross Wightman, Theo Coombes, Aarush Katta, Clayton Mullis, Patrick Schramowski, Srivatsa R Kundurthy, Katherine Crowson, et al. 2022. LAION-5B: Um conjunto de dados aberto em grande escala para treinar modelos de imagem-texto de próxima geração. (2022).
[68] Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev e Aran Komatsuzaki. 2021. Laion400m: conjunto de dados aberto de 400 milhões de pares imagem-texto filtrados por clipe. Pré-impressão arXiv arXiv:2111.02114 (2021).
[69]Philip Schwan et al. 2003. Lustre: Construindo um sistema de arquivos para clusters de 1.000 nós. Em Anais do Simpósio Linux de 2003, Vol. 2003. 380–386.
[70] Raghav Sethi, Martin Traverso, Dain Sundstrom, David Phillips, Wenlei Xie, Yutian Sun, Nezih Yegitbasi, Haozhun Jin, Eric Hwang, Nileema Shingte, et al. 2019. Presto: SQL em tudo. Em 2019, 35ª Conferência Internacional IEEE sobre Engenharia de Dados (ICDE). IEEE, 1802–1813.
[71] Konstantin Shvachko, Hairong Kuang, Sanjay Radia, Robert Chansler, et al. 2010. O sistema de arquivos distribuídos hadoop.. Em MSST, Vol. 10. 1–10.
[72] David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, et al. 2018. Um algoritmo geral de aprendizagem por reforço que domina o xadrez, o shogi e o auto-jogo. Ciência 362, 6419 (2018), 1140–1144.
[73] K Stumpf, S Bedratiuk e O Cirit. 2018. Michelangelo PyML: apresentando a plataforma Uber para desenvolvimento rápido de modelos de ML em python. Uber. Veja: https://eng. super. com/michelangelo-pyml (2018).
[74] Pedro Javier Ortiz Suárez, Benoît Sagot e Laurent Romary. 2019. Pipeline assíncrono para processamento de grandes corpora em infraestruturas de recursos médios e baixos. No 7º Workshop sobre os Desafios na Gestão de Grandes Corpora (CMLC-7). Leibniz-Institut für Deutsche Sprache.
[75] Equipe de desenvolvedores do Squirrel. 2022. Squirrel: uma biblioteca Python que permite que equipes de ML compartilhem, carreguem e transformem dados de forma colaborativa, flexível e eficiente. Github. Nota: https://github.com/merantix-momentum/squirrel-core (2022). https://doi.org/10.5281/zenodo.6418280
[76] Ashish Sooo, Joydeep Sen Sarma, Namit Jain, Zheng Shao, Prasad Chakka, Ning Zhang, Suresh Antony, Hao Liu e Raghotham Murthy. 2010. Hive - um data warehouse em escala de petabytes usando hadoop. Em 2010, 26ª conferência internacional IEEE sobre engenharia de dados (ICDE 2010). IEEE, 996–1005.
[77] Kathryn Tunyasuvunakool, Jonas Adler, Zachary Wu, Tim Green, Michal Zielinski, Augustin Žídek, Alex Bridgland, Andrew Cowie, Clemens Meyer, Agata Laydon, et al. 2021. Previsão de estrutura proteica altamente precisa para o proteoma humano. Natureza 596, 7873 (2021), 590–596.
[78] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser e Illia Polosukhin. 2017. Atenção é tudo que você precisa. Avanços em sistemas de processamento de informações neurais 30 (2017).
[79] Deepak Vohra. 2016. Parquete Apache. No ecossistema Hadoop prático. Springer, 325-335.
[80] Jianguo Wang, Xiaomeng Yi, Rentong Guo, Hai Jin, Peng Xu, Shengjun Li, Xiangyu Wang, Xiangzhou Guo, Chengming Li, Xiaohai Xu, et al. 2021. Milvus: um sistema de gerenciamento de dados vetoriais específico. Nos Anais da Conferência Internacional sobre Gestão de Dados de 2021. 2614–2627.
[81] Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Russ R Salakhutdinov e Quoc V Le. 2019. Xlnet: Pré-treinamento autorregressivo generalizado para compreensão da linguagem. Avanços em sistemas de processamento de informações neurais 32 (2019).
[82] Matei Zaharia, Mosharaf Chowdhury, Michael J Franklin, Scott Shenker e Ion Stoica. 2010. Spark: Computação em cluster com conjuntos de trabalho. HotCloud 10, 10-10 (2010), 95.
[83] Xiang Zhang, Junbo Zhao e Yann LeCun. 2015. Redes convolucionais em nível de caractere para classificação de texto. Em Avanços em sistemas de processamento de informação neural. 649–657.
Este artigo está disponível no arxiv sob licença CC 4.0.