Autores:
(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, EE. UU.;
(2) Abhinav Tuli, Activeloop, Mountain View, CA, EE. UU.;
(3) Levon Ghukasyan, Activeloop, Mountain View, CA, EE. UU.;
(4) Fariz Rahman, Activeloop, Mountain View, CA, EE. UU.;
(5) Hrant Topchyan, Activeloop, Mountain View, CA, EE. UU.;
(6) David Isayan, Activeloop, Mountain View, CA, EE. UU.;
(7) Mark McQuade, Activeloop, Mountain View, CA, EE. UU.;
(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, EE. UU.;
(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, EE. UU.;
(10) Ivo Stranic, Activeloop, Mountain View, CA, EE. UU.;
(11) Pescante Buniatyan, Activeloop, Mountain View, CA, EE. UU.
Presentamos Deep Lake, la casa del lago para el aprendizaje profundo. Deep Lake está diseñado para ayudar a que los flujos de trabajo de aprendizaje profundo se ejecuten con la misma fluidez que los flujos de trabajo analíticos se ejecutan en Modern Data Stack. En particular, Deep Lake está diseñado para conservar características destacadas de los lagos de datos, como viajes en el tiempo, consultas e ingesta rápida de datos a escala. Una distinción importante de los lagos de datos tradicionales es la capacidad de Deep Lake para almacenar datos no estructurados con todos sus metadatos en formato de columnas nativo de aprendizaje profundo, lo que permite una rápida transmisión de datos. Esto permite materializar subconjuntos de datos sobre la marcha, visualizarlos en el navegador o incorporarlos en marcos de aprendizaje profundo sin sacrificar la utilización de la GPU. Finalmente, mostramos que Deep Lake logra un rendimiento de vanguardia para el aprendizaje profundo en grandes conjuntos de datos a través de múltiples puntos de referencia.
Los autores desean agradecer a Richard Socher, Travis Oliphant, Charu Rudrakshi, Artem Harutyunyan, Iason Ofeidis, Diego Kiedanski, Vishnu Nair, Fayaz Rahman, Dyllan McCreary, Benjamin Hindman, Eduard Grigoryan, Kristina Grigoryan, Ben Chislett, Joubin Houshyar, Andrii Liubimov , Assaf Pinhasi, Vishnu Nair, Eshan Arora, Shashank Agarwal, Pawel Janowski, Kristina Arezina, Gevorg Karapetyan, Vigen Sahakyan y la comunidad de código abierto, incluidos los contribuyentes. El proyecto fue financiado por Activeloop. También agradecemos a los revisores del CIDR por sus comentarios.
[1] 2006. Amazonas S3. GitHub 2022, 1 (2006). https://aws.amazon. es/s3
[2] 2009. Casa de clics. GitHub 2022, 1 (2009). https://github.com/ClickHouse/ClickHouse
[3] 2010. Almacenamiento en la nube de Google. GitHub 2022, 1 (2010). https://cloud.google.com/storage
[4] 2012. Google BigQuery. GitHub 2022, 1 (2012). https://nube. google.com/bigquery
[5] 2014. Protocol Buffers: formato de intercambio de datos de Google. GitHub 2022, 1 (2014). https://github.com/protocolbuffers/protobuf
[6] 2015. La Fundación de Software Apache: Apache ORC. GitHub 2022, 1 (2015). https://github.com/apache/orc
[7] 2016. Pluma. GitHub 2022, 1 (2016). https://github.com/wesm/feather
[8] 2016. Weaviate: el primer motor de búsqueda vectorial de ML. GitHub 2022, 1 (2016). https://github.com/semi-technologies/weaviate
[9] 2017. Flujo de aire Apache. GitHub 2022, 1 (2017). http://flujo de aire. incubadora.apache.org
[10] 2017. Fundación de software Apache: Apache Hudi. GitHub 2022, 1 (2017). https://hudi.apache.org
[11] 2017. CloudVolume: IO para conjuntos de datos de Neuroglancer. GitHub 2022, 1 (2017). https://github.com/seung-lab/cloud-volume
[12] 2018. Amazona Atenea. GitHub 2022, 1 (2018). https://aws. amazon.com/athena
[13] 2018. La Fundación de Software Apache: Apache Arrow. GitHub 2022, 1 (2018). https://arrow.apache.org
[14] 2018. La Fundación de Software Apache: Apache Hadoop. GitHub 2022, 1 (2018). https://hadoop.apache.org
[15] 2018. La Fundación de Software Apache: Apache Iceberg. GitHub 2022, 1 (2018). https://iceberg.apache.org
[16] 2018. Feast: tienda de funciones de código abierto para aprendizaje automático. GitHub 2022, 1 (2018). https://github.com/feast-dev/feast
[17] 2018. Servidor de almacenamiento de objetos de alto rendimiento MinIO compatible con la API de Amazon S3. GitHub 2022, 1 (2018). https://github.com/minio/minio
[18] 2018. Petatormenta. GitHub 2022, 1 (2018). https://github.com/uber/petastorm [19] 2018. El formato WebDataset. GitHub 2022, 1 (2018). https://github.com/webdataset/webdataset
[20] 2019. La Fundación de Software Apache: Apache Avro. GitHub 2019, 1 (2019). https://avro.apache.org
[21] 2019. LakeFS: lago de datos con repositorio tipo Git. GitHub 2022, 1 (2019). https://github.com/treeverse/lakeFS
[22] 2020. Airbyte. GitHub 2022, 1 (2020). https://github.com/airbytehq/airbyte
[23] 2020. TensorStore: Biblioteca para leer y escribir grandes matrices multidimensionales. GitHub 2022, 1 (2020). https://github. es/google/tensorstore
[24] 2021. N5: especifica las operaciones primitivas necesarias para almacenar grandes tensores n-dimensionales fragmentados y metadatos arbitrarios en una jerarquía de grupos similar a HDF5. GitHub 2021, 1 (2021). https://github.com/saalfeldlab/n5
[25] Martín Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard, et al. 2016. Tensorflow: un sistema para el aprendizaje automático a gran escala. En el 12º Simposio {USENIX} sobre diseño e implementación de sistemas operativos ({OSDI} 16). 265–283.
[26] Alex Aizman, Gavin Maltby y Thomas Breuel. 2019. E/S de alto rendimiento para aprendizaje profundo a gran escala. En 2019 Conferencia Internacional IEEE sobre Big Data (Big Data). IEEE, 5965–5967.
[27] Michael Armbrust, Tathagata Das, Liwen Sun, Burak Yavuz, Shixiong Zhu, Mukul Murthy, Joseph Torres, Herman van Hovell, Adrian Ionescu, Alicja Łuszczak, et al. 2020. Delta Lake: almacenamiento de tablas ACID de alto rendimiento en almacenes de objetos en la nube. Actas del VLDB Endowment 13, 12 (2020), 3411–3424. [28] Michael Armbrust, Ali Ghodsi, Reynold Xin y Matei Zaharia. 2021. Lakehouse: una nueva generación de plataformas abiertas que unifican el almacenamiento de datos y el análisis avanzado. En Actas del CIDR.
[29] Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu y Michael Auli. 2022. Data2vec: Un marco general para el aprendizaje autosupervisado del habla, la visión y el lenguaje. Preimpresión de arXiv arXiv:2202.03555 (2022).
[30] Dzmitry Bahdanau, Kyunghyun Cho y Yoshua Bengio. 2014. Traducción automática neuronal aprendiendo conjuntamente a alinear y traducir. Preimpresión de arXiv arXiv:1409.0473 (2014).
[31] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne y Qiao Zhang. 2018. JAX: transformaciones componibles de programas Python+NumPy. http://github.com/google/jax
[32] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. 2020. Los modelos lingüísticos aprenden con pocas posibilidades. Avances en los sistemas de procesamiento de información neuronal 33 (2020), 1877–1901.
[33] Benoit Dageville, Thierry Cruanes, Marcin Zukowski, Vadim Antonov, Artin Avanes, Jon Bock, Jonathan Claybaugh, Daniel Engovatov, Martin Hentschel, Jiansheng Huang, et al. 2016. El almacén de datos elástico del copo de nieve. En actas de la Conferencia Internacional sobre Gestión de Datos de 2016. 215–226.
[34] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li y Li Fei-Fei. 2009. Imagenet: una base de datos de imágenes jerárquica a gran escala. En 2009, conferencia IEEE sobre visión por computadora y reconocimiento de patrones. Es decir, 248–255.
[35] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li y L. Fei-Fei. 2009. ImageNet: una base de datos de imágenes jerárquica a gran escala. En CVPR09.
[36] Jacob Devlin, Ming-Wei Chang, Kenton Lee y Kristina Toutanova. 2018. Bert: Entrenamiento previo de transformadores bidireccionales profundos para la comprensión del lenguaje. Preimpresión de arXiv arXiv:1810.04805 (2018).
[37] Markus Dreseler, Jan Kossmann, Martin Boissier, Stefan Klauck, Matthias Uflacker y Hasso Plattner. 2019. Hyrise rediseñado: un sistema de base de datos extensible para la investigación en gestión de datos relacionales en memoria. En Advances in Database Technology - 22nd International Conference on Extending Database Technology, EDBT 2019, Lisboa, Portugal, 26-29 de marzo de 2019, Melanie Herschel, Helena Galhardas, Berthold Reinwald, Irini Fundulaki, Carsten Binnig y Zoi Kaoudi (Eds.) . OpenProceedings.org, 313–324. https://doi.org/10.5441/002/edbt. 2019.28
[38] Ian Goodfellow, Yoshua Bengio y Aaron Courville. 2016. Aprendizaje profundo. Prensa del MIT.
[39] Andrew Ilyas Sam Park Hadi Salman Guillaume Leclerc, Logan Engstrom. 2021. El formato WebDataset. GitHub 2022, 1 (2021). https://github.com/libffcv/ffcv
[40] Anurag Gupta, Deepak Agarwal, Derek Tan, Jakub Kulesza, Rahul Pathak, Stefano Stefani y Vidhya Srinivasan. 2015. El corrimiento al rojo de Amazon y el argumento a favor de almacenes de datos más simples. En Actas de la conferencia internacional ACM SIGMOD 2015 sobre gestión de datos. 1917-1923.
[41] Dong He, Supun Nakandala, Dalitso Banda, Rathijit Sen, Karla Saur, Kwanghyun Park, Carlo Curino, Jesús Camacho Rodríguez, Konstantinos Karanasos y Matteo Interlandi. 2022. Procesamiento de consultas en tiempos de ejecución de computación tensorial. Preimpresión de arXiv arXiv:2203.01877 (2022).
[42] Yu Huang y Yue Chen. 2020. Encuesta sobre tecnologías de conducción autónoma de última generación con aprendizaje profundo. En 2020, vigésima conferencia internacional de IEEE sobre calidad, confiabilidad y seguridad del software (QRS-C). IEEE, 221–228.
[43] Tero Karras, Samuli Laine y Timo Aila. 2019. Una arquitectura generadora basada en estilos para redes generativas adversarias. En Actas de la conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones. 4401–4410.
[44] Alex Krizhevsky, Ilya Sutskever y Geoffrey E Hinton. 2012. Clasificación de Imagenet con redes neuronales convolucionales profundas. En Avances en sistemas de procesamiento de información neuronal. 1097–1105. Deep Lake: una casa de lago para el aprendizaje profundo
[45] Abhishek Vijaya Kumar y Muthian Sivathanu. 2020. Quiver: una caché de almacenamiento informada para el aprendizaje profundo. En la 18ª Conferencia USENIX sobre tecnologías de almacenamiento y archivos (FAST 20). 283–296.
[46] Ruslan Kuprieiev, skshetry, Dmitry Petrov, Paweł Redzyński, Peter Rowlands, Casper da Costa-Luis, Alexander Schepanovski, Ivan Shcheklein, Batuhan Taskaya, Gao, Jorge Orpinel, David de la Iglesia Castro, Fábio Santos, Aman Sharma, Dave Berenbaum, Zhanibek, Dani Hodovic, Nikita Kodenko, Andrew Grigorev, Earl, daniele, Nabanita Dash, George Vyshnya, maykulkarni, Max Hora, Vera, Sanidhya Mangal y Wojciech Baranowski. 2022. DVC: Control de versiones de datos: Git para datos y modelos. https://doi.org/10.5281/zenodo.7039863
[47] Yann LeCun, Yoshua Bengio y Geoffrey Hinton. 2015. Aprendizaje profundo. naturaleza 521, 7553 (2015), 436.
[48] Kisuk Lee, Jonathan Zung, Peter Li, Viren Jain y H Sebastian Seung. 2017. Precisión sobrehumana en el desafío de conectómica SNEMI3D. Preimpresión de arXiv arXiv:1706.00120 (2017).
[49] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár y C Lawrence Zitnick. 2014. Microsoft coco: objetos comunes en contexto. En conferencia europea sobre visión por computadora. Saltador, 740–755.
[50] Frank Sifei Luan, Stephanie Wang, Samyukta Yagati, Sean Kim, Kenneth Lien, SangBin Cho, Eric Liang e Ion Stoica. 2022. Exoshuffle: barajado a gran escala a nivel de aplicación. Preimpresión de arXiv arXiv:2203.05072 (2022).
[51] Tomas Mikolov, Kai Chen, Greg Corrado y Jeffrey Dean. 2013. Estimación eficiente de representaciones de palabras en el espacio vectorial. Preimpresión de arXiv arXiv:1301.3781 (2013).
[52] Alistair Miles, John Kirkham, Martin Durant, James Bourbeau, Tarik Onalan, Joe Hamman, Zain Patel, shikharsg, Matthew Rocklin, raphael dussin, Vincent Schut, Elliott Sales de Andrade, Ryan Abernathey, Charles Noyes, sbalmer, pyup. io bot, Tommy Tran, Stephan Saalfeld, Justin Swaney, Josh Moore, Joe Jevnik, Jerome Kelleher, Jan Funke, George Sakkis, Chris Barnes y Anderson Banihirwe. 2020. zarr-desarrolladores/zarrpython: v2.4.0. https://doi.org/10.5281/zenodo.3773450
[53] Philipp Moritz, Robert Nishihara, Stephanie Wang, Alexey Tumanov, Richard Liaw, Eric Liang, Melih Elibol, Zongheng Yang, William Paul, Michael I Jordan, et al. 2018. Ray: Un marco distribuido para aplicaciones de {IA} emergentes. En el 13º Simposio {USENIX} sobre diseño e implementación de sistemas operativos ({OSDI} 18). 561–577.
[54] Iason Ofeidis, Diego Kiedanski y Leandros Tassiulas. 2022. Una descripción general del panorama del cargador de datos: análisis comparativo del rendimiento. Preimpresión de arXiv arXiv:2209.13705 (2022). [
55] Travis E Oliphant. 2006. Una guía para NumPy. vol. 1. Trelgol Publishing Estados Unidos.
[56] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior y Koray Kavukcuoglu. 2016. Wavenet: un modelo generativo para audio sin formato. Preimpresión de arXiv arXiv:1609.03499 (2016).
[57] Stavros Papadopoulos, Kushal Datta, Samuel Madden y Timothy Mattson. 2016. El administrador de almacenamiento de datos de la matriz TileDB. Actas del VLDB Endowment 10, 4 (2016), 349–360.
[58] Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga y Adam Lerer. 2017. Diferenciación automática en pytorch. (2017).
[59] Masha Basmanova Kevin Wilfong Laith Sakka Krishna Pai Wei He Biswapesh Chattopadhyay Pedro Pedreira, Orri Erling. 2022. Velox: motor de ejecución unificada de Meta. Actas del Fondo de Dotación VLDB (2022).
[60] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. 2021. Aprendizaje de modelos visuales transferibles a partir de la supervisión del lenguaje natural. En Conferencia Internacional sobre Aprendizaje Automático. PMLR, 8748–8763.
[61] Pranav Rajpurkar, Jeremy Irvin, Kaylie Zhu, Brandon Yang, Hershel Mehta, Tony Duan, Daisy Ding, Aarti Bagul, Curtis Langlotz, Katie Shpanskaya, et al. 2017. Chexnet: Detección de neumonía a nivel radiólogo en radiografías de tórax con aprendizaje profundo. Preimpresión de arXiv arXiv:1711.05225 (2017).
[62] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen e Ilya Sutskever. 2021. Generación de texto a imagen de disparo cero. En Conferencia Internacional sobre Aprendizaje Automático. PMLR, 8821–8831.
[63] Joseph Redmon, Santosh Divvala, Ross Girshick y Ali Farhadi. 2016. Solo miras una vez: Detección de objetos unificada y en tiempo real. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones. 779–788.
[64] Amit Sabne. 2020. Xla: Compilación del aprendizaje automático para lograr el máximo rendimiento. (2020).
[65] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S Sara Mahdavi, Rapha Gontijo Lopes, et al. 2022. Modelos fotorrealistas de difusión de texto a imagen con comprensión profunda del lenguaje. Preimpresión de arXiv arXiv:2205.11487 (2022).
[66] Tom van Bussel Samwel, Herman van Hovell, Maryann Xue, Reynold Xin y Matei Zaharia. 2022. Photon: un motor de consulta rápido para sistemas Lakehouse. (2022).
[67] Christoph Schuhmann, Romain Beaumont, Cade W Gordon, Ross Wightman, Theo Coombes, Aarush Katta, Clayton Mullis, Patrick Schramowski, Srivatsa R Kundurthy, Katherine Crowson, et al. 2022. LAION-5B: Un conjunto de datos abierto a gran escala para entrenar modelos de imagen-texto de próxima generación. (2022).
[68] Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev y Aran Komatsuzaki. 2021. Laion400m: conjunto de datos abierto de 400 millones de pares de imagen-texto filtrados con clips. Preimpresión de arXiv arXiv:2111.02114 (2021).
[69] Philip Schwan y otros. 2003. Lustre: Creación de un sistema de archivos para clústeres de 1000 nodos. En Actas del simposio de Linux de 2003, vol. 2003. 380–386.
[70] Raghav Sethi, Martin Traverso, Dain Sundstrom, David Phillips, Wenlei Xie, Yutian Sun, Nezih Yegitbasi, Haozhun Jin, Eric Hwang, Nileema Shingte, et al. 2019. Presto: SQL en todo. En 2019, IEEE 35.a Conferencia Internacional sobre Ingeniería de Datos (ICDE). IEEE, 1802–1813.
[71] Konstantin Shvachko, Hairong Kuang, Sanjay Radia, Robert Chansler y otros. 2010. El sistema de archivos distribuido hadoop. En MSST, vol. 10. 1–10.
[72] David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, et al. 2018. Un algoritmo general de aprendizaje por refuerzo que domina el ajedrez, el shogi y el Go mediante el juego autónomo. Ciencia 362, 6419 (2018), 1140–1144.
[73] K Stumpf, S Bedratiuk y O Cirit. 2018. Michelangelo PyML: presentación de la plataforma Uber para el desarrollo rápido de modelos ML en Python. Uber. Ver: https://eng. súper. com/michelangelo-pyml (2018).
[74] Pedro Javier Ortiz Suárez, Benoît Sagot y Laurent Romary. 2019. Canalización asincrónica para procesar grandes corpus en infraestructuras de recursos medios y bajos. En VII Taller sobre los Desafíos en la Gestión de Grandes Corporaciones (CMLC-7). Leibniz-Institut für Deutsche Sprache.
[75] Equipo de desarrolladores de Ardilla. 2022. Squirrel: una biblioteca de Python que permite a los equipos de ML compartir, cargar y transformar datos de forma colaborativa, flexible y eficiente. GitHub. Nota: https://github.com/merantix-momentum/squirrel-core (2022). https://doi.org/10.5281/zenodo.6418280
[76] Ashish Untiloo, Joydeep Sen Sarma, Namit Jain, Zheng Shao, Prasad Chakka, Ning Zhang, Suresh Antony, Hao Liu y Raghotham Murthy. 2010. Hive, un almacén de datos a escala de petabytes que utiliza hadoop. En 2010, 26ª conferencia internacional del IEEE sobre ingeniería de datos (ICDE 2010). IEEE, 996–1005.
[77] Kathryn Tunyasuvunakool, Jonas Adler, Zachary Wu, Tim Green, Michal Zielinski, Augustin Žídek, Alex Bridgland, Andrew Cowie, Clemens Meyer, Agata Laydon, et al. 2021. Predicción de la estructura de proteínas de alta precisión para el proteoma humano. Naturaleza 596, 7873 (2021), 590–596.
[78] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser e Illia Polosukhin. 2017. Atención es todo lo que necesitas. Avances en sistemas de procesamiento de información neuronal 30 (2017).
[79] Deepak Vohra. 2016. Parquet apache. En ecosistema práctico de Hadoop. Saltador, 325–335.
[80] Jianguo Wang, Xiaomeng Yi, Rentong Guo, Hai Jin, Peng Xu, Shengjun Li, Xiangyu Wang, Xiangzhou Guo, Chengming Li, Xiaohai Xu, et al. 2021. Milvus: un sistema de gestión de datos vectoriales especialmente diseñado. En actas de la Conferencia Internacional sobre Gestión de Datos de 2021. 2614–2627.
[81] Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Russ R Salakhutdinov y Quoc V Le. 2019. Xlnet: preentrenamiento autorregresivo generalizado para la comprensión del lenguaje. Avances en sistemas de procesamiento de información neuronal 32 (2019).
[82] Matei Zaharia, Mosharaf Chowdhury, Michael J. Franklin, Scott Shenker e Ion Stoica. 2010. Spark: Computación en clúster con conjuntos de trabajo. HotCloud 10, 10-10 (2010), 95.
[83] Xiang Zhang, Junbo Zhao y Yann LeCun. 2015. Redes convolucionales a nivel de caracteres para clasificación de texto. En Avances en sistemas de procesamiento de información neuronal. 649–657.
Este documento está disponible en arxiv bajo licencia CC 4.0.