ディープラーニングのためのレイクハウス、Deep Lake: 結論、謝辞、参考文献

著者: （１）サスン・ハンバルズミアン、アクティブループ、カリフォルニア州マウンテンビュー、米国 （２）アビナブ・トゥリ、アクティブループ、カリフォルニア州マウンテンビュー、米国 （３）レヴォン・グカシアン、アクティブループ、カリフォルニア州マウンテンビュー、米国 （4）ファリズ・ラーマン、アクティブループ、カリフォルニア州マウンテンビュー、米国。 （５）Hrant Topchyan、Activeloop、カリフォルニア州マウンテンビュー、米国 （6）デビッド・イサヤン、アクティブループ、カリフォルニア州マウンテンビュー、米国 （7）マーク・マククエイド、アクティブループ、カリフォルニア州マウンテンビュー、米国 （8）ミカエル・ハルティュニャン、アクティブループ、カリフォルニア州マウンテンビュー、米国 （9）Tatevik Hakobyan、Activeloop、カリフォルニア州マウンテンビュー、米国 （10）イヴォ・ストラニック、アクティブループ、カリフォルニア州マウンテンビュー、米国 （11）Davit Buniatyan、Activeloop、カリフォルニア州マウンテンビュー、米国。 リンク一覧 概要と序文 現在の課題 テンソル保存形式 ディープレイクシステムの概要 機械学習のユースケース パフォーマンスベンチマーク 議論と制限 関連作業 結論、謝辞、参考文献 9. 結論 ディープラーニング用のレイクハウスである Deep Lake を紹介しました。Deep Lake は、Modern Data Stack で実行される分析ワークフローと同じように、ディープラーニング ワークフローをシームレスに実行できるように設計されています。特に、Deep Lake は、タイムトラベル、クエリ、大規模な高速データ取り込みなど、データレイクの重要な機能を保持するように構築されています。従来のデータレイクとの重要な違いの 1 つは、Deep Lake が非構造化データをそのすべてのメタデータとともにディープラーニング ネイティブの列指向形式で保存し、高速データ ストリーミングを可能にすることです。これにより、データ サブセットをオンザフライで実現し、ブラウザー内で視覚化したり、GPU 使用率を犠牲にすることなくディープラーニング フレームワークに取り込んだりすることができます。最後に、複数のベンチマークにより、Deep Lake が大規模なデータセットでのディープラーニングで最先端のパフォーマンスを実現することを示します。 10. 謝辞 著者は、Richard Socher、Travis Oliphant、Charu Rudrakshi、Artem Harutyunyan、Iason Ofeidis、Diego Kiedanski、Vishnu Nair、Fayaz Rahman、Dyllan McCreary、Benjamin Hindman、Eduard Grigoryan、Kristina Grigoryan、Ben Chislett、Joubin Houshyar、Andrii Liubimov、Assaf Pinhasi、Vishnu Nair、Eshan Arora、Shashank Agarwal、Pawel Janowski、Kristina Arezina、Gevorg Karapetyan、Vigen Sahakyan、および貢献者を含むオープンソース コミュニティに感謝の意を表します。このプロジェクトは Activeloop の資金提供を受けています。また、フィードバックを提供してくれた CIDR のレビュアーにも感謝します。 参考文献 [1] 2006年AmazonS3。 GitHub 2022、1（2006）。 https://aws.amazon. com/s3 [2] 2009. Clickhouse. GitHub 2022, 1 (2009). https://github.com/ ClickHouse/ClickHouse [3] 2010. Google Cloud Storage. GitHub 2022, 1 (2010). https://cloud.google.com/storage [4] 2012. Google BigQuery. GitHub 2022, 1 (2012). https://cloud. google.com/bigquery [5] 2014. プロトコルバッファ - Googleのデータ交換フォーマット。GitHub 2022, 1 (2014). https://github.com/protocolbuffers/ protobuf [6] 2015. Apacheソフトウェア財団: Apache ORC。GitHub 2022、1 (2015)。https://github.com/apache/orc [7] 2016. フェザー. GitHub 2022, 1 (2016). https://github.com/ wesm/feather [8] 2016. Weaviate: MLファーストのベクトル検索エンジン。GitHub 2022, 1 (2016). https://github.com/semi-technologies/weaviate [9] 2017. Apache Airflow. GitHub 2022, 1 (2017). http://airflow.incubator.apache.org [10] 2017. Apacheソフトウェア財団: Apache Hudi。GitHub 2022、1 (2017)。https://hudi.apache.org [11] 2017. CloudVolume: NeuroglancerデータセットのIO。GitHub 2022, 1 (2017). https://github.com/seung-lab/cloud-volume [12] 2018. Amazon Athena. GitHub 2022, 1 (2018). https://aws. amazon.com/athena [13] 2018. Apacheソフトウェア財団：Apache Arrow。GitHub 2022、1（2018）。https://arrow.apache.org [14] 2018. Apacheソフトウェア財団:Apache Hadoop。GitHub 2022、1 (2018)。https://hadoop.apache.org [15] 2018. Apacheソフトウェア財団: Apache Iceberg。GitHub 2022、1 (2018)。https://iceberg.apache.org [16] 2018. Feast: 機械学習のためのオープンソース機能ストア。GitHub 2022, 1 (2018). https://github.com/feast-dev/feast [17] 2018. Amazon S3 APIと互換性のあるMinIO高性能オブジェクトストレージサーバー。GitHub 2022, 1 (2018). https://github.com/minio/minio [18] 2018. Petastorm. GitHub 2022, 1 (2018). https://github.com/uber/petastorm [19] 2018. WebDatasetフォーマット. GitHub 2022, 1 (2018). https://github.com/webdataset/webdataset [20] 2019. Apacheソフトウェア財団: Apache Avro。GitHub 2019、1 (2019)。https://avro.apache.org [21] 2019. LakeFS: Gitのようなリポジトリを備えたデータレイク。GitHub 2022, 1 (2019). https://github.com/treeverse/lakeFS [22] 2020. Airbyte. GitHub 2022, 1 (2020). https://github.com/ airbytehq/airbyte [23] 2020. TensorStore: 大規模な多次元配列の読み取りと書き込みのためのライブラリ。GitHub 2022, 1 (2020). https://github. com/google/tensorstore [24] 2021. N5: 大規模なチャンク化されたn次元テンソルと任意のメタデータをHDF5に似たグループの階層に格納するために必要な基本操作を指定します。GitHub 2021, 1 (2021). https://github.com/saalfeldlab/n5 [25] Martín Abadi、Paul Barham、Jianmin Chen、Zhifeng Chen、Andy Davis、Jeffrey Dean、Matthieu Devin、Sanjay Ghemawat、Geoffrey Irving、Michael Isard、他2016年。「Tensorflow: 大規模機械学習のためのシステム」第12回{USENIX}オペレーティングシステム設計および実装シンポジウム（{OSDI} 16）。265–283。 [26] Alex Aizman、Gavin Maltby、Thomas Breuel。2019。大規模ディープラーニングのための高性能I/O。2019 IEEE国際ビッグデータ会議（ビッグデータ）。IEEE、5965–5967。 [27] Michael Armbrust、Tathagata Das、Liwen Sun、Burak Yavuz、Shixiong Zhu、Mukul Murthy、Joseph Torres、Herman van Hovell、Adrian Ionescu、Alicja Łuszczak、et al。2020。Delta lake：クラウドオブジェクトストア上の高性能ACIDテーブルストレージ。VLDB Endowmentの議事録13、12（2020）、3411–3424。 [28] Michael Armbrust、Ali Ghodsi、Reynold Xin、Matei Zaharia。2021。Lakehouse：データウェアハウスと高度な分析を統合する新世代のオープンプラットフォーム。CIDRの議事録。 [29] Alexei Baevski、Wei-Ning Hsu、Qiantong Xu、Arun Babu、Jiatao Gu、Michael Auli。2022年。Data2vec：音声、視覚、言語における自己教師あり学習の一般的なフレームワーク。arXivプレプリントarXiv：2202.03555（2022）。 [30] Dzmitry Bahdanau、Kyunghyun Cho、Yoshua Bengio。2014年。アラインメントと翻訳の共同学習によるニューラル機械翻訳。arXivプレプリントarXiv：1409.0473（2014）。 [31] James Bradbury、Roy Frostig、Peter Hawkins、Matthew James Johnson、Chris Leary、Dougal Maclaurin、George Necula、Adam Paszke、Jake VanderPlas、Skye Wanderman-Milne、Qiao Zhang。2018年。JAX：Python + NumPyプログラムの構成可能な変換。http://github.com/google/jax [32] Tom Brown、Benjamin Mann、Nick Ryder、Melanie Subbiah、Jared D Kaplan、Prafulla Dhariwal、Arvind Neelakantan、Pranav Shyam、Girish Sastry、Amanda Askell、et al。2020年。「言語モデルは少数ショット学習者である」神経情報処理システムの進歩33（2020）、1877-1901。 [33] Benoit Dageville、Thierry Cruanes、Marcin Zukowski、Vadim Antonov、Artin Avanes、Jon Bock、Jonathan Claybaugh、Daniel Engovatov、Martin Hentschel、Jiansheng Huang、他2016年。「スノーフレークエラスティックデータウェアハウス」。2016年国際データ管理会議の議事録。215～226ページ。 [34] Jia Deng、Wei Dong、Richard Socher、Li-Jia Li、Kai Li、Li Fei-Fei。 2009. Imagenet: 大規模な階層型画像データベース。 2009 年の IEEE コンピュータービジョンとパターン認識に関する会議。 IEEE、248–255。 [35] J. Deng、W. Dong、R. Socher、L.-J. Li、K. Li、およびL. Fei-Fei。2009年。ImageNet：大規模階層型画像データベース。CVPR09に掲載。 [36] Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova。2018年。Bert：言語理解のための深層双方向トランスフォーマーの事前トレーニング。arXivプレプリントarXiv：1810.04805（2018）。 [37] Markus Dreseler、Jan Kossmann、Martin Boissier、Stefan Klauck、Matthias Uflacker、およびHasso Plattner。2019年。Hyrise Re-engineered：リレーショナルインメモリデータ管理の研究のための拡張可能なデータベースシステム。データベーステクノロジーの進歩-データベーステクノロジーの拡張に関する第22回国際会議、EDBT 2019、ポルトガル、リスボン、2019年3月26〜29日、Melanie Herschel、Helena Galhardas、Berthold Reinwald、Irini Fundulaki、Carsten Binnig、およびZoi Kaoudi（編）。OpenProceedings.org、313〜324。https://doi.org/10.5441/002/edbt。2019.28 [38] イアン・グッドフェロー、ヨシュア・ベンジオ、アーロン・クールビル。2016年。ディープラーニング。MITプレス。 [39] アンドリュー・イリヤス・サム・パーク・ハディ・サルマン・ギヨーム・ルクレール、ローガン・エングストロム。2021. WebDatasetフォーマット。GitHub 2022、1（2021）。https://github.com/libffcv/ffcv [40] Anurag Gupta、Deepak Agarwal、Derek Tan、Jakub Kulesza、Rahul Pathak、Stefano Stefani、およびVidhya Srinivasan。2015年。Amazon Redshiftとよりシンプルなデータウェアハウスのケース。2015 ACM SIGMOD国際データ管理会議の議事録。1917-1923年。 [41] Dong He、Supun Nakandala、Dalitso Banda、Rathijit Sen、Karla Saur、Kwanghyun Park、Carlo Curino、Jesús CamachoRodríguez、Konstantinos Karanasos、Matteo Interlandi。2022年。テンソル計算ランタイムでのクエリ処理。arXivプレプリントarXiv：2203.01877（2022）。 [42] Yu HuangとYue Chen。2020年。ディープラーニングによる最先端の自動運転技術の調査。2020 IEEE第20回ソフトウェア品質、信頼性、セキュリティコンパニオンに関する国際会議（QRS-C）。IEEE、221–228。 [43] Tero Karras、Samuli Laine、Timo Aila。2019年。生成的敵対ネットワークのためのスタイルベースのジェネレータアーキテクチャ。コンピュータービジョンとパターン認識に関するIEEE / CVF会議の議事録。4401–4410。 [44] Alex Krizhevsky、Ilya Sutskever、Geoffrey E Hinton。2012年。深層畳み込みニューラルネットワークによるImagenet分類。ニューラル情報処理システムの進歩。1097-1105ページ。Deep Lake：ディープラーニングのためのレイクハウス [45] Abhishek Vijaya KumarとMuthian Sivathanu。2020年。Quiver：ディープラーニングのための情報に基づいたストレージキャッシュ。第18回USENIXファイルおよびストレージ技術会議（FAST 20）。283–296。 [46] Ruslan Kuprieiev、skshetry、Dmitry Petrov、Paweł Redzyński、Peter Rowlands、Casper da Costa-Luis、Alexander Schepanovski、Ivan Shcheklein、Batuhan Taskaya、Gao、Jorge Orpinel、David de la Iglesia Castro、Fábio Santos、Aman Sharma、Dave Berenbaum、Zhanibek、Dani Hodovic、Nikita Kodenko、Andrew Grigorev、Earl、daniele、Nabanita Dash、George Vyshnya、maykulkarni、Max Hora、Vera、Sanidhya Mangal、Wojciech Baranowski。2022年。DVC：データバージョン管理 - データとモデルのためのGit。https://doi.org/10.5281/zenodo.7039863 [47] ヤン・ルカン、ヨシュア・ベンジオ、ジェフリー・ヒントン。2015年。ディープラーニング。ネイチャー521、7553（2015）、436。 [48] Kisuk Lee、Jonathan Zung、Peter Li、Viren Jain、H Sebastian Seung。2017年。SNEMI3Dコネクトミクスチャレンジにおける超人的な精度。arXivプレプリントarXiv:1706.00120 (2017)。 [49] Tsung-Yi Lin、Michael Maire、Serge Belongie、James Hays、Pietro Perona、Deva Ramanan、Piotr Dollár、C Lawrence Zitnick。2014年。Microsoft coco：コンテキスト内の共通オブジェクト。ヨーロッパコンピュータビジョン会議。Springer、740-755。 [50] Frank Sifei Luan、Stephanie Wang、Samyukta Yagati、Sean Kim、Kenneth Lien、SangBin Cho、Eric Liang、Ion Stoica。2022年。「Exoshuffle：アプリケーションレベルでの大規模シャッフル」arXivプレプリントarXiv：2203.05072（2022）。 [51] Tomas Mikolov、Kai Chen、Greg Corrado、Jeffrey Dean。2013年。ベクトル空間における単語表現の効率的な推定。arXivプレプリントarXiv:1301.3781 (2013)。 [52] Alistair Miles、John Kirkham、Martin Durant、James Bourbeau、Tarik Onalan、Joe Hamman、Zain Patel、shikharsg、Matthew Rocklin、raphael dussin、Vincent Schut、Elliott Sales de Andrade、Ryan Abernathey、Charles Noyes、sbalmer、pyup.io bot、Tommy Tran、Stephan Saalfeld、Justin Swaney、Josh Moore、Joe Jevnik、Jerome Kelleher、Jan Funke、George Sakkis、Chris Barnes、Anderson Banihirwe。2020年。zarr-developers/zarrpython: v2.4.0。https://doi.org/10.5281/zenodo.3773450 [53] Philipp Moritz、Robert Nishihara、Stephanie Wang、Alexey Tumanov、Richard Liaw、Eric Liang、Melih Elibol、Zongheng Yang、William Paul、Michael I Jordan、他2018年。Ray：新興AIアプリケーションのための分散フレームワーク。第13回USENIXオペレーティングシステム設計および実装シンポジウム（OSDI 18）。561–577。 [54] Iason Ofeidis、Diego Kiedanski、Leandros Tassiulas。2022年。データローダーランドスケープの概要：比較パフォーマンス分析。arXivプレプリントarXiv：2209.13705（2022）。[ 55] Travis E Oliphant. 2006. NumPy ガイド。第 1 巻。Tregol Publishing USA。 [56] Aaron van den Oord、Sander Dieleman、Heiga Zen、Karen Simonyan、Oriol Vinyals、Alex Graves、Nal Kalchbrenner、Andrew Senior、Koray Kavukcuoglu。2016年。Wavenet：生のオーディオの生成モデル。arXivプレプリントarXiv：1609.03499（2016）。 [57] Stavros Papadopoulos、Kushal Datta、Samuel Madden、Timothy Mattson。2016年。tiledb配列データストレージマネージャ。VLDB Endowmentの議事録10、4（2016）、349-360。 [58] Adam Paszke、Sam Gross、Soumith Chintala、Gregory Chanan、Edward Yang、Zachary DeVito、Zeming Lin、Alban Desmaison、Luca Antiga、Adam Lerer。2017年。pytorchにおける自動微分。(2017) [59] マーシャ・バスマノワ、ケビン・ウィルフォン、レイス・サッカ、クリシュナ・パイ・ウェイ・ヘ、ビスワペシュ・チャトパディヤイ、ペドロ・ペドレイラ、オリ・エルリング。2022年。Velox：Metaの統合実行エンジン。VLDB基金の議事録（2022年）。 [60] Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、Jack Clark、et al。2021。自然言語監督からの転移可能な視覚モデルの学習。機械学習に関する国際会議。PMLR、8748–8763。 [61] Pranav Rajpurkar、Jeremy Irvin、Kaylie Zhu、Brandon Yang、Hershel Mehta、Tony Duan、Daisy Ding、Aarti Bagul、Curtis Langlotz、Katie Shpanskaya、et al。2017。Chexnet：深層学習による胸部X線画像での放射線科医レベルの肺炎検出。arXivプレプリントarXiv：1711.05225（2017）。 [62] Aditya Ramesh、Mikhail Pavlov、Gabriel Goh、Scott Gray、Chelsea Voss、Alec Radford、Mark Chen、Ilya Sutskever。2021年。ゼロショットテキストから画像への生成。国際機械学習会議。PMLR、8821–8831。 [63] ジョセフ・レドモン、サントシュ・ディヴァラ、ロス・ガーシック、アリ・ファルハディ。2016年。「一度だけ見る：統合されたリアルタイム物体検出」IEEEコンピュータビジョンおよびパターン認識会議論文集。779-788。 [64] アミット・サブネ。2020年。Xla：最高のパフォーマンスを実現するための機械学習のコンパイル。（2020年）。 [65] Chitwan Saharia、William Chan、Saurabh Saxena、Lala Li、Jay Whang、Emily Denton、Seyed Kamyar Seyed Ghasemipour、Burcu Karagol Ayan、S Sara Mahdavi、Rapha Gontijo Lopes、et al。2022。深い言語理解を備えたフォトリアリスティックなテキストから画像への拡散モデル。arXivプレプリントarXiv：2205.11487（2022）。 [66] Tom van Bussel Samwel、Herman van Hovell、Maryann Xue、Reynold Xin、Matei Zaharia。2022年。Photon：レイクハウスシステム向けの高速クエリエンジン。（2022年）。 [67] Christoph Schuhmann、Romain Beaumont、Cade W Gordon、Ross Wightman、Theo Coombes、Aarush Katta、Clayton Mullis、Patrick Schramowski、Srivatsa R Kundurthy、Katherine Crowson、et al。2022年。LAION-5B：次世代の画像テキストモデルをトレーニングするためのオープンな大規模データセット。（2022年）。 [68] Christoph Schuhmann、Richard Vencu、Romain Beaumont、Robert Kaczmarczyk、Clayton Mullis、Aarush Katta、Theo Coombes、Jenia Jitsev、Aran Komatsuzaki。2021年。Laion400m：クリップフィルタリングされた4億の画像とテキストのペアのオープンデータセット。arXivプレプリントarXiv：2111.02114（2021）。 [69] Philip Schwan他2003. Lustre: 1000ノードクラスタ用ファイルシステムの構築。2003 Linuxシンポジウム議事録、2003年第380-386頁。 [70] Raghav Sethi、Martin Traverso、Dain Sundstrom、David Phillips、Wenlei Xie、Yutian Sun、Nezih Yegitbasi、Haozhun Jin、Eric Hwang、Nileema Shingte、他2019年。Presto: SQL on everything。2019 IEEE 35th International Conference on Data Engineering (ICDE)。IEEE、1802–1813。 [71] Konstantin Shvachko、Hairong Kuang、Sanjay Radia、Robert Chansler、他2010. Hadoop分散ファイルシステム. MSST、第10巻、1-10頁。 [72] David Silver、Thomas Hubert、Julian Schrittwieser、Ioannis Antonoglou、Matthew Lai、Arthur Guez、Marc Lanctot、Laurent Sifre、Dharshan Kumaran、Thore Graepel、et al. 2018.チェス、将棋、囲碁を自己対戦でマスターする汎用強化学習アルゴリズム。Science 362、6419（2018）、1140–1144。 [73] K Stumpf、S Bedratiuk、O Cirit。2018。Michelangelo PyML：迅速なPython MLモデル開発のためのUberプラットフォームの紹介。Uber。参照：https://eng.uber.com/michelangelo-pyml（2018）。 [74] Pedro Javier Ortiz Suárez、Benoît Sagot、Laurent Romary。2019年。「中～低リソースのインフラストラクチャで大規模コーパスを処理するための非同期パイプライン」。大規模コーパス管理の課題に関する第7回ワークショップ（CMLC-7）。ライプニッツ・インスティテュート・フューア・ドイツ語圏。 [75] Squirrel開発チーム。2022年。Squirrel：MLチームが協力的かつ柔軟で効率的な方法でデータを共有、ロード、変換できるようにするPythonライブラリ。GitHub。注：https://github.com/merantix-momentum/squirrel-core（2022年）。https://doi.org/10.5281/zenodo.6418280 [76] Ashish Suchoo、Joydeep Sen Sarma、Namit Jain、Zheng Shao、Prasad Chakka、Ning Zhang、Suresh Antony、Hao Liu、およびRaghotham Murthy。2010。Hive：Hadoopを使用したペタバイト規模のデータウェアハウス。2010 IEEE第26回国際データエンジニアリング会議（ICDE 2010）。IEEE、996–1005。 [77] Kathryn Tunyasuvunakool、Jonas Adler、Zachary Wu、Tim Green、Michal Zielinski、Augustin Žídek、Alex Bridgland、Andrew Cowie、Clemens Meyer、Agata Laydon、et al. 2021.ヒトプロテオームの高精度なタンパク質構造予測。Nature 596、7873（2021）、590-596。 [78] Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Łukasz Kaiser、Illia Polosukhin。2017年。「必要なのは注意だけ」神経情報処理システムの進歩30（2017年）。 [79] Deepak Vohra. 2016. Apache parquet. 実践的なHadoopエコシステム. Springer, 325–335. [80] 王建国、易暁蒙、郭仁通、海金、徐彭、李盛君、王祥宇、郭祥州、李成明、徐暁海、他2021. Milvus: 専用のベクター データ管理システム。 2021年国際データ管理会議の議事録に掲載。 2614–2627年。 [81] Zhilin Yang、Zihang Dai、Yiming Yang、Jaime Carbonell、Russ R Salakhutdinov、Quoc V Le。2019。Xlnet：言語理解のための一般化自己回帰事前トレーニング。神経情報処理システムの進歩32（2019）。 [82] Matei Zaharia、Mosharaf Chowdhury、Michael J Franklin、Scott Shenker、Ion Stoica。2010年。Spark：ワーキングセットを使用したクラスターコンピューティング。HotCloud 10、10-10（2010）、95。 [83] Xiang Zhang、Junbo Zhao、Yann LeCun。2015年。「テキスト分類のための文字レベル畳み込みネットワーク」神経情報処理システムの進歩。649-657。 この論文はCC 4.0ライセンスの下で 。 arxivで公開されています