243 판독값

딥 러닝을 위한 레이크하우스인 Deep Lake: 결론, 감사의 말씀, 참고 자료

~에 의해 Dataology: Study of Data in Computer Science11m2024/06/05

너무 오래; 읽다

연구원들은 딥 러닝 프레임워크를 위한 복잡한 데이터 스토리지 및 스트리밍을 최적화하는 딥 러닝용 오픈 소스 레이크하우스인 Deep Lake를 소개합니다.

featured image - 딥 러닝을 위한 레이크하우스인 Deep Lake: 결론, 감사의 말씀, 참고 자료

저자:

(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, USA;

(2) Abhinav Tuli, Activeloop, 미국 캘리포니아주 마운틴뷰;

(3) Levon Ghukasyan, Activeloop, Mountain View, CA, USA;

(4) Fariz Rahman, Activeloop, 미국 캘리포니아주 마운틴뷰;.

(5) Hrant Topchyan, Activeloop, Mountain View, CA, USA;

(6) David Isayan, Activeloop, 미국 캘리포니아주 마운틴뷰;

(7) 마크 맥퀘이드(Mark McQuade), 미국 캘리포니아주 마운틴뷰 소재 Activeloop;

(8) Mikayel Harutyunyan, Activeloop, 미국 캘리포니아주 마운틴뷰;

(9) Tatevik Hakobyan, Activeloop, 미국 캘리포니아주 마운틴뷰;

(10) Ivo Stranic, Activeloop, Mountain View, CA, USA;

(11) Davit Buniatyan, Activeloop, Mountain View, CA, USA.

링크 표

9. 결론

딥러닝을 위한 레이크하우스, 딥레이크(Deep Lake)를 선보였습니다. Deep Lake는 최신 데이터 스택에서 실행되는 분석 워크플로처럼 딥 러닝 워크플로가 원활하게 실행될 수 있도록 설계되었습니다. 특히 Deep Lake는 시간 여행, 쿼리, 대규모 데이터 수집 등 데이터 레이크의 주요 기능을 유지하도록 구축되었습니다. 기존 데이터 레이크와의 한 가지 중요한 차이점은 Deep Lake의 모든 메타데이터와 함께 구조화되지 않은 데이터를 딥 러닝 기본 열 형식으로 저장하여 빠른 데이터 스트리밍을 가능하게 하는 기능입니다. 이를 통해 GPU 활용도를 희생하지 않고도 즉시 데이터 하위 집합을 구체화하고 브라우저 내에서 시각화하거나 딥 러닝 프레임워크에 수집할 수 있습니다. 마지막으로, 우리는 Deep Lake가 여러 벤치마크를 통해 대규모 데이터 세트에 대한 딥 러닝을 위한 최첨단 성능을 달성한다는 것을 보여줍니다.

10. 승인

저자들은 Richard Socher, Travis Oliphant, Charu Rudrakshi, Artem Harutyunyan, Iason Ofeidis, Diego Kiedanski, Vishnu Nair, Fayaz Rahman, Dyllan McCreary, Benjamin Hindman, Eduard Grigoryan, Kristina Grigoryan, Ben Chislett, Joubin Houshyar, Andrii Liubimov에게 감사의 말씀을 전합니다. , Assaf Pinhasi, Vishnu Nair, Eshan Arora, Shashank Agarwal, Pawel Janowski, Kristina Arezina, Gevorg Karapetyan, Vigen Sahakyan 및 기여자를 포함한 오픈 소스 커뮤니티. 이 프로젝트는 Activeloop에서 자금을 지원 받았습니다. 또한 피드백을 주신 CIDR 검토자에게도 감사드립니다.

참고자료

[1] 2006년. 아마존 S3. GitHub 2022, 1(2006). https://aws.amazon. com/s3

[2] 2009. 클릭하우스. GitHub 2022, 1(2009). https://github.com/클릭하우스/클릭하우스

[3] 2010. 구글 클라우드 스토리지. GitHub 2022, 1(2010). https: //cloud.google.com/storage

[4] 2012. 구글 빅쿼리. GitHub 2022, 1(2012). https://cloud. google.com/bigquery

[5] 2014. 프로토콜 버퍼 - Google의 데이터 교환 형식. GitHub 2022, 1(2014). https://github.com/protocolbuffers/protobuf

[6] 2015. 아파치 소프트웨어 재단: 아파치 ORC. GitHub 2022, 1(2015). https://github.com/apache/orc

[7] 2016. 깃털. GitHub 2022, 1(2016). https://github.com/wesm/feather

[8] 2016. Weaviate: ML 최초의 벡터 검색 엔진. GitHub 2022, 1(2016). https://github.com/semi-technologies/weaviate

[9] 2017. 아파치 에어플로우. GitHub 2022, 1(2017). http://airflow. incubator.apache.org

[10] 2017. 아파치 소프트웨어 재단: Apache Hudi. GitHub 2022, 1(2017). https://hudi.apache.org

[11] 2017. CloudVolume: Neuroglancer 데이터 세트용 IO. GitHub 2022, 1(2017). https://github.com/seung-lab/cloud-volume

[12] 2018. 아마존 아테나. GitHub 2022, 1(2018). https://aws. amazon.com/athena

[13] 2018. Apache 소프트웨어 재단: Apache Arrow. GitHub 2022, 1(2018). https://arrow.apache.org

[14] 2018. 아파치 소프트웨어 재단: 아파치 하둡. GitHub 2022, 1(2018). https://hadoop.apache.org

[15] 2018. 아파치 소프트웨어 재단: 아파치 아이스버그. GitHub 2022, 1(2018). https://iceberg.apache.org

[16] 2018. Feast: 기계 학습을 위한 오픈 소스 기능 스토어. GitHub 2022, 1(2018). https://github.com/feast-dev/feast

[17] 2018. Amazon S3 API와 호환되는 MinIO 고성능 객체 스토리지 서버. GitHub 2022, 1(2018). https: //github.com/minio/minio

[18] 2018. 페타스톰. GitHub 2022, 1(2018). https://github.com/uber/petastorm [19] 2018. WebDataset 형식. GitHub 2022, 1(2018). https: //github.com/webdataset/webdataset

[20] 2019. Apache 소프트웨어 재단: Apache Avro. GitHub 2019, 1(2019). https://avro.apache.org

[21] 2019. LakeFS: Git과 같은 저장소를 갖춘 데이터 레이크. GitHub 2022, 1(2019). https://github.com/treeverse/lakeFS

[22] 2020. 에어바이트. GitHub 2022, 1(2020). https://github.com/airbytehq/airbyte

[23] 2020. TensorStore: 대규모 다차원 배열을 읽고 쓰기 위한 라이브러리. GitHub 2022, 1(2020). https://github. com/google/tensorstore

[24] 2021. N5: 큰 덩어리로 분할된 n차원 텐서 및 HDF5와 유사한 그룹 계층 구조의 임의 메타데이터를 저장하는 데 필요한 기본 작업을 지정합니다. GitHub 2021, 1(2021). https://github.com/saalfeldlab/n5

[25] Martín Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard 등 2016. Tensorflow: 대규모 기계 학습을 위한 시스템. 제12회 {USENIX} 운영 체제 설계 및 구현에 관한 심포지엄({OSDI} 16). 265-283.

[26] Alex Aizman, Gavin Maltby, Thomas Breuel. 2019. 대규모 딥러닝을 위한 고성능 I/O. 2019 IEEE 빅데이터 국제컨퍼런스(빅데이터). IEEE, 5965-5967.

[27] Michael Armbrust, Tathagata Das, Liwen Sun, Burak Yavuz, Shixiong Zhu, Mukul Murthy, Joseph Torres, Herman van Hovell, Adrian Ionescu, Alicja Łuszczak 등. 2020. Delta Lake: 클라우드 객체 저장소를 통한 고성능 ACID 테이블 스토리지. VLDB 기부금 절차 13, 12(2020), 3411-3424. [28] Michael Armbrust, Ali Ghodsi, Reynold Xin 및 Matei Zaharia. 2021. Lakehouse: 데이터 웨어하우징과 고급 분석을 통합하는 차세대 개방형 플랫폼입니다. CIDR 절차에서.

[29] Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu 및 Michael Auli. 2022. Data2vec: 말하기, 시각 및 언어 분야의 자기 지도 학습을 위한 일반 프레임워크입니다. arXiv 사전 인쇄 arXiv:2202.03555 (2022).

[30] Dzmitry Bahdanau, 조경현, 요슈아 벤지오. 2014. 정렬 및 번역을 공동 학습하여 신경 기계 번역. arXiv 사전 인쇄 arXiv:1409.0473 (2014).

[31] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne 및 Qiao Zhang. 2018. JAX: Python+NumPy 프로그램의 구성 가능한 변환. http://github.com/google/jax

[32] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell 등. 2020. 언어 모델은 소수의 학습자입니다. 신경 정보 처리 시스템의 발전 33(2020), 1877-1901.

[33] Benoit Dageville, Thierry Cruanes, Marcin Zukowski, Vadim Antonov, Artin Avanes, Jon Bock, Jonathan Claybaugh, Daniel Engovatov, Martin Hentschel, Jiansheng Huang 등. 2016. 눈송이 탄력적 데이터 웨어하우스. 2016 데이터 관리에 관한 국제 회의 진행 중. 215~226.

[34] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li 및 Li Fei-Fei. 2009. Imagenet: 대규모 계층적 이미지 데이터베이스. 2009년 컴퓨터 비전 및 패턴 인식에 관한 IEEE 컨퍼런스. 이, 248–255.

[35] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li 및 L. Fei-Fei. 2009. ImageNet: 대규모 계층적 이미지 데이터베이스. CVPR09에서.

[36] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova. 2018. Bert: 언어 이해를 위한 심층 양방향 변환기 사전 훈련. arXiv 사전 인쇄 arXiv:1810.04805 (2018).

[37] Markus Dreseler, Jan Kossmann, Martin Boissier, Stefan Klauck, Matthias Uflacker 및 Hasso Plattner. 2019. Hyrise 재설계: 관계형 인메모리 데이터 관리 연구를 위한 확장 가능한 데이터베이스 시스템. 데이터베이스 기술의 발전 - 데이터베이스 기술 확장에 관한 제22차 국제 컨퍼런스, EDBT 2019, 포르투갈 리스본, 2019년 3월 26~29일, Melanie Herschel, Helena Galhardas, Berthold Reinwald, Irini Fundulaki, Carsten Binnig 및 Zoi Kaoudi(Eds.) . OpenProceedings.org, 313–324. https://doi.org/10.5441/002/edbt. 2019.28

[38] 이안 굿펠로우, 요슈아 벤지오, 아론 쿠르빌. 2016. 딥러닝. MIT 언론.

[39] Andrew Ilyas Sam Park Hadi Salman Guillaume Leclerc, Logan Engstrom. 2021. WebDataset 형식. GitHub 2022, 1(2021). https://github.com/libffcv/ffcv

[40] Anurag Gupta, Deepak Agarwal, Derek Tan, Jakub Kulesza, Rahul Pathak, Stefano Stefani 및 Vidhya Srinivasan. 2015. Amazon redshift 및 더 단순한 데이터 웨어하우스를 위한 사례. 데이터 관리에 관한 2015 ACM SIGMOD 국제 회의 진행 중. 1917~1923.

[41] Dong He, Supun Nakandala, Dalitso Banda, Rathijit Sen, Karla Saur, 박광현, Carlo Curino, Jesús CamachoRodríguez, Konstantinos Karanasos 및 Matteo Interlandi. 2022. 텐서 계산 런타임의 쿼리 처리. arXiv 사전 인쇄 arXiv:2203.01877(2022).

[42] Yu Huang과 Yue Chen. 2020. 딥러닝을 활용한 최첨단 자율주행 기술에 대한 조사. 2020년 IEEE 20차 소프트웨어 품질, 신뢰성 및 보안 동반자(QRS-C)에 관한 국제 컨퍼런스. IEEE, 221-228.

[43] Tero Karras, Samuli Laine 및 Timo Aila. 2019. 생성적 적대 네트워크를 위한 스타일 기반 생성기 아키텍처. 컴퓨터 비전 및 패턴 인식에 관한 IEEE/CVF 회의 진행 중. 4401~4410.

[44] Alex Krizhevsky, Ilya Sutskever 및 Geoffrey E Hinton. 2012. 심층 합성곱 신경망을 사용한 Imagenet 분류. 신경 정보 처리 시스템의 발전. 1097-1105. Deep Lake: 딥 러닝을 위한 레이크하우스

[45] Abhishek Vijaya Kumar 및 Muthian Sivathanu. 2020. Quiver: 딥 러닝을 위한 정보 기반 스토리지 캐시입니다. 제18차 USENIX 파일 및 스토리지 기술 컨퍼런스(FAST 20)에서. 283-296.

[46] Ruslan Kuprieiev, skshetry, Dmitry Petrov, Paweł Redzyński, Peter Rowlands, Casper da Costa-Luis, Alexander Schepanovski, Ivan Shcheklein, Batuhan Taskaya, Gao, Jorge Orpinel, David de la Iglesia Castro, Fábio Santos, Aman Sharma, Dave Berenbaum, Zhanibek, Dani Hodovic, Nikita Kodenko, Andrew Grigorev, Earl, daniele, Nabanita Dash, George Vyshnya, maykulkarni, Max Hora, Vera, Sanidhya Mangal 및 Wojciech Baranowski. 2022. DVC: 데이터 버전 제어 - 데이터 및 모델용 Git. https://doi.org/10.5281/zenodo.7039863

[47] 얀 르쿤, 요슈아 벤지오, 제프리 힌튼. 2015. 딥러닝. 자연 521, 7553(2015), 436.

[48] 이기숙, 조나단 정, 피터 리, 비렌 제인, H 세바스찬 승. 2017. SNEMI3D 커넥토믹스 챌린지에 대한 초인적인 정확성. arXiv 사전 인쇄 arXiv:1706.00120 (2017).

[49] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár 및 C Lawrence Zitnick. 2014. 마이크로소프트 코코: 맥락 속의 공통 개체. 컴퓨터 비전에 관한 유럽 회의에서. 스프링거, 740-755.

[50] Frank Sifei Luan, Stephanie Wang, Samyukta Yagati, Sean Kim, Kenneth Lien, 조상빈, Eric Liang 및 Ion Stoica. 2022. 엑소셔플: 애플리케이션 수준의 대규모 셔플. arXiv 사전 인쇄 arXiv:2203.05072 (2022).

[51] Tomas Mikolov, Kai Chen, Greg Corrado 및 Jeffrey Dean. 2013. 벡터 공간에서 단어 표현의 효율적인 추정. arXiv 사전 인쇄 arXiv:1301.3781 (2013).

[52] Alistair Miles, John Kirkham, Martin Durant, James Bourbeau, Tarik Onalan, Joe Hamman, Zain Patel, shikharsg, Matthew Rocklin, Raphael dussin, Vincent Schut, Elliott Sales de Andrade, Ryan Abernathey, Charles Noyes, sbalmer, pyup. io 봇, Tommy Tran, Stephan Saalfeld, Justin Swaney, Josh Moore, Joe Jevnik, Jerome Kelleher, Jan Funke, George Sakkis, Chris Barnes 및 Anderson Banihirwe. 2020. zarr-developers/zarrpython: v2.4.0. https://doi.org/10.5281/zenodo.3773450

[53] Philipp Moritz, Robert Nishihara, Stephanie Wang, Alexey Tumanov, Richard Liaw, Eric Liang, Melih Elibol, Zongheng Yang, William Paul, Michael I Jordan 등. 2018. Ray: 새로운 {AI} 애플리케이션을 위한 분산 프레임워크입니다. 제13회 {USENIX} 운영 체제 설계 및 구현에 관한 심포지엄({OSDI} 18). 561-577.

[54] Iason Ofeidis, Diego Kiedanski, Leandros Tassiulas. 2022. 데이터 로더 환경 개요: 비교 성능 분석. arXiv 사전 인쇄 arXiv:2209.13705 (2022). [

55] 트래비스 E 올리펀트. 2006. NumPy 가이드. Vol. 1. Trelgol 출판 미국.

[56] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior 및 Koray Kavukcuoglu. 2016. Wavenet: 원시 오디오 생성 모델. arXiv 사전 인쇄 arXiv:1609.03499 (2016).

[57] Stavros Papadopoulos, Kushal Datta, Samuel Madden 및 Timothy Mattson. 2016. Tiledb 배열 데이터 저장 관리자. VLDB 기부금 절차 10, 4(2016), 349-360.

[58] Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga 및 Adam Lerer. 2017. pytorch의 자동 차별화. (2017).

[59] Masha Basmanova Kevin Wilfong Laith Sakka Krishna Pai Wei He Biswapesh Chattopadhyay Pedro Pedreira, Orri Erling. 2022. Velox: Meta의 통합 실행 엔진. VLDB 기부금 절차(2022).

[60] Alec Radford, 김종욱, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark 등 2021. 자연어 감독을 통해 전달 가능한 시각적 모델을 학습합니다. 머신러닝에 관한 국제 컨퍼런스에서. PMLR, 8748-8763.

[61] Pranav Rajpurkar, Jeremy Irvin, Kaylie Zhu, Brandon Yang, Hershel Mehta, Tony Duan, Daisy Ding, Aarti Bagul, Curtis Langlotz, Katie Shpanskaya 등. 2017. Chexnet: 딥 러닝을 통해 흉부 엑스레이를 통해 방사선사 수준의 폐렴 탐지. arXiv 사전 인쇄 arXiv:1711.05225 (2017).

[62] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen 및 Ilya Sutskever. 2021. 제로샷 텍스트-이미지 생성. 머신러닝에 관한 국제 컨퍼런스에서. PMLR, 8821-8831.

[63] Joseph Redmon, Santosh Divvala, Ross Girshick 및 Ali Farhadi. 2016. 한 번만 보면 됩니다: 통합된 실시간 개체 감지. 컴퓨터 비전 및 패턴 인식에 관한 IEEE 회의 진행 중. 779-788.

[64] 아미트 사브네. 2020. Xla: 최고의 성능을 위한 기계 학습 컴파일. (2020).

[65] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S Sara Mahdavi, Rapha Gontijo Lopes 등. 2022. 깊은 언어 이해를 갖춘 사실적인 텍스트-이미지 확산 모델. arXiv 사전 인쇄 arXiv:2205.11487 (2022).

[66] Tom van Bussel Samwel, Herman van Hovell, Maryann Xue, Reynold Xin 및 Matei Zaharia. 2022. Photon: Lakehouse 시스템을 위한 빠른 쿼리 엔진. (2022).

[67] Christoph Schuhmann, Romain Beaumont, Cade W Gordon, Ross Wightman, Theo Coombes, Aarush Katta, Clayton Mullis, Patrick Schramowski, Srivatsa R Kundurthy, Katherine Crowson 등. 2022. LAION-5B: 차세대 이미지-텍스트 모델 훈련을 위한 개방형 대규모 데이터세트. (2022).

[68] Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev 및 Aran Komatsuzaki. 2021. Laion400m: 클립 필터링된 4억 개의 이미지-텍스트 쌍의 공개 데이터세트. arXiv 사전 인쇄 arXiv:2111.02114 (2021).

[69] Philip Schwanet al. 2003. Lustre: 1000노드 클러스터용 파일 시스템 구축. 2003년 Linux 심포지엄 진행, Vol. 2003. 380-386.

[70] Raghav Sethi, Martin Traverso, Dain Sundstrom, David Phillips, Wenlei Xie, Yutian Sun, Nezih Yegitbasi, Haozhun Jin, Eric Hwang, Nileema Shingte 등. 2019. Presto: 모든 것에 대한 SQL. 2019년 IEEE 35차 데이터 엔지니어링 국제 컨퍼런스(ICDE). IEEE, 1802-1813.

[71] Konstantin Shvachko, Hairong Kuang, Sanjay Radia, Robert Chansler 등. 2010. 하둡 분산 파일 시스템.. MSST, Vol. 10. 1~10.

[72] David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel 등 2018. 셀프 플레이를 통해 체스, 장기, 바둑을 마스터하는 일반 강화학습 알고리즘. 과학 362, 6419(2018), 1140-1144.

[73] K Stumpf, S Bedratiuk 및 O Cirit. 2018. Michelangelo PyML: 신속한 Python ML 모델 개발을 위한 Uber 플랫폼을 소개합니다. 우버. 참조: https://eng. 우버. com/michelangelo-pyml (2018).

[74] Pedro Javier Ortiz Suárez, Benoît Sagot 및 Laurent Romary. 2019. 중간 및 낮은 리소스 인프라에서 대규모 말뭉치 처리를 위한 비동기 파이프라인. 제7차 대규모 기업 관리 과제 워크숍(CMLC-7). Leibniz-Institut für Deutsche Sprache.

[75] 다람쥐 개발자팀. 2022. Squirrel: ML 팀이 협업적이고 유연하며 효율적인 방식으로 데이터를 공유, 로드 및 변환할 수 있게 해주는 Python 라이브러리입니다. GitHub. 참고: https://github.com/merantix-momentum/squirrel-core(2022). https://doi.org/10.5281/zenodo.6418280

[76] Ashish Suchoo, Joydeep Sen Sarma, Namit Jain, Zheng Shao, Prasad Chakka, Ning Zhang, Suresh Antony, Hao Liu 및 Raghotham Murthy. 2010. Hive는 hadoop을 사용하는 페타바이트 규모의 데이터 웨어하우스입니다. 2010년 IEEE 26차 데이터 엔지니어링 국제 컨퍼런스(ICDE 2010). IEEE, 996-1005.

[77] Kathryn Tunyasuvunakool, Jonas Adler, Zachary Wu, Tim Green, Michal Zielinski, Augustin Žídek, Alex Bridgland, Andrew Cowie, Clemens Meyer, Agata Laydon 등 2021. 인간 프로테옴에 대한 매우 정확한 단백질 구조 예측. 자연 596, 7873(2021), 590–596.

[78] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser 및 Illia Polosukhin. 2017. 관심만 있으면 됩니다. 신경 정보 처리 시스템의 발전 30(2017).

[79] 디팍 보라. 2016. 아파치 마루. 실용적인 Hadoop 생태계. 스프링거, 325-335.

[80] Jianguo Wang, Xiaomeng Yi, Rentong Guo, Hai Jin, Peng Xu, Shengjun Li, Xiangyu Wang, Xiangzhou Guo, Chengming Li, Xiaohai Xu 등. 2021. Milvus: 목적에 맞게 구축된 벡터 데이터 관리 시스템. 2021 데이터 관리에 관한 국제 회의 진행 중. 2614~2627.

[81] Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Russ R Salakhutdinov 및 Quoc V Le. 2019. Xlnet: 언어 이해를 위한 일반화된 자동 회귀 사전 학습. 신경 정보 처리 시스템의 발전 32(2019).

[82] Matei Zaharia, Mosharaf Chowdhury, Michael J Franklin, Scott Shenker 및 Ion Stoica. 2010. Spark: 작업 세트를 사용한 클러스터 컴퓨팅. HotCloud 10, 10-10(2010), 95.

[83] Xiang Zhang, Junbo Zhao 및 Yann LeCun. 2015. 텍스트 분류를 위한 문자 수준 컨벌루션 네트워크. 신경 정보 처리 시스템의 발전. 649-657.