paint-brush
Deep Lake, Lakehouse cho Deep Learning: Kết luận, Lời cảm ơn và Tài liệu tham khảotừ tác giả@dataology
184 lượt đọc

Deep Lake, Lakehouse cho Deep Learning: Kết luận, Lời cảm ơn và Tài liệu tham khảo

dài quá đọc không nổi

Các nhà nghiên cứu giới thiệu Deep Lake, một Lakehouse nguồn mở để học sâu, tối ưu hóa việc lưu trữ và truyền phát dữ liệu phức tạp cho các khung học sâu.
featured image - Deep Lake, Lakehouse cho Deep Learning: Kết luận, Lời cảm ơn và Tài liệu tham khảo
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

tác giả:

(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, USA;

(2) Abhinav Tuli, Activeloop, Mountain View, CA, USA;

(3) Levon Ghukasyan, Activeloop, Mountain View, CA, USA;

(4) Fariz Rahman, Activeloop, Mountain View, CA, USA;.

(5) Hrant Topchyan, Activeloop, Mountain View, CA, USA;

(6) David Isayan, Activeloop, Mountain View, CA, USA;

(7) Mark McQuade, Activeloop, Mountain View, CA, USA;

(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, USA;

(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, USA;

(10) Ivo Stranic, Activeloop, Mountain View, CA, USA;

(11) Davit Buniatyan, Activeloop, Mountain View, CA, USA.

Bảng liên kết

9. KẾT LUẬN

Chúng tôi đã giới thiệu Deep Lake, ngôi nhà bên hồ dành cho việc học sâu. Deep Lake được thiết kế để giúp các quy trình học sâu diễn ra liền mạch như các quy trình phân tích chạy trên Modern Data Stack. Đáng chú ý, Deep Lake được xây dựng để giữ lại các tính năng nổi bật của hồ dữ liệu, chẳng hạn như du hành thời gian, truy vấn và nhập dữ liệu nhanh chóng trên quy mô lớn. Một điểm khác biệt quan trọng so với các hồ dữ liệu truyền thống là khả năng lưu trữ dữ liệu phi cấu trúc của Deep Lake với tất cả siêu dữ liệu ở định dạng cột gốc học sâu, cho phép truyền dữ liệu nhanh chóng. Điều này cho phép hiện thực hóa các tập hợp con dữ liệu một cách nhanh chóng, trực quan hóa chúng trong trình duyệt hoặc đưa chúng vào các khung học sâu mà không phải hy sinh việc sử dụng GPU. Cuối cùng, chúng tôi chứng minh rằng Deep Lake đạt được hiệu suất cao nhất cho việc học sâu trên các tập dữ liệu lớn thông qua nhiều điểm chuẩn.

10. LỜI CẢM ƠN

Các tác giả xin gửi lời cảm ơn tới Richard Socher, Travis Oliphant, Charu Rudrakshi, Artem Harutyunyan, Iason Ofeidis, Diego Kiedanski, Vishnu Nair, Fayaz Rahman, Dyllan McCreary, Benjamin Hindman, Eduard Grigoryan, Kristina Grigoryan, Ben Chislett, Joubin Houshyar, Andrii Liubimov , Assaf Pinhasi, Vishnu Nair, Eshan Arora, Shashank Agarwal, Pawel Janowski, Kristina Arezina, Gevorg Karapetyan, Vigen Sahakyan và cộng đồng nguồn mở bao gồm cả những người đóng góp. Dự án được tài trợ bởi Activeloop. Chúng tôi cũng cảm ơn những người đánh giá CIDR vì phản hồi của họ.

NGƯỜI GIỚI THIỆU

[1] 2006. Amazon S3. GitHub 2022, 1 (2006). https://aws.amazon. com/s3

[2] 2009. Clickhouse. GitHub 2022, 1 (2009). https://github.com/ ClickHouse/ClickHouse


[3] 2010. Lưu trữ đám mây của Google. GitHub 2022, 1 (2010). https://cloud.google.com/storage


[4] 2012. Google BigQuery. GitHub 2022, 1 (2012). https://đám mây. google.com/bigquery


[5] 2014. Bộ đệm giao thức - Định dạng trao đổi dữ liệu của Google. GitHub 2022, 1 (2014). https://github.com/protocolbuffers/ protobuf


[6] 2015. Quỹ phần mềm Apache: Apache ORC. GitHub 2022, 1 (2015). https://github.com/apache/orc


[7] 2016. Lông vũ. GitHub 2022, 1 (2016). https://github.com/wesm/feather


[8] 2016. Weaviate: Công cụ tìm kiếm vector đầu tiên ML. GitHub 2022, 1 (2016). https://github.com/semi-technologists/weaviate


[9] 2017. Luồng khí Apache. GitHub 2022, 1 (2017). http://airflow. vườn ươm.apache.org


[10] 2017. Quỹ phần mềm Apache: Apache Hudi. GitHub 2022, 1 (2017). https://hudi.apache.org


[11] 2017. CloudVolume: IO cho Bộ dữ liệu Neuroglancer. GitHub 2022, 1 (2017). https://github.com/seung-lab/cloud-volume


[12] 2018. Amazon Athena. GitHub 2022, 1 (2018). https://aws. amazon.com/athena


[13] 2018. Quỹ phần mềm Apache: Mũi tên Apache. GitHub 2022, 1 (2018). https://arrow.apache.org


[14] 2018. Quỹ phần mềm Apache: Apache Hadoop. GitHub 2022, 1 (2018). https://hadoop.apache.org


[15] 2018. Quỹ phần mềm Apache: Apache Iceberg. GitHub 2022, 1 (2018). https://iceberg.apache.org


[16] 2018. Lễ hội: kho tính năng nguồn mở dành cho máy học. GitHub 2022, 1 (2018). https://github.com/feast-dev/feast


[17] 2018. Máy chủ lưu trữ đối tượng hiệu suất cao MinIO tương thích với API Amazon S3. GitHub 2022, 1 (2018). https: //github.com/minio/minio


[18] 2018. Petastorm. GitHub 2022, 1 (2018). https://github.com/ uber/petastorm [19] 2018. Định dạng WebDataset. GitHub 2022, 1 (2018). https: //github.com/webdataset/webdataset


[20] 2019. Quỹ phần mềm Apache: Apache Avro. GitHub 2019, 1 (2019). https://avro.apache.org


[21] 2019. LakeFS: hồ dữ liệu với kho lưu trữ giống Git. GitHub 2022, 1 (2019). https://github.com/treeverse/lakeFS


[22] 2020. Airbyte. GitHub 2022, 1 (2020). https://github.com/airbytehq/airbyte


[23] 2020. TensorStore: Thư viện đọc và ghi mảng đa chiều lớn. GitHub 2022, 1 (2020). https://github. com/google/tenorstore


[24] 2021. N5: chỉ định các thao tác nguyên thủy cần thiết để lưu trữ các tensor n chiều lớn và siêu dữ liệu tùy ý trong hệ thống phân cấp của các nhóm tương tự như HDF5. GitHub 2021, 1 (2021). https://github.com/saalfeldlab/n5


[25] Martín Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard, và những người khác. 2016. Tensorflow: Một hệ thống học máy quy mô lớn. Trong Hội nghị chuyên đề {USENIX} lần thứ 12 về Thiết kế và Triển khai Hệ điều hành ({OSDI} 16). 265–283.


[26] Alex Aizman, Gavin Maltby và Thomas Breuel. 2019. I/O hiệu suất cao cho deep learning quy mô lớn. Năm 2019 Hội nghị quốc tế IEEE về Dữ liệu lớn (Dữ liệu lớn). IEEE, 5965–5967.


[27] Michael Armbrust, Tathagata Das, Liwen Sun, Burak Yavuz, Shixiong Zhu, Mukul Murthy, Joseph Torres, Herman van Hovell, Adrian Ionescu, Alicja Łuszczak, và những người khác. 2020. Hồ Delta: bộ lưu trữ bảng ACID hiệu suất cao trên các cửa hàng đối tượng trên đám mây. Kỷ yếu của VLDB Endowment 13, 12 (2020), 3411–3424. [28] Michael Armbrust, Ali Ghodsi, Reynold Xin và Matei Zaharia. 2021. Lakehouse: thế hệ nền tảng mở mới hợp nhất kho dữ liệu và phân tích nâng cao. Trong Kỷ yếu của CIDR.


[29] Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu và Michael Auli. 2022. Data2vec: Khuôn khổ chung cho việc học tự giám sát về lời nói, thị giác và ngôn ngữ. bản in trước arXiv arXiv:2202.03555 (2022).


[30] Dzmitry Bahdanau, Kyunghyun Cho và Yoshua Bengio. 2014. Dịch máy thần kinh bằng cách cùng nhau học cách căn chỉnh và dịch. bản in trước arXiv arXiv:1409.0473 (2014).


[31] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne và Qiao Zhang. 2018. JAX: các phép biến đổi có thể tổng hợp của chương trình Python+NumPy. http://github.com/google/jax


[32] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, và những người khác. 2020. Các mô hình ngôn ngữ là những người học ít lần. Những tiến bộ trong hệ thống xử lý thông tin thần kinh 33 (2020), 1877–1901.


[33] Benoit Dageville, Thierry Cruanes, Marcin Zukowski, Vadim Antonov, Artin Avanes, Jon Bock, Jonathan Claybaugh, Daniel Engovatov, Martin Hentschel, Jiansheng Huang, và những người khác. 2016. Kho dữ liệu đàn hồi bông tuyết. Trong Kỷ yếu của Hội nghị quốc tế về quản lý dữ liệu năm 2016. 215–226.


[34] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li và Li Fei-Fei. 2009. Imagenet: Cơ sở dữ liệu hình ảnh phân cấp quy mô lớn. Năm 2009, hội nghị IEEE về thị giác máy tính và nhận dạng mẫu. Này, 248–255.


[35] J. Đặng, W. Dong, R. Socher, L.-J. Li, K. Li và L. Fei-Fei. 2009. ImageNet: Cơ sở dữ liệu hình ảnh phân cấp quy mô lớn. Trong CVPR09.


[36] Jacob Devlin, Ming-Wei Chang, Kenton Lee và Kristina Toutanova. 2018. Bert: Đào tạo trước các máy biến áp hai chiều sâu để hiểu ngôn ngữ. bản in trước arXiv arXiv:1810.04805 (2018).


[37] Markus Dreseler, Jan Kossmann, Martin Boissier, Stefan Klauck, Matthias Uflacker và Hasso Plattner. 2019. Hyrise được thiết kế lại: Hệ thống cơ sở dữ liệu mở rộng để nghiên cứu về quản lý dữ liệu trong bộ nhớ quan hệ. Những tiến bộ trong công nghệ cơ sở dữ liệu - Hội nghị quốc tế lần thứ 22 về mở rộng công nghệ cơ sở dữ liệu, EDBT 2019, Lisbon, Bồ Đào Nha, ngày 26-29 tháng 3 năm 2019, Melanie Herschel, Helena Galhardas, Berthold Reinwald, Irini Fundulaki, Carsten Binnig và Zoi Kaoudi (Eds.) . OpenProceedings.org, 313–324. https://doi.org/10.5441/002/edbt. 28/2019


[38] Ian Goodfellow, Yoshua Bengio và Aaron Courville. 2016. Học sâu. Báo chí MIT.


[39] Andrew Ilyas Sam Park Hadi Salman Guillaume Leclerc, Logan Engstrom. 2021. Định dạng WebDataset. GitHub 2022, 1 (2021). https://github.com/libffcv/ffcv


[40] Anurag Gupta, Deepak Agarwal, Derek Tan, Jakub Kulesza, Rahul Pathak, Stefano Stefani và Vidhya Srinivasan. 2015. Dịch chuyển đỏ của Amazon và trường hợp kho dữ liệu đơn giản hơn. Trong Kỷ yếu của hội nghị quốc tế ACM SIGMOD 2015 về quản lý dữ liệu. 1917–1923.


[41] Dong He, Supun Nakandala, Dalitso Banda, Rathijit Sen, Karla Saur, Kwanghyun Park, Carlo Curino, Jesús CamachoRodríguez, Konstantinos Karanasos và Matteo Interlandi. 2022. Xử lý truy vấn trên thời gian chạy tính toán Tensor. bản in trước arXiv arXiv:2203.01877 (2022).


[42] Vũ Hoàng và Nhạc Thần. 2020. Khảo sát các công nghệ lái xe tự động tiên tiến với học sâu. Vào năm 2020, Hội nghị quốc tế lần thứ 20 của IEEE về Chất lượng, độ tin cậy và bảo mật phần mềm (QRS-C). IEEE, 221–228.


[43] Tero Karras, Samuli Laine và Timo Aila. 2019. Kiến trúc trình tạo dựa trên phong cách cho các mạng đối thủ tổng quát. Trong Kỷ yếu của hội nghị IEEE/CVF về thị giác máy tính và nhận dạng mẫu. 4401–4410.


[44] Alex Krizhevsky, Ilya Sutskever và Geoffrey E Hinton. 2012. Phân loại Imagenet với mạng lưới thần kinh tích chập sâu. Trong Những tiến bộ trong hệ thống xử lý thông tin thần kinh. 1097–1105. Hồ sâu: Ngôi nhà bên hồ cho việc học sâu


[45] Abhishek Vijaya Kumar và Muthian Sivathanu. 2020. Quiver: Bộ nhớ đệm lưu trữ đầy đủ thông tin dành cho học sâu. Trong Hội nghị USENIX lần thứ 18 về Công nghệ Tệp và Lưu trữ (FAST 20). 283–296.


[46] Ruslan Kuprieiev, skshetry, Dmitry Petrov, Paweł Redzyński, Peter Rowlands, Casper da Costa-Luis, Alexander Schepanovski, Ivan Shcheklein, Batuhan Taskaya, Gao, Jorge Orpinel, David de la Iglesia Castro, Fábio Santos, Aman Sharma, Dave Berenbaum, Zhanibek, Dani Hodovic, Nikita Kodenko, Andrew Grigorev, Earl, Daniele, Nabanita Dash, George Vyshnya, maykulkarni, Max Hora, Vera, Sanidhya Mangal và Wojciech Baranowski. 2022. DVC: Kiểm soát phiên bản dữ liệu - Git cho dữ liệu & mô hình. https://doi.org/10.5281/zenodo.7039863


[47] Yann LeCun, Yoshua Bengio và Geoffrey Hinton. 2015. Học sâu. tính chất 521, 7553 (2015), 436.


[48] Kisuk Lee, Jonathan Zung, Peter Li, Viren Jain và H Sebastian Seung. 2017. Độ chính xác siêu phàm trong thử thách kết nối SNEMI3D. bản in trước arXiv arXiv:1706.00120 (2017).


[49] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár và C Lawrence Zitnick. 2014. Microsoft coco: Các đối tượng phổ biến trong ngữ cảnh. Tại hội nghị châu Âu về thị giác máy tính. Springer, 740–755.


[50] Frank Sifei Luan, Stephanie Wang, Samyukta Yagati, Sean Kim, Kenneth Lien, SangBin Cho, Eric Liang và Ion Stoica. 2022. Exoshuffle: Xáo trộn quy mô lớn ở cấp độ ứng dụng. bản in trước arXiv arXiv:2203.05072 (2022).


[51] Tomas Mikolov, Kai Chen, Greg Corrado và Jeffrey Dean. 2013. Ước tính hiệu quả các biểu diễn từ trong không gian vectơ. bản in trước arXiv arXiv:1301.3781 (2013).


[52] Alistair Miles, John Kirkham, Martin Durant, James Bourbeau, Tarik Onalan, Joe Hamman, Zain Patel, shikharsg, Matthew Rocklin, raphael dussin, Vincent Schut, Elliott Sales de Andrade, Ryan Abernathey, Charles Noyes, sbalmer, pyup. io bot, Tommy Trần, Stephan Saalfeld, Justin Swaney, Josh Moore, Joe Jevnik, Jerome Kelleher, Jan Funke, George Sakkis, Chris Barnes và Anderson Banihirwe. 2020. zarr-developers/zarrpython: v2.4.0. https://doi.org/10.5281/zenodo.3773450


[53] Philipp Moritz, Robert Nishihara, Stephanie Wang, Alexey Tumanov, Richard Liaw, Eric Liang, Melih Elibol, Zongheng Yang, William Paul, Michael I Jordan, et al. 2018. Ray: Khung phân tán dành cho các ứng dụng {AI} mới nổi. Trong Hội nghị chuyên đề {USENIX} lần thứ 13 về thiết kế và triển khai hệ điều hành ({OSDI} 18). 561–577.


[54] Iason Ofeidis, Diego Kiedanski, và Leandros Tassiulas. 2022. Tổng quan về bối cảnh trình tải dữ liệu: Phân tích hiệu suất so sánh. bản in trước arXiv arXiv:2209.13705 (2022). [


55] Travis E Oliphant. 2006. Hướng dẫn về NumPy. Tập. 1. Nhà xuất bản Trelgol Hoa Kỳ.


[56] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior và Koray Kavukcuoglu. 2016. Wavenet: Một mô hình tổng quát cho âm thanh thô. bản in trước arXiv arXiv:1609.03499 (2016).


[57] Stavros Papadopoulos, Kushal Datta, Samuel Madden và Timothy Mattson. 2016. Trình quản lý lưu trữ dữ liệu mảng Tiledb. Kỷ yếu của VLDB Endowment 10, 4 (2016), 349–360.


[58] Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga và Adam Lerer. 2017. Tự động phân biệt trong pytorch. (2017).


[59] Masha Basmanova Kevin Wilfong Laith Sakka Krishna Pai Wei He Biswapesh Chattopadhyay Pedro Pedreira, Orri Erling. 2022. Velox: Công cụ thực thi hợp nhất của Meta. Kỷ yếu của Quỹ VLDB (2022).


[60] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, và những người khác. 2021. Học các mô hình trực quan có thể chuyển giao từ giám sát ngôn ngữ tự nhiên. Trong Hội nghị quốc tế về học máy. PMLR, 8748–8763.


[61] Pranav Rajpurkar, Jeremy Irvin, Kaylie Zhu, Brandon Yang, Hershel Mehta, Tony Duan, Daisy Ding, Aarti Bagul, Curtis Langlotz, Katie Shpanskaya, và những người khác. 2017. Chexnet: Phát hiện viêm phổi ở cấp độ bác sĩ X quang trên chụp X-quang ngực bằng phương pháp học sâu. bản in trước arXiv arXiv:1711.05225 (2017).


[62] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen và Ilya Sutskever. 2021. Tạo văn bản thành hình ảnh không cần chụp. Trong Hội nghị quốc tế về học máy. PMLR, 8821–8831.


[63] Joseph Redmon, Santosh Divvala, Ross Girshick, và Ali Farhadi. 2016. Bạn chỉ nhìn một lần: Phát hiện đối tượng thống nhất, theo thời gian thực. Trong Kỷ yếu của hội nghị IEEE về thị giác máy tính và nhận dạng mẫu. 779–788.


[64] Amit Sabne. 2020. Xla: Biên dịch machine learning để đạt hiệu suất cao nhất. (2020).


[65] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S Sara Mahdavi, Rapha Gontijo Lopes, và những người khác. 2022. Các mô hình khuếch tán văn bản thành hình ảnh mang tính chân thực với khả năng hiểu ngôn ngữ sâu sắc. bản in trước arXiv arXiv:2205.11487 (2022).


[66] Tom van Bussel Samwel, Herman van Hovell, Maryann Xue, Reynold Xin, và Matei Zaharia. 2022. Photon: Công cụ truy vấn nhanh cho hệ thống Lakehouse. (2022).


[67] Christoph Schuhmann, Romain Beaumont, Cade W Gordon, Ross Wightman, Theo Coombes, Aarush Katta, Clayton Mullis, Patrick Schramowski, Srivatsa R Kundurthy, Katherine Crowson, và những người khác. 2022. LAION-5B: Bộ dữ liệu mở quy mô lớn để đào tạo các mô hình văn bản hình ảnh thế hệ tiếp theo. (2022).


[68] Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev và Aran Komatsuzaki. 2021. Laion400m: Tập dữ liệu mở gồm 400 triệu cặp hình ảnh-văn bản được lọc theo clip. bản in trước arXiv arXiv:2111.02114 (2021).


[69] Philip Schwan và cộng sự. 2003. Lustre: Xây dựng hệ thống tệp cho cụm 1000 nút. Trong Kỷ yếu của hội nghị chuyên đề Linux năm 2003, Tập. 2003. 380–386.


[70] Raghav Sethi, Martin Traverso, Dain Sundstrom, David Phillips, Wenlei Xie, Yutian Sun, Nezih Yegitbasi, Haozhun Jin, Eric Hwang, Nileema Shingte, và những người khác. 2019. Presto: SQL trên mọi thứ. Năm 2019 Hội nghị quốc tế lần thứ 35 của IEEE về Kỹ thuật dữ liệu (ICDE). IEEE, 1802–1813.


[71] Konstantin Shvachko, Hairong Kuang, Sanjay Radia, Robert Chansler, và những người khác. 2010. Hệ thống tệp phân tán hadoop.. Trong MSST, Vol. 10. 1–10.


[72] David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, và những người khác. 2018. Một thuật toán học tăng cường chung giúp thành thạo cờ vua, shogi và Cờ vây thông qua việc tự chơi. Khoa học 362, 6419 (2018), 1140–1144.


[73] K Stumpf, S Bedratiuk, và O Cirit. 2018. Michelangelo PyML: giới thiệu nền tảng của Uber để phát triển nhanh chóng mô hình Python ML. Uber. Xem: https://eng. uber. com/michelangelo-pyml (2018).


[74] Pedro Javier Ortiz Suárez, Benoît Sagot và Laurent Romary. 2019. Quy trình không đồng bộ để xử lý khối lượng lớn trên cơ sở hạ tầng tài nguyên từ trung bình đến thấp. Trong Hội thảo lần thứ 7 về những thách thức trong quản lý tập đoàn lớn (CMLC-7). Leibniz-Institut für Deutsche Sprache.


[75] Nhóm phát triển Squirrel. 2022. Squirrel: Thư viện Python cho phép các nhóm ML chia sẻ, tải và chuyển đổi dữ liệu theo cách cộng tác, linh hoạt và hiệu quả. GitHub. Lưu ý: https://github.com/merantix-momentum/squirrel-core (2022). https://doi.org/10.5281/zenodo.6418280


[76] Ashish Suchoo, Joydeep Sen Sarma, Namit Jain, Zheng Shao, Prasad Chakka, Ning Zhang, Suresh Antony, Hao Liu và Raghotham Murthy. 2010. Kho dữ liệu Hive có quy mô petabyte sử dụng hadoop. Năm 2010, hội nghị quốc tế IEEE lần thứ 26 về kỹ thuật dữ liệu (ICDE 2010). IEEE, 996–1005.


[77] Kathryn Tunyasuvunakool, Jonas Adler, Zachary Wu, Tim Green, Michal Zielinski, Augustin Žídek, Alex Bridgland, Andrew Cowie, Clemens Meyer, Agata Laydon, và những người khác. 2021. Dự đoán cấu trúc protein có độ chính xác cao cho hệ protein của con người. Thiên nhiên 596, 7873 (2021), 590–596.


[78] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser và Illia Polosukhin. Năm 2017. Sự chú ý là tất cả những gì bạn cần. Những tiến bộ trong hệ thống xử lý thông tin thần kinh 30 (2017).


[79] Deepak Vohra. 2016. Sàn gỗ Apache. Trong Hệ sinh thái Hadoop thực tế. Springer, 325–335.


[80] Jianguo Wang, Xiaomeng Yi, Rentong Guo, Hai Jin, Peng Xu, Shengjun Li, Xiangyu Wang, Xiangzhou Guo, Chengming Li, Xiaohai Xu, et al. 2021. Milvus: Hệ thống quản lý dữ liệu vectơ được xây dựng có mục đích. Trong Kỷ yếu của Hội nghị quốc tế về quản lý dữ liệu năm 2021. 2614–2627.


[81] Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Russ R Salakhutdinov và Quốc V Lê. 2019. Xlnet: Huấn luyện trước tự hồi quy tổng quát để hiểu ngôn ngữ. Những tiến bộ trong hệ thống xử lý thông tin thần kinh 32 (2019).


[82] Matei Zaharia, Mosharaf Chowdhury, Michael J Franklin, Scott Shenker và Ion Stoica. 2010. Spark: Điện toán cụm với các bộ làm việc. HotCloud 10, 10-10 (2010), 95.


[83] Xiang Zhang, Junbo Zhao, và Yann LeCun. 2015. Mạng tích chập cấp ký tự để phân loại văn bản. Trong Những tiến bộ trong hệ thống xử lý thông tin thần kinh. 649–657.


Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.