paint-brush
Deep Lake, ein Lakehouse für Deep Learning: Schlussfolgerungen, Danksagungen und Referenzenvon@dataology
240 Lesungen

Deep Lake, ein Lakehouse für Deep Learning: Schlussfolgerungen, Danksagungen und Referenzen

Zu lang; Lesen

Forscher stellen Deep Lake vor, ein Open-Source-Lakehouse für Deep Learning, das die komplexe Datenspeicherung und das Streaming für Deep-Learning-Frameworks optimiert.
featured image - Deep Lake, ein Lakehouse für Deep Learning: Schlussfolgerungen, Danksagungen und Referenzen
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

Autoren:

(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, USA;

(2) Abhinav Tuli, Activeloop, Mountain View, CA, USA;

(3) Levon Ghukasyan, Activeloop, Mountain View, CA, USA;

(4) Fariz Rahman, Activeloop, Mountain View, CA, USA;.

(5) Hrant Topchyan, Activeloop, Mountain View, CA, USA;

(6) David Isayan, Activeloop, Mountain View, CA, USA;

(7) Mark McQuade, Activeloop, Mountain View, CA, USA;

(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, USA;

(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, USA;

(10) Ivo Stranic, Activeloop, Mountain View, CA, USA;

(11) Davit Buniatyan, Activeloop, Mountain View, CA, USA.

Linktabelle

9. SCHLUSSFOLGERUNG

Wir haben Deep Lake vorgestellt, das Lakehouse für Deep Learning. Deep Lake wurde entwickelt, um Deep-Learning-Workflows so reibungslos laufen zu lassen wie analytische Workflows auf Modern Data Stack. Insbesondere wurde Deep Lake so entwickelt, dass wichtige Funktionen von Data Lakes wie Zeitreisen, Abfragen und schnelle Datenaufnahme im großen Maßstab erhalten bleiben. Ein wichtiger Unterschied zu herkömmlichen Data Lakes ist die Fähigkeit von Deep Lake, unstrukturierte Daten mit all ihren Metadaten in einem Deep-Learning-nativen Spaltenformat zu speichern, was schnelles Datenstreaming ermöglicht. Dadurch können Datenteilmengen im Handumdrehen materialisiert, im Browser visualisiert oder in Deep-Learning-Frameworks aufgenommen werden, ohne dass die GPU-Auslastung darunter leidet. Schließlich zeigen wir anhand mehrerer Benchmarks, dass Deep Lake eine hochmoderne Leistung für Deep Learning bei großen Datensätzen erreicht.

10. BESTÄTIGUNG

Die Autoren möchten Richard Socher, Travis Oliphant, Charu Rudrakshi, Artem Harutyunyan, Iason Ofeidis, Diego Kiedanski, Vishnu Nair, Fayaz Rahman, Dyllan McCreary, Benjamin Hindman, Eduard Grigoryan, Kristina Grigoryan, Ben Chislett, Joubin Houshyar, Andrii Liubimov, Assaf Pinhasi, Vishnu Nair, Eshan Arora, Shashank Agarwal, Pawel Janowski, Kristina Arezina, Gevorg Karapetyan, Vigen Sahakyan und der Open-Source-Community einschließlich der Mitwirkenden danken. Das Projekt wurde von Activeloop finanziert. Wir danken auch den CIDR-Gutachtern für ihr Feedback.

VERWEISE

[1] 2006. Amazon S3. GitHub 2022, 1 (2006). https://aws.amazon. com/s3

[2] 2009. Clickhouse. GitHub 2022, 1 (2009). https://github.com/ ClickHouse/ClickHouse


[3] 2010. Google Cloud Storage. GitHub 2022, 1 (2010). https: //cloud.google.com/storage


[4] 2012. Google BigQuery. GitHub 2022, 1 (2012). https://cloud.google.com/bigquery


[5] 2014. Protocol Buffers - Googles Datenaustauschformat. GitHub 2022, 1 (2014). https://github.com/protocolbuffers/ protobuf


[6] 2015. Die Apache Software Foundation: Apache ORC. GitHub 2022, 1 (2015). https://github.com/apache/orc


[7] 2016. Feather. GitHub 2022, 1 (2016). https://github.com/ wesm/feather


[8] 2016. Weaviate: Die ML-first-Vektorsuchmaschine. GitHub 2022, 1 (2016). https://github.com/semi-technologies/weaviate


[9] 2017. Apache Airflow. GitHub 2022, 1 (2017). http://airflow. incubator.apache.org


[10] 2017. Die Apache Software Foundation: Apache Hudi. GitHub 2022, 1 (2017). https://hudi.apache.org


[11] 2017. CloudVolume: IO für Neuroglancer-Datensätze. GitHub 2022, 1 (2017). https://github.com/seung-lab/cloud-volume


[12] 2018. Amazon Athena. GitHub 2022, 1 (2018). https://aws.amazon.com/athena


[13] 2018. Die Apache Software Foundation: Apache Arrow. GitHub 2022, 1 (2018). https://arrow.apache.org


[14] 2018. Die Apache Software Foundation: Apache Hadoop. GitHub 2022, 1 (2018). https://hadoop.apache.org


[15] 2018. Die Apache Software Foundation: Apache Iceberg. GitHub 2022, 1 (2018). https://iceberg.apache.org


[16] 2018. Feast: Open-Source-Feature-Store für maschinelles Lernen. GitHub 2022, 1 (2018). https://github.com/feast-dev/feast


[17] 2018. MinIO Hochleistungs-Objektspeicherserver, kompatibel mit Amazon S3 API. GitHub 2022, 1 (2018). https: //github.com/minio/minio


[18] 2018. Petastorm. GitHub 2022, 1 (2018). https://github.com/ uber/petastorm [19] 2018. Das WebDataset-Format. GitHub 2022, 1 (2018). https: //github.com/webdataset/webdataset


[20] 2019. Die Apache Software Foundation: Apache Avro. GitHub 2019, 1 (2019). https://avro.apache.org


[21] 2019. LakeFS: Datensee mit Git-ähnlichem Repository. GitHub 2022, 1 (2019). https://github.com/treeverse/lakeFS


[22] 2020. Airbyte. GitHub 2022, 1 (2020). https://github.com/ airbytehq/airbyte


[23] 2020. TensorStore: Bibliothek zum Lesen und Schreiben großer mehrdimensionaler Arrays. GitHub 2022, 1 (2020). https://github. com/google/tensorstore


[24] 2021. N5: spezifiziert die primitiven Operationen, die zum Speichern großer n-dimensionaler Tensoren und beliebiger Metadaten in einer Gruppenhierarchie ähnlich HDF5 erforderlich sind. GitHub 2021, 1 (2021). https://github.com/saalfeldlab/n5


[25] Martín Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard, et al. 2016. Tensorflow: Ein System für maschinelles Lernen im großen Maßstab. Im 12. {USENIX} Symposium für Betriebssystemdesign und -implementierung ({OSDI} 16). 265–283.


[26] Alex Aizman, Gavin Maltby und Thomas Breuel. 2019. Hochleistungs-E/A für Deep Learning im großen Maßstab. In 2019 IEEE International Conference on Big Data (Big Data). IEEE, 5965– 5967.


[27] Michael Armbrust, Tathagata Das, Liwen Sun, Burak Yavuz, Shixiong Zhu, Mukul Murthy, Joseph Torres, Herman van Hovell, Adrian Ionescu, Alicja Łuszczak, et al. 2020. Delta Lake: Hochleistungs-ACID-Tabellenspeicher über Cloud-Objektspeicher. Proceedings of the VLDB Endowment 13, 12 (2020), 3411–3424. [28] Michael Armbrust, Ali Ghodsi, Reynold Xin und Matei Zaharia. 2021. Lakehouse: eine neue Generation offener Plattformen, die Data Warehousing und Advanced Analytics vereinen. In Proceedings of CIDR.


[29] Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu und Michael Auli. 2022. Data2vec: Ein allgemeiner Rahmen für selbstüberwachtes Lernen in Sprache, Sehen und Sprache. arXiv-Vorabdruck arXiv:2202.03555 (2022).


[30] Dzmitry Bahdanau, Kyunghyun Cho und Yoshua Bengio. 2014. Neuronale maschinelle Übersetzung durch gemeinsames Lernen von Ausrichten und Übersetzen. arXiv-Vorabdruck arXiv:1409.0473 (2014).


[31] James Bradbury, Roy Frostig, Peter Hawkins, Matthew James Johnson, Chris Leary, Dougal Maclaurin, George Necula, Adam Paszke, Jake VanderPlas, Skye Wanderman-Milne und Qiao Zhang. 2018. JAX: zusammensetzbare Transformationen von Python+NumPy-Programmen. http://github.com/google/jax


[32] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. 2020. Sprachmodelle sind Lerner mit wenigen Versuchen. Advances in neural information processing systems 33 (2020), 1877–1901.


[33] Benoit Dageville, Thierry Cruanes, Marcin Zukowski, Vadim Antonov, Artin Avanes, Jon Bock, Jonathan Claybaugh, Daniel Engovatov, Martin Hentschel, Jiansheng Huang, et al. 2016. Das elastische Snowflake-Data-Warehouse. In Proceedings der 2016 International Conference on Management of Data. 215– 226.


[34] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li und Li Fei-Fei. 2009. Imagenet: Eine hierarchische Bilddatenbank im großen Maßstab. IEEE-Konferenz 2009 zu Computer Vision und Mustererkennung. Ieee, 248–255.


[35] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li und L. Fei-Fei. 2009. ImageNet: Eine groß angelegte hierarchische Bilddatenbank. In CVPR09.


[36] Jacob Devlin, Ming-Wei Chang, Kenton Lee und Kristina Toutanova. 2018. Bert: Vortraining tiefer bidirektionaler Transformatoren zum Sprachverständnis. arXiv-Preprint arXiv:1810.04805 (2018).


[37] Markus Dreseler, Jan Kossmann, Martin Boissier, Stefan Klauck, Matthias Uflacker und Hasso Plattner. 2019. Hyrise Re-engineered: Ein erweiterbares Datenbanksystem für die Forschung im Bereich relationales In-Memory-Datenmanagement. In Advances in Database Technology – 22. Internationale Konferenz zur Erweiterung der Datenbanktechnologie, EDBT 2019, Lissabon, Portugal, 26.-29. März 2019, Melanie Herschel, Helena Galhardas, Berthold Reinwald, Irini Fundulaki, Carsten Binnig und Zoi Kaoudi (Hrsg.). OpenProceedings.org, 313–324. https://doi.org/10.5441/002/edbt. 2019.28


[38] Ian Goodfellow, Yoshua Bengio und Aaron Courville. 2016. Deep Learning. MIT Press.


[39] Andrew Ilyas Sam Park Hadi Salman Guillaume Leclerc, Logan Engstrom. 2021. Das WebDataset-Format. GitHub 2022, 1 (2021). https://github.com/libffcv/ffcv


[40] Anurag Gupta, Deepak Agarwal, Derek Tan, Jakub Kulesza, Rahul Pathak, Stefano Stefani und Vidhya Srinivasan. 2015. Amazon Redshift und der Fall für einfachere Data Warehouses. In Proceedings der 2015 ACM SIGMOD internationalen Konferenz zum Thema Datenmanagement. 1917–1923.


[41] Dong He, Supun Nakandala, Dalitso Banda, Rathijit Sen, Karla Saur, Kwanghyun Park, Carlo Curino, Jesús CamachoRodríguez, Konstantinos Karanasos und Matteo Interlandi. 2022. Abfrageverarbeitung auf Tensor-Berechnungslaufzeiten. arXiv-Vorabdruck arXiv:2203.01877 (2022).


[42] Yu Huang und Yue Chen. 2020. Überblick über den neuesten Stand der autonomen Fahrtechnologien mit Deep Learning. In 2020 IEEE 20. Internationale Konferenz zu Softwarequalität, Zuverlässigkeit und Sicherheit (QRS-C). IEEE, 221–228.


[43] Tero Karras, Samuli Laine und Timo Aila. 2019. Eine stilbasierte Generatorarchitektur für generative kontradiktorische Netzwerke. In Proceedings der IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung. 4401–4410.


[44] Alex Krizhevsky, Ilya Sutskever und Geoffrey E Hinton. 2012. Imagenet-Klassifizierung mit tiefen Convolutional Neural Networks. In Fortschritte bei neuronalen Informationsverarbeitungssystemen. 1097–1105. Deep Lake: ein Lakehouse für Deep Learning


[45] Abhishek Vijaya Kumar und Muthian Sivathanu. 2020. Quiver: Ein informierter Speichercache für Deep Learning. In 18. USENIX-Konferenz zu Datei- und Speichertechnologien (FAST 20). 283–296.


[46] Ruslan Kuprieiev, skshetry, Dmitry Petrov, Paweł Redzyński, Peter Rowlands, Casper da Costa-Luis, Alexander Schepanovski, Ivan Shcheklein, Batuhan Taskaya, Gao, Jorge Orpinel, David de la Iglesia Castro, Fábio Santos, Aman Sharma, Dave Berenbaum, Zhanibek, Dani Hodovic, Nikita Kodenko, Andrew Grigorev, Earl, daniele, Nabanita Dash, George Vyshnya, maykulkarni, Max Hora, Vera, Sanidhya Mangal und Wojciech Baranowski. 2022. DVC: Datenversionskontrolle – Git für Daten und Modelle. https://doi.org/10.5281/zenodo.7039863


[47] Yann LeCun, Yoshua Bengio und Geoffrey Hinton. 2015. Deep learning. nature 521, 7553 (2015), 436.


[48] Kisuk Lee, Jonathan Zung, Peter Li, Viren Jain und H Sebastian Seung. 2017. Übermenschliche Genauigkeit bei der SNEMI3D-Konnektomik-Challenge. arXiv-Preprint arXiv:1706.00120 (2017).


[49] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár und C Lawrence Zitnick. 2014. Microsoft coco: Gemeinsame Objekte im Kontext. In der Europäischen Konferenz zum Thema Computer Vision. Springer, 740–755.


[50] Frank Sifei Luan, Stephanie Wang, Samyukta Yagati, Sean Kim, Kenneth Lien, SangBin Cho, Eric Liang und Ion Stoica. 2022. Exoshuffle: Groß angelegtes Shuffle auf Anwendungsebene. arXiv-Preprint arXiv:2203.05072 (2022).


[51] Tomas Mikolov, Kai Chen, Greg Corrado und Jeffrey Dean. 2013. Effiziente Schätzung von Wortdarstellungen im Vektorraum. arXiv-Preprint arXiv:1301.3781 (2013).


[52] Alistair Miles, John Kirkham, Martin Durant, James Bourbeau, Tarik Onalan, Joe Hamman, Zain Patel, shikharsg, Matthew Rocklin, raphael dussin, Vincent Schut, Elliott Sales de Andrade, Ryan Abernathey, Charles Noyes, sbalmer, pyup.io bot, Tommy Tran, Stephan Saalfeld, Justin Swaney, Josh Moore, Joe Jevnik, Jerome Kelleher, Jan Funke, George Sakkis, Chris Barnes und Anderson Banihirwe. 2020. zarr-developers/zarrpython: v2.4.0. https://doi.org/10.5281/zenodo.3773450


[53] Philipp Moritz, Robert Nishihara, Stephanie Wang, Alexey Tumanov, Richard Liaw, Eric Liang, Melih Elibol, Zongheng Yang, William Paul, Michael I Jordan, et al. 2018. Ray: Ein verteiltes Framework für neue {KI}-Anwendungen. Im 13. {USENIX}-Symposium für Betriebssystemdesign und -implementierung ({OSDI} 18). 561–577.


[54] Iason Ofeidis, Diego Kiedanski und Leandros Tassiulas. 2022. Ein Überblick über die Data-Loader-Landschaft: Vergleichende Leistungsanalyse. arXiv-Preprint arXiv:2209.13705 (2022). [


55] Travis E Oliphant. 2006. Ein Leitfaden zu NumPy. Band 1. Trelgol Publishing USA.


[56] Aaron van den Oord, Sander Dieleman, Heiga Zen, Karen Simonyan, Oriol Vinyals, Alex Graves, Nal Kalchbrenner, Andrew Senior und Koray Kavukcuoglu. 2016. Wavenet: Ein generatives Modell für Rohaudio. arXiv-Vorabdruck arXiv:1609.03499 (2016).


[57] Stavros Papadopoulos, Kushal Datta, Samuel Madden und Timothy Mattson. 2016. Der TileDB-Array-Datenspeichermanager. Proceedings of the VLDB Endowment 10, 4 (2016), 349–360.


[58] Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga und Adam Lerer. 2017. Automatische Differenzierung in Pytorch. (2017).


[59] Masha Basmanova Kevin Wilfong Laith Sakka Krishna Pai Wei He Biswapesh Chattopadhyay Pedro Pedreira, Orri Erling. 2022. Velox: Meta's Unified Execution Engine. Proceedings of the VLDB Endowment (2022).


[60] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. 2021. Übertragbare visuelle Modelle durch natürliche Sprachüberwachung lernen. In International Conference on Machine Learning. PMLR, 8748–8763.


[61] Pranav Rajpurkar, Jeremy Irvin, Kaylie Zhu, Brandon Yang, Hershel Mehta, Tony Duan, Daisy Ding, Aarti Bagul, Curtis Langlotz, Katie Shpanskaya, et al. 2017. Chexnet: Lungenentzündungserkennung auf Radiologenniveau auf Brust-Röntgenaufnahmen mit Deep Learning. arXiv-Vorabdruck arXiv:1711.05225 (2017).


[62] Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen und Ilya Sutskever. 2021. Zero-Shot-Text-zu-Bild-Generierung. In der International Conference on Machine Learning. PMLR, 8821–8831.


[63] Joseph Redmon, Santosh Divvala, Ross Girshick und Ali Farhadi. 2016. Man schaut nur einmal hin: Einheitliche Objekterkennung in Echtzeit. In Proceedings der IEEE-Konferenz zu Computer Vision und Mustererkennung. 779–788.


[64] Amit Sabne. 2020. Xla: Kompilieren von maschinellem Lernen für Spitzenleistung. (2020).


[65] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Burcu Karagol Ayan, S Sara Mahdavi, Rapha Gontijo Lopes, et al. 2022. Fotorealistische Text-zu-Bild-Diffusionsmodelle mit tiefem Sprachverständnis. arXiv-Vorabdruck arXiv:2205.11487 (2022).


[66] Tom van Bussel Samwel, Herman van Hovell, Maryann Xue, Reynold Xin und Matei Zaharia. 2022. Photon: Eine schnelle Abfrage-Engine für Lakehouse-Systeme. (2022).


[67] Christoph Schuhmann, Romain Beaumont, Cade W Gordon, Ross Wightman, Theo Coombes, Aarush Katta, Clayton Mullis, Patrick Schramowski, Srivatsa R Kundurthy, Katherine Crowson, et al. 2022. LAION-5B: Ein offener großer Datensatz für das Training von Bild-Text-Modellen der nächsten Generation. (2022).


[68] Christoph Schuhmann, Richard Vencu, Romain Beaumont, Robert Kaczmarczyk, Clayton Mullis, Aarush Katta, Theo Coombes, Jenia Jitsev und Aran Komatsuzaki. 2021. Laion400m: Offener Datensatz mit clip-gefilterten 400 Millionen Bild-Text-Paaren. arXiv-Preprint arXiv:2111.02114 (2021).


[69] Philip Schwan et al. 2003. Lustre: Aufbau eines Dateisystems für 1000-Knoten-Cluster. In Proceedings des Linux-Symposiums 2003, Vol. 2003. 380–386.


[70] Raghav Sethi, Martin Traverso, Dain Sundstrom, David Phillips, Wenlei Xie, Yutian Sun, Nezih Yegitbasi, Haozhun Jin, Eric Hwang, Nileema Shingte, et al. 2019. Presto: SQL für alles. In 2019 IEEE 35. Internationale Konferenz für Data Engineering (ICDE). IEEE, 1802–1813.


[71] Konstantin Shvachko, Hairong Kuang, Sanjay Radia, Robert Chansler, et al. 2010. Das verteilte Dateisystem hadoop.. In MSST, Vol. 10. 1–10.


[72] David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, et al. 2018. Ein allgemeiner Verstärkungslernalgorithmus, der Schach, Shogi und Go durch Selbstspiel meistert. Science 362, 6419 (2018), 1140–1144.


[73] K Stumpf, S Bedratiuk und O Cirit. 2018. Michelangelo PyML: Einführung in Ubers Plattform für die schnelle Entwicklung von Python-ML-Modellen. Uber. Siehe: https://eng. uber. com/michelangelo-pyml (2018).


[74] Pedro Javier Ortiz Suárez, Benoît Sagot und Laurent Romary. 2019. Asynchrone Pipeline zur Verarbeitung großer Korpora auf Infrastrukturen mit mittleren bis geringen Ressourcen. Im 7. Workshop zu den Herausforderungen im Management großer Korpora (CMLC-7). Leibniz-Institut für Deutsche Sprache.


[75] Squirrel Developer Team. 2022. Squirrel: Eine Python-Bibliothek, die es ML-Teams ermöglicht, Daten auf kollaborative, flexible und effiziente Weise zu teilen, zu laden und zu transformieren. GitHub. Hinweis: https://github.com/merantix-momentum/squirrel-core (2022). https://doi.org/10.5281/zenodo.6418280


[76] Ashish Thusoo, Joydeep Sen Sarma, Namit Jain, Zheng Shao, Prasad Chakka, Ning Zhang, Suresh Antony, Hao Liu und Raghotham Murthy. 2010. Hive – ein Petabyte-Data Warehouse mit Hadoop. 2010 IEEE 26. internationale Konferenz für Datentechnik (ICDE 2010). IEEE, 996–1005.


[77] Kathryn Tunyasuvunakool, Jonas Adler, Zachary Wu, Tim Green, Michal Zielinski, Augustin Žídek, Alex Bridgland, Andrew Cowie, Clemens Meyer, Agata Laydon, et al. 2021. Hochpräzise Proteinstrukturvorhersage für das menschliche Proteom. Nature 596, 7873 (2021), 590–596.


[78] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser und Illia Polosukhin. 2017. Aufmerksamkeit ist alles, was Sie brauchen. Fortschritte in neuronalen Informationsverarbeitungssystemen 30 (2017).


[79] Deepak Vohra. 2016. Apache-Parkett. In Practical Hadoop Ecosystem. Springer, 325–335.


[80] Jianguo Wang, Xiaomeng Yi, Rentong Guo, Hai Jin, Peng Xu, Shengjun Li, Xiangyu Wang, Xiangzhou Guo, Chengming Li, Xiaohai Xu, et al. 2021. Milvus: Ein speziell entwickeltes Vektordatenverwaltungssystem. In Proceedings der Internationalen Konferenz zum Datenmanagement 2021. 2614–2627.


[81] Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Russ R Salakhutdinov und Quoc V Le. 2019. Xlnet: Generalisiertes autoregressives Vortraining zum Sprachverständnis. Fortschritte in neuronalen Informationsverarbeitungssystemen 32 (2019).


[82] Matei Zaharia, Mosharaf Chowdhury, Michael J Franklin, Scott Shenker und Ion Stoica. 2010. Spark: Cluster-Computing mit Arbeitssätzen. HotCloud 10, 10-10 (2010), 95.


[83] Xiang Zhang, Junbo Zhao und Yann LeCun. 2015. Faltungsnetzwerke auf Charakterebene zur Textklassifizierung. In Fortschritte bei neuronalen Informationsverarbeitungssystemen. 649–657.