paint-brush
डीप लेक, डीप लर्निंग के लिए एक लेकहाउस: निष्कर्ष, स्वीकृति और संदर्भद्वारा@dataology
238 रीडिंग

डीप लेक, डीप लर्निंग के लिए एक लेकहाउस: निष्कर्ष, स्वीकृति और संदर्भ

द्वारा Dataology: Study of Data in Computer Science11m2024/06/05
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने डीप लेक (Deep Lake) नामक डीप लर्निंग के लिए एक ओपन-सोर्स लेकहाउस प्रस्तुत किया है, जो डीप लर्निंग फ्रेमवर्क के लिए जटिल डेटा स्टोरेज और स्ट्रीमिंग को अनुकूलित करता है।
featured image - डीप लेक, डीप लर्निंग के लिए एक लेकहाउस: निष्कर्ष, स्वीकृति और संदर्भ
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

लेखक:

(1) सासुन हंबार्डज़ुम्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(2) अभिनव तुली, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(3) लेवोन घुकास्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(4) फ़रीज़ रहमान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;.

(5) ह्रांट टॉपच्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(6) डेविड इसयान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(7) मार्क मैकक्वाडे, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(8) मिकायेल हरुट्युनयन, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(9) टेटेविक हाकोब्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(10) इवो स्ट्रानिक, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(11) डेविट बुनियात्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए।

लिंक की तालिका

9. निष्कर्ष

हमने डीप लेक, डीप लर्निंग के लिए लेकहाउस प्रस्तुत किया। डीप लेक को डीप लर्निंग वर्कफ़्लो को आधुनिक डेटा स्टैक पर चलने वाले विश्लेषणात्मक वर्कफ़्लो की तरह सहजता से चलाने में मदद करने के लिए डिज़ाइन किया गया है। विशेष रूप से, डीप लेक को डेटा लेक की प्रमुख विशेषताओं को बनाए रखने के लिए बनाया गया है, जैसे कि समय यात्रा, क्वेरी करना और बड़े पैमाने पर तेज़ी से डेटा अंतर्ग्रहण। पारंपरिक डेटा लेक से एक महत्वपूर्ण अंतर डीप लेक की अपने सभी मेटाडेटा के साथ असंरचित डेटा को डीप लर्निंग-नेटिव कॉलमर फ़ॉर्मेट में संग्रहीत करने की क्षमता है, जो तेज़ी से डेटा स्ट्रीमिंग को सक्षम बनाता है। यह डेटा सबसेट को तुरंत मटेरियलाइज़ करने, उन्हें ब्राउज़र में विज़ुअलाइज़ करने या GPU उपयोग का त्याग किए बिना डीप लर्निंग फ़्रेमवर्क में उन्हें अंतर्ग्रहण करने की अनुमति देता है। अंत में, हम दिखाते हैं कि डीप लेक कई बेंचमार्क के माध्यम से बड़े डेटासेट पर डीप लर्निंग के लिए अत्याधुनिक प्रदर्शन प्राप्त करता है।

10. आभार

लेखक रिचर्ड सोचर, ट्रैविस ओलिफ़ैंट, चारु रुद्राक्षी, आर्टेम हरुट्युनियन, इयान ओफ़ेदिस, डिएगो किडांस्की, विष्णु नायर, फ़याज़ रहमान, डायलन मैकक्रीरी, बेंजामिन हिंडमैन, एडुआर्ड ग्रिगोरियन, क्रिस्टीना ग्रिगोरियन, बेन चिस्लेट, जौबिन हौशियार, एंड्री लियुबिमोव, असफ़ पिन्हासी, विष्णु नायर, ईशान अरोड़ा, शशांक अग्रवाल, पावेल जानोवस्की, क्रिस्टीना एरेज़िना, गेवॉर्ग करापेटियन, विगेन सहक्यान और योगदानकर्ताओं सहित ओपन-सोर्स समुदाय को धन्यवाद देना चाहते हैं। इस परियोजना को एक्टिवलूप द्वारा वित्तपोषित किया गया था। हम CIDR समीक्षकों को उनकी प्रतिक्रिया के लिए भी धन्यवाद देते हैं।

प्रतिक्रिया दें संदर्भ

[1] 2006. अमेज़न एस3. गिटहब 2022, 1 (2006)। https://aws.amazon. com/s3

[2] 2009. क्लिकहाउस. GitHub 2022, 1 (2009). https://github.com/ ClickHouse/ClickHouse


[3] 2010. गूगल क्लाउड स्टोरेज। GitHub 2022, 1 (2010)। https: //cloud.google.com/storage


[4] 2012. गूगल बिगक्वेरी. गिटहब 2022, 1 (2012). https://cloud.google.com/bigquery


[5] 2014. प्रोटोकॉल बफ़र्स - Google का डेटा इंटरचेंज फ़ॉर्मेट। GitHub 2022, 1 (2014)। https://github.com/protocolbuffers/ protobuf


[6] 2015. अपाचे सॉफ्टवेयर फाउंडेशन: अपाचे ओआरसी। GitHub 2022, 1 (2015)। https://github.com/apache/orc


[7] 2016. फेदर. गिटहब 2022, 1 (2016). https://github.com/ wesm/feather


[8] 2016. वीविएट: एमएल-पहला वेक्टर सर्च इंजन। GitHub 2022, 1 (2016)। https://github.com/semi-technologies/weaviate


[9] 2017. अपाचे एयरफ़्लो. GitHub 2022, 1 (2017). http://airflow.incubator.apache.org


[10] 2017. अपाचे सॉफ्टवेयर फाउंडेशन: अपाचे हुडी। GitHub 2022, 1 (2017)। https://hudi.apache.org


[11] 2017. क्लाउडवॉल्यूम: न्यूरोग्लान्सर डेटासेट के लिए आईओ। GitHub 2022, 1 (2017)। https://github.com/seung-lab/cloud-volume


[12] 2018. अमेज़न एथेना. GitHub 2022, 1 (2018). https://aws. amazon.com/athena


[13] 2018. अपाचे सॉफ्टवेयर फाउंडेशन: अपाचे एरो। GitHub 2022, 1 (2018)। https://arrow.apache.org


[14] 2018. अपाचे सॉफ्टवेयर फाउंडेशन: अपाचे हाडोप। GitHub 2022, 1 (2018)। https://hadoop.apache.org


[15] 2018. अपाचे सॉफ्टवेयर फाउंडेशन: अपाचे आइसबर्ग। GitHub 2022, 1 (2018)। https://iceberg.apache.org


[16] 2018. दावत: मशीन लर्निंग के लिए ओपन सोर्स फीचर स्टोर। GitHub 2022, 1 (2018)। https://github.com/feast-dev/feast


[17] 2018. मिनियो हाई परफॉरमेंस ऑब्जेक्ट स्टोरेज सर्वर जो अमेज़न S3 API के साथ संगत है। GitHub 2022, 1 (2018)। https: //github.com/minio/minio


[18] 2018. पेटास्टॉर्म। GitHub 2022, 1 (2018)। https://github.com/uber/petastorm [19] 2018. वेबडेटासेट प्रारूप। GitHub 2022, 1 (2018)। https: //github.com/webdataset/webdataset


[20] 2019. अपाचे सॉफ्टवेयर फाउंडेशन: अपाचे एवरो। GitHub 2019, 1 (2019)। https://avro.apache.org


[21] 2019. लेकएफएस: गिट-जैसी रिपॉजिटरी वाला डेटा लेक। GitHub 2022, 1 (2019)। https://github.com/treeverse/lakeFS


[22] 2020. एयरबाइट. GitHub 2022, 1 (2020). https://github.com/airbytehq/airbyte


[23] 2020. टेंसरस्टोर: बड़ी बहुआयामी सरणियों को पढ़ने और लिखने के लिए लाइब्रेरी। GitHub 2022, 1 (2020)। https://github.com/google/tensorstore


[24] 2021. N5: बड़े खंडित n-आयामी टेंसर और HDF5 के समान समूहों के पदानुक्रम में मनमाने मेटा-डेटा को संग्रहीत करने के लिए आवश्यक आदिम संचालन को निर्दिष्ट करता है। GitHub 2021, 1 (2021)। https://github.com/saalfeldlab/n5


[25] मार्टिन अबादी, पॉल बरहम, जियानमिन चेन, झिफेंग चेन, एंडी डेविस, जेफरी डीन, मैथ्यू डेविन, संजय गेमावत, जेफ्री इरविंग, माइकल इसार्ड, आदि। 2016. टेन्सरफ्लो: बड़े पैमाने पर मशीन लर्निंग के लिए एक सिस्टम। ऑपरेटिंग सिस्टम डिजाइन और कार्यान्वयन पर 12वीं {USENIX} संगोष्ठी में ({OSDI} 16)। 265–283।


[26] एलेक्स आइज़मैन, गैविन माल्टबी और थॉमस ब्रूएल। 2019. बड़े पैमाने पर गहन शिक्षण के लिए उच्च प्रदर्शन I/O। 2019 IEEE इंटरनेशनल कॉन्फ्रेंस ऑन बिग डेटा (बिग डेटा) में। IEEE, 5965- 5967।


[27] माइकल आर्मब्रस्ट, तथागत दास, लिवेन सन, बुराक यावुज़, शिक्सियोंग झू, मुकुल मूर्ति, जोसेफ टोरेस, हरमन वैन होवेल, एड्रियन इओनेस्कु, एलिजा लुस्ज़ाक, एट अल. 2020. डेल्टा लेक: क्लाउड ऑब्जेक्ट स्टोर पर उच्च-प्रदर्शन एसीआईडी टेबल स्टोरेज। वीएलडीबी एंडोमेंट 13, 12 (2020), 3411-3424 की कार्यवाही। [28] माइकल आर्मब्रस्ट, अली घोडसी, रेनॉल्ड शिन और माटेई ज़हरिया। 2021. लेकहाउस: ओपन प्लेटफ़ॉर्म की एक नई पीढ़ी जो डेटा वेयरहाउसिंग और उन्नत एनालिटिक्स को एकीकृत करती है। CIDR की कार्यवाही में।


[29] एलेक्सी बेवस्की, वेई-निंग ह्सू, कियानटोंग जू, अरुण बाबू, जियाताओ गु, और माइकल औली। 2022. डेटा2वेक: भाषण, दृष्टि और भाषा में स्व-पर्यवेक्षित सीखने के लिए एक सामान्य ढांचा। arXiv प्रीप्रिंट arXiv:2202.03555 (2022)।


[30] द्ज़मित्री बहदानौ, क्यूंगह्युन चो, और योशुआ बेंगियो। 2014. संयुक्त रूप से संरेखित करना और अनुवाद करना सीखकर न्यूरल मशीन अनुवाद। arXiv प्रीप्रिंट arXiv:1409.0473 (2014)।


[31] जेम्स ब्रैडबरी, रॉय फ्रॉस्टिग, पीटर हॉकिन्स, मैथ्यू जेम्स जॉनसन, क्रिस लेरी, डगल मैकलॉरिन, जॉर्ज नेकुला, एडम पास्ज़के, जेक वेंडरप्लास, स्काई वंडरमैन-मिल्ने और क़ियाओ झांग। 2018. JAX: पायथन+न्यूमपी प्रोग्राम के कंपोजेबल ट्रांसफ़ॉर्मेशन। http://github.com/google/jax


[32] टॉम ब्राउन, बेंजामिन मान, निक राइडर, मेलानी सुब्बियाह, जेरेड डी कपलान, प्रफुल्ल धारीवाल, अरविंद नीलकांतन, प्रणव श्याम, गिरीश शास्त्री, अमांडा असकेल, आदि। 2020. भाषा मॉडल कुछ ही सीखने वाले होते हैं। तंत्रिका सूचना प्रसंस्करण प्रणालियों में प्रगति 33 (2020), 1877-1901।


[33] बेनोइट डेजविले, थिएरी क्रूनेस, मार्सिन ज़ुकोव्स्की, वादिम एंटोनोव, आर्टिन एवनेस, जॉन बॉक, जोनाथन क्लेबॉग, डैनियल एंगोवाटोव, मार्टिन हेंटशेल, जियानशेंग हुआंग, एट अल। 2016. स्नोफ्लेक इलास्टिक डेटा वेयरहाउस। डेटा के प्रबंधन पर 2016 अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में। 215-226।


[34] जिया डेंग, वेई डोंग, रिचर्ड सोचर, ली-जिया ली, काई ली, और ली फी-फी। 2009. इमेजनेट: एक बड़े पैमाने पर पदानुक्रमित छवि डेटाबेस। 2009 में कंप्यूटर विज़न और पैटर्न पहचान पर IEEE सम्मेलन में। आईईईई, 248–255.


[35] जे. डेंग, डब्ल्यू. डोंग, आर. सोचर, एल.-जे. ली, के. ली, और एल. फी-फी. 2009. इमेजनेट: एक बड़े पैमाने पर पदानुक्रमित छवि डेटाबेस. CVPR09 में.


[36] जैकब डेवलिन, मिंग-वेई चांग, केंटन ली, और क्रिस्टीना टाउटानोवा। 2018. बर्ट: भाषा समझ के लिए गहरे द्विदिशात्मक ट्रांसफार्मर का पूर्व-प्रशिक्षण। arXiv प्रीप्रिंट arXiv:1810.04805 (2018)।


[37] मार्कस ड्रेसेलर, जान कोसमैन, मार्टिन बोइसियर, स्टीफन क्लाउक, मैथियास उफ़्लेकर और हासो प्लैटनर। 2019. हाइराइज़ री-इंजीनियर्ड: रिलेशनल इन-मेमोरी डेटा मैनेजमेंट में शोध के लिए एक एक्स्टेंसिबल डेटाबेस सिस्टम। डेटाबेस टेक्नोलॉजी में एडवांस में - डेटाबेस टेक्नोलॉजी को विस्तारित करने पर 22वां अंतर्राष्ट्रीय सम्मेलन, EDBT 2019, लिस्बन, पुर्तगाल, 26-29 मार्च, 2019, मेलानी हर्शेल, हेलेना गैल्हार्डस, बर्थोल्ड रेनवाल्ड, इरिनी फ़ंडुलकी, कार्स्टन बिन्निग और ज़ोई कौडी (संपादक)। OpenProceedings.org, 313–324. https://doi.org/10.5441/002/edbt. 2019.28


[38] इयान गुडफेलो, योशुआ बेंगियो और आरोन कोर्टविले। 2016. डीप लर्निंग। एमआईटी प्रेस।


[39] एंड्रयू इलियास सैम पार्क हादी सलमान गिलियूम लेक्लेर, लोगान एंगस्ट्रॉम। 2021. वेबडेटासेट प्रारूप। GitHub 2022, 1 (2021)। https://github.com/libffcv/ffcv


[40] अनुराग गुप्ता, दीपक अग्रवाल, डेरेक टैन, जैकब कुलेस्ज़ा, राहुल पाठक, स्टेफ़ानो स्टेफ़नी और विद्या श्रीनिवासन। 2015. अमेज़न रेडशिफ्ट और सरल डेटा वेयरहाउस का मामला। डेटा के प्रबंधन पर 2015 ACM SIGMOD अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में। 1917-1923।


[41] डोंग हे, सुपुन नाकंडाला, दलित्सो बांडा, रथीजीत सेन, कार्ला सौर, क्वांगह्युन पार्क, कार्लो क्यूरीनो, जेसुस कैमाचोरोड्रिग्ज, कोंस्टेंटिनोस करनासोस और माटेओ इंटरलैंडी। 2022. टेंसर कंप्यूटेशन रनटाइम पर क्वेरी प्रोसेसिंग। arXiv प्रीप्रिंट arXiv:2203.01877 (2022)।


[42] यू हुआंग और यू चेन। 2020. डीप लर्निंग के साथ अत्याधुनिक स्वायत्त ड्राइविंग तकनीकों का सर्वेक्षण। 2020 में IEEE 20वें अंतर्राष्ट्रीय सम्मेलन में सॉफ़्टवेयर गुणवत्ता, विश्वसनीयता और सुरक्षा साथी (QRS-C)। IEEE, 221–228।


[43] टेरो कर्रास, सैमुली लेन और टिमो आइला। 2019. जनरेटिव एडवर्सरियल नेटवर्क के लिए स्टाइल-आधारित जनरेटर आर्किटेक्चर। कंप्यूटर विज़न और पैटर्न रिकग्निशन पर IEEE/CVF कॉन्फ्रेंस की कार्यवाही में। 4401–4410.


[44] एलेक्स क्रिज़ेव्स्की, इल्या सुत्स्केवर और जेफ्री ई हिंटन। 2012. डीप कन्वोल्यूशनल न्यूरल नेटवर्क के साथ इमेजनेट वर्गीकरण। न्यूरल सूचना प्रसंस्करण प्रणालियों में प्रगति में। 1097–1105. डीप लेक: डीप लर्निंग के लिए एक लेकहाउस


[45] अभिषेक विजय कुमार और मुथियन शिवथानु। 2020. क्विवर: डीप लर्निंग के लिए एक सूचित स्टोरेज कैश। फ़ाइल और स्टोरेज टेक्नोलॉजीज पर 18वें USENIX सम्मेलन (FAST 20) में। 283–296।


[46] रुस्लान कुप्रिएव, स्केशट्री, दिमित्री पेत्रोव, पावेल रेडज़िन्स्की, पीटर रोलैंड्स, कैस्पर दा कोस्टा-लुइस, अलेक्जेंडर स्केपनोव्स्की, इवान शेक्लेन, बटुहान तास्काया, गाओ, जॉर्ज ऑर्पिनेल, डेविड डे ला इग्लेसिया कास्त्रो, फैबियो सैंटोस, अमन शर्मा, डेव बेरेनबाम, ज़ानिबेक, दानी होडोविक, निकिता कोडेंको, एंड्रयू ग्रिगोरव, अर्ल, डैनियल, नबनिता डैश, जॉर्ज वैश्न्या, मेकुलकर्णी, मैक्स होरा, वेरा, सानिध्य मंगल और वोज्शिएक बारानोव्स्की। 2022. डीवीसी: डेटा संस्करण नियंत्रण - डेटा और मॉडल के लिए गिट। https://doi.org/10.5281/zenodo.7039863


[47] यान लेकन, योशुआ बेंगियो और जेफ्री हिंटन। 2015. डीप लर्निंग। प्रकृति 521, 7553 (2015), 436।


[48] किसुक ली, जोनाथन ज़ुंग, पीटर ली, वीरेन जैन, और एच सेबेस्टियन सेउंग। 2017. SNEMI3D कनेक्टोमिक्स चुनौती पर अलौकिक सटीकता। arXiv प्रीप्रिंट arXiv:1706.00120 (2017)।


[49] त्सुंग-यी लिन, माइकल मैयर, सर्ज बेलोंगी, जेम्स हेस, पिएत्रो पेरोना, देवा रामनन, पिओटर डॉलर, और सी लॉरेंस ज़िटनिक। 2014. माइक्रोसॉफ्ट कोको: संदर्भ में सामान्य वस्तुएँ। कंप्यूटर विज़न पर यूरोपीय सम्मेलन में। स्प्रिंगर, 740–755।


[50] फ्रैंक सिफी लुआन, स्टेफ़नी वांग, संयुक्ता यागती, सीन किम, केनेथ लिएन, सांगबिन चो, एरिक लियांग और आयन स्टोइका। 2022. एक्सोशफल: एप्लिकेशन स्तर पर बड़े पैमाने पर फेरबदल। arXiv प्रीप्रिंट arXiv:2203.05072 (2022)।


[51] टॉमस मिकोलोव, काई चेन, ग्रेग कोराडो और जेफरी डीन। 2013. वेक्टर स्पेस में शब्द अभ्यावेदन का कुशल अनुमान। arXiv प्रीप्रिंट arXiv:1301.3781 (2013)।


[52] एलिस्टेयर माइल्स, जॉन किर्कम, मार्टिन डुरंट, जेम्स बॉर्ब्यू, तारिक ओनालान, जो हम्मन, ज़ैन पटेल, शिखरसग, मैथ्यू रॉकलिन, राफेल डुसिन, विंसेंट स्कुट, इलियट सेल्स डी एंड्रेडे, रयान एबरनेथे, चार्ल्स नोयस, स्बालमर, प्यूप.आईओ बॉट, टॉमी ट्रान, स्टीफन सैलफेल्ड, जस्टिन स्वानी, जोश मूर, जो जेवनिक, जेरोम केल्हेर, जान फंक, जॉर्ज सक्किस, क्रिस बार्न्स और एंडरसन बानिहिरवे। 2020. ज़ार-डेवलपर्स/ज़ारपाइथन: v2.4.0. https://doi.org/10.5281/zenodo.3773450


[53] फिलिप मोरित्ज़, रॉबर्ट निशिहारा, स्टेफ़नी वांग, एलेक्सी तुमानोव, रिचर्ड लियाव, एरिक लियांग, मेलिह एलिबोल, ज़ोंगहेंग यांग, विलियम पॉल, माइकल आई जॉर्डन, आदि। 2018. रे: उभरते {AI} अनुप्रयोगों के लिए एक वितरित ढांचा। ऑपरेटिंग सिस्टम डिज़ाइन और कार्यान्वयन पर 13वीं {USENIX} संगोष्ठी में ({OSDI} 18)। 561–577.


[54] इयासन ओफीदिस, डिएगो किडांस्की, और लिआंड्रोस टैसियुलस। 2022. डेटा-लोडर परिदृश्य का अवलोकन: तुलनात्मक प्रदर्शन विश्लेषण। arXiv प्रीप्रिंट arXiv:2209.13705 (2022)। [


55] ट्रैविस ई. ओलिफ़ैंट. 2006. न्यूमपी के लिए एक गाइड. खंड 1. ट्रेलगोल पब्लिशिंग यू.एस.ए.


[56] आरोन वैन डेन ओर्ड, सैंडर डाइलेमैन, हेइगा ज़ेन, करेन सिमोनियन, ओरिओल विनाल्स, एलेक्स ग्रेव्स, नाल कल्चब्रेनर, एंड्रयू सीनियर और कोरे कवुकुओग्लू। 2016. वेवनेट: रॉ ऑडियो के लिए एक जनरेटिव मॉडल। arXiv प्रीप्रिंट arXiv:1609.03499 (2016)।


[57] स्टावरोस पापाडोपोलोस, कुशल दत्ता, सैमुअल मैडेन और टिमोथी मैटसन। 2016. टाइल्डबी एरे डेटा स्टोरेज मैनेजर। वीएलडीबी एंडोमेंट 10, 4 (2016), 349-360 की कार्यवाही।


[58] एडम पास्ज़के, सैम ग्रॉस, सौमिथ चिंताला, ग्रेगरी चानन, एडवर्ड यांग, ज़ाचरी डेविटो, ज़ेमिंग लिन, अल्बान डेस्माइसन, लुका एंटिगा और एडम लेरर। 2017. पाइटॉर्च में स्वचालित विभेदन। (2017)।


[59] माशा बासमनोवा केविन विलफॉन्ग लैथ सक्का कृष्णा पै वेई हे बिस्वपेश चट्टोपाध्याय पेड्रो पेड्रेरा, ओर्री एरलिंग। 2022. वेलोक्स: मेटा का एकीकृत निष्पादन इंजन। वीएलडीबी एंडोमेंट की कार्यवाही (2022)।


[60] एलेक रेडफ़ोर्ड, जोंग वुक किम, क्रिस हैलेसी, आदित्य रमेश, गेब्रियल गोह, संधिनी अग्रवाल, गिरीश शास्त्री, अमांडा असकेल, पामेला मिशकिन, जैक क्लार्क, एट अल। 2021. नेचुरल लैंग्वेज सुपरविजन से ट्रांसफरेबल विज़ुअल मॉडल सीखना। मशीन लर्निंग पर अंतर्राष्ट्रीय सम्मेलन में। पीएमएलआर, 8748-8763।


[61] प्रणव राजपुरकर, जेरेमी इरविन, कायली झू, ब्रैंडन यांग, हर्शेल मेहता, टोनी डुआन, डेज़ी डिंग, आरती बागुल, कर्टिस लैंग्लोट्ज़, केटी श्पान्स्काया, आदि। 2017. चेक्सनेट: डीप लर्निंग के साथ छाती के एक्स-रे पर रेडियोलॉजिस्ट स्तर के निमोनिया का पता लगाना। arXiv प्रीप्रिंट arXiv:1711.05225 (2017)।


[62] आदित्य रमेश, मिखाइल पावलोव, गेब्रियल गोह, स्कॉट ग्रे, चेल्सी वॉस, एलेक रेडफ़ोर्ड, मार्क चेन और इल्या सुत्सकेवर। 2021. जीरो-शॉट टेक्स्ट-टू-इमेज जेनरेशन। मशीन लर्निंग पर अंतर्राष्ट्रीय सम्मेलन में। पीएमएलआर, 8821-8831।


[63] जोसेफ रेडमन, संतोष दिववाला, रॉस गिरशिक और अली फरहादी। 2016. आप केवल एक बार देखते हैं: एकीकृत, वास्तविक समय वस्तु पहचान। कंप्यूटर विज़न और पैटर्न पहचान पर IEEE सम्मेलन की कार्यवाही में। 779–788.


[64] अमित सबने. 2020. एक्सएलए: पीक परफॉरमेंस के लिए मशीन लर्निंग का संकलन. (2020).


[65] चितवन सहारिया, विलियम चैन, सौरभ सक्सेना, लाला ली, जे वांग, एमिली डेंटन, सईद काम्यार सईद घासेमीपुर, बुर्कू करागोल अयान, एस सारा महदवी, राफा गोंटिजो लोपेज, आदि। 2022. डीप लैंग्वेज अंडरस्टैंडिंग के साथ फोटोरीलिस्टिक टेक्स्ट-टू-इमेज डिफ्यूजन मॉडल। arXiv प्रीप्रिंट arXiv:2205.11487 (2022)।


[66] टॉम वैन बुसेल सैमवेल, हरमन वैन होवेल, मैरीन ज़ू, रेनॉल्ड ज़िन और माटेई ज़हरिया। 2022. फोटॉन: लेकहाउस सिस्टम के लिए एक तेज़ क्वेरी इंजन। (2022)।


[67] क्रिस्टोफ़ शूहमैन, रोमेन ब्यूमोंट, कैड डब्ल्यू गॉर्डन, रॉस वाइटमैन, थियो कॉम्बेस, आरुष कट्टा, क्लेटन मुलिस, पैट्रिक श्रामोव्स्की, श्रीवत्स आर कुंदुर्थी, कैथरीन क्रॉसन, एट अल. 2022. LAION-5B: अगली पीढ़ी के इमेज-टेक्स्ट मॉडल के प्रशिक्षण के लिए एक खुला बड़े पैमाने का डेटासेट. (2022).


[68] क्रिस्टोफ़ शूहमैन, रिचर्ड वेन्कू, रोमेन ब्यूमोंट, रॉबर्ट काज़मार्स्की, क्लेटन मुलिस, आरुष कट्टा, थियो कॉम्बेस, जेनिया जितसेव और एरन कोमात्सुज़ाकी। 2021. लायन400m: क्लिप-फ़िल्टर किए गए 400 मिलियन इमेज-टेक्स्ट जोड़े का खुला डेटासेट। arXiv प्रीप्रिंट arXiv:2111.02114 (2021)।


[69] फिलिप श्वान एट अल. 2003. लस्टर: 1000-नोड क्लस्टर के लिए एक फ़ाइल सिस्टम बनाना। 2003 लिनक्स संगोष्ठी की कार्यवाही में, वॉल्यूम. 2003. 380–386.


[70] राघव सेठी, मार्टिन ट्रैवर्सो, डैन सुंडस्ट्रॉम, डेविड फिलिप्स, वेनलेई ज़ी, युटियन सन, नेज़ीह येगिटबासी, हाओझुन जिन, एरिक ह्वांग, निलेमा शिंगटे, एट अल। 2019. प्रेस्टो: हर चीज़ पर SQL। 2019 IEEE 35वें इंटरनेशनल कॉन्फ्रेंस ऑन डेटा इंजीनियरिंग (ICDE) में। IEEE, 1802–1813।


[71] कोन्स्टेंटिन श्वाचको, हेयरोंग कुआंग, संजय राडिया, रॉबर्ट चांसलर, आदि 2010. हडूप वितरित फ़ाइल सिस्टम.. एमएसएसटी में, वॉल्यूम 10. 1–10.


[72] डेविड सिल्वर, थॉमस ह्यूबर्ट, जूलियन श्रिटविज़र, इयोनिस एंटोनोग्लू, मैथ्यू लाइ, आर्थर ग्यूज़, मार्क लैंकटोट, लॉरेंट सिफ़्रे, धरशन कुमारन, थोरे ग्रेपेल, एट अल. 2018. एक सामान्य सुदृढीकरण सीखने का एल्गोरिदम जो शतरंज, शोगी और गो को स्व-खेल के माध्यम से महारत हासिल कराता है। विज्ञान 362, 6419 (2018), 1140–1144.


[73] के स्टम्पफ, एस बेद्रातिउक और ओ सिरिट। 2018. माइकल एंजेलो PyML: तेजी से पायथन एमएल मॉडल विकास के लिए उबर के मंच का परिचय। उबर। देखें: https://eng.uber.com/michelangelo-pyml (2018)।


[74] पेड्रो जेवियर ऑर्टिज़ सुआरेज़, बेनोइट सागोट और लॉरेंट रोमरी। 2019. मध्यम से कम संसाधन वाले बुनियादी ढाँचों पर विशाल कॉर्पोरा को संसाधित करने के लिए एसिंक्रोनस पाइपलाइन। बड़े कॉर्पोरा के प्रबंधन में चुनौतियों पर 7वीं कार्यशाला (CMLC-7) में। लीबनिज़-इंस्टीट्यूट फर डॉयचे स्प्राचे।


[75] स्क्विरल डेवलपर टीम। 2022. स्क्विरल: एक पायथन लाइब्रेरी जो एमएल टीमों को सहयोगात्मक, लचीले और कुशल तरीके से डेटा साझा करने, लोड करने और बदलने में सक्षम बनाती है। GitHub। नोट: https://github.com/merantix-momentum/squirrel-core (2022)। https://doi.org/10.5281/zenodo.6418280


[76] आशीष थुसू, जॉयदीप सेन सरमा, नमित जैन, झेंग शाओ, प्रसाद चक्का, निंग झांग, सुरेश एंटनी, हाओ लियू और राघोथम मूर्ति। 2010. हाइव-हाडूप का उपयोग करके एक पेटाबाइट स्केल डेटा वेयरहाउस। 2010 में IEEE 26वें अंतर्राष्ट्रीय डेटा इंजीनियरिंग सम्मेलन (ICDE 2010)। IEEE, 996–1005।


[77] कैथरीन टुन्यासुवुनाकूल, जोनास एडलर, ज़ाचरी वू, टिम ग्रीन, मिशल ज़िलिंस्की, ऑगस्टिन ज़िडेक, एलेक्स ब्रिजलैंड, एंड्रयू कोवी, क्लेमेंस मेयर, अगाटा लेडन, एट अल. 2021. मानव प्रोटिओम के लिए अत्यधिक सटीक प्रोटीन संरचना भविष्यवाणी। प्रकृति 596, 7873 (2021), 590–596।


[78] आशीष वासवानी, नोम शज़ीर, निकी परमार, जैकब उस्कोरिट, लियोन जोन्स, ऐडन एन गोमेज़, लुकाज़ कैसर, और इलिया पोलोसुखिन। 2017. ध्यान ही आपकी ज़रूरत है। तंत्रिका सूचना प्रसंस्करण प्रणालियों में प्रगति 30 (2017)।


[79] दीपक वोहरा। 2016. अपाचे पार्केट। प्रैक्टिकल हाडोप इकोसिस्टम में। स्प्रिंगर, 325–335।


[80] जियांगुओ वांग, ज़ियाओमेंग यी, रेनटोंग गुओ, है जिन, पेंग जू, शेंगजुन ली, ज़ियांग्यु वांग, ज़ियांगझोउ गुओ, चेंगमिंग ली, ज़ियाओहाई जू, एट अल. 2021. मिल्वस: एक उद्देश्य-निर्मित वेक्टर डेटा प्रबंधन प्रणाली। डेटा प्रबंधन पर 2021 अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में। 2614–2627.


[81] झिलिन यांग, जिहांग दाई, यिमिंग यांग, जैमे कार्बोनेल, रस आर सलाखुटडिनोव, और क्वोक वी ले। 2019. एक्सएलनेट: भाषा समझ के लिए सामान्यीकृत ऑटोरिग्रैसिव प्रीट्रेनिंग। तंत्रिका सूचना प्रसंस्करण प्रणालियों में प्रगति 32 (2019)।


[82] मातेई ज़हरिया, मोशरफ चौधरी, माइकल जे फ्रैंकलिन, स्कॉट शेनकर और आयन स्टोइका। 2010. स्पार्क: वर्किंग सेट के साथ क्लस्टर कंप्यूटिंग। हॉटक्लाउड 10, 10-10 (2010), 95।


[83] जियांग झांग, जुनबो झाओ, और यान लेकुन। 2015. टेक्स्ट वर्गीकरण के लिए कैरेक्टरलेवल कन्वोल्यूशनल नेटवर्क। न्यूरल इंफॉर्मेशन प्रोसेसिंग सिस्टम में प्रगति। 649–657।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।