লেখক:
(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, USA;
(2) অভিনব তুলি, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;
(3) Levon Ghukasyan, Activeloop, Mountain View, CA, USA;
(4) ফারিজ রহমান, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;।
(5) Hrant Topchyan, Activeloop, Mountain View, CA, USA;
(6) ডেভিড ইসায়ান, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;
(7) Mark McQuade, Activeloop, Mountain View, CA, USA;
(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, USA;
(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, USA;
(10) Ivo Stranic, Activeloop, Mountain View, CA, USA;
(11) Davit Buniatyan, Activeloop, Mountain View, CA, USA.
একাধিক প্রজেক্ট TFRecord প্রসারিত প্রোটোবাফ [5], Petastorm [18] প্রসারিত Parquet [79], ফেদার [7] প্রসারিত তীর [13], মেসেজপ্যাক ব্যবহার করে কাঠবিড়ালি সহ অসংগঠিত ডেটাসেটগুলি সংরক্ষণের জন্য নতুন ফর্ম্যাটগুলি উন্নত বা তৈরি করার চেষ্টা করেছে। এফএফসিভিতে বেটন [৩৯]। একটি সর্বজনীন ডেটাসেট বিন্যাস ডিজাইন করা যা সমস্ত ব্যবহারের ক্ষেত্রে সমাধান করে খুব চ্যালেঞ্জিং। আমাদের পদ্ধতিটি বেশিরভাগই ক্লাউড ভলিউম [১১] দ্বারা অনুপ্রাণিত হয়েছিল, বড় ভলিউম্যাট্রিক বায়োমেডিকাল ডেটা সংরক্ষণের জন্য একটি 4-ডি খণ্ডিত NumPy স্টোরেজ। অন্যান্য অনুরূপ খণ্ডিত NumPy অ্যারে স্টোরেজ ফরম্যাট রয়েছে যেমন Zarr [52], TensorStore [23], TileDB [57]। ডিপ লেক একটি টাইপিং সিস্টেম চালু করেছে, গতিশীল আকারের টেনসর, দ্রুত গভীর শিক্ষা স্ট্রিমিং ডেটা লোডারগুলির সাথে একীকরণ, টেনসরগুলির উপর প্রশ্ন এবং ব্রাউজার ভিজ্যুয়ালাইজেশন সমর্থন। বৃহৎ-স্কেল ডেটাসেটগুলি সঞ্চয় করার জন্য একটি বিকল্প পদ্ধতি হল এইচপিসি বিতরণ করা ফাইল সিস্টেম যেমন লাস্টার [69], PyTorch ক্যাশে [45] বা AIStore [26] এর মতো পারফরম্যান্ট স্টোরেজ স্তরের সাথে প্রসারিত করা। ডিপ লেক ডেটাসেটগুলিকে তাদের সুবিধাগুলি ব্যবহার করে POSIX বা REST API-সামঞ্জস্যপূর্ণ বিতরণ স্টোরেজ সিস্টেমের উপরে সংরক্ষণ করা যেতে পারে। অন্যান্য তুলনামূলক পন্থাগুলি ভেক্টর ডাটাবেসে [80, 8, 80] এম্বেডিং, বৈশিষ্ট্য স্টোর [73, 16] বা ডেটা সংস্করণ নিয়ন্ত্রণ ব্যবস্থা যেমন DVC [46], বা LakeFS [২১] সংরক্ষণের জন্য বিবর্তিত হয়। বিপরীতে, ডিপ লেক সংস্করণ নিয়ন্ত্রণ গিট সহ বাহ্যিক নির্ভরতা ছাড়াই বিন্যাসে অন্তর্নির্মিত। TQP [41] এবং Velox [59] পদ্ধতির অনুরূপ টেনসর ক্যোয়ারী ল্যাঙ্গুয়েজ, গভীর শিক্ষার ফ্রেমওয়ার্কের সম্পূর্ণ ক্ষমতাকে সত্যিকার অর্থে টেনসর স্টোরেজে এন-ডাইমেনশনাল নিউমেরিক অপারেশন চালায়। সামগ্রিকভাবে, ডিপ লেক হুডি, আইসবার্গ, ডেল্টা [27, 15, 10] এর মতো ডেটা লেকগুলির সমান্তরালতা নেয় এবং ডিপ লার্নিং অ্যাপ্লিকেশনের জন্য ডেটাবারিক'স লেকহাউস [28] এর মতো সিস্টেমগুলিকে পরিপূরক করে।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।