লেখক:
(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, USA;
(2) অভিনব তুলি, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;
(3) Levon Ghukasyan, Activeloop, Mountain View, CA, USA;
(4) ফারিজ রহমান, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;।
(5) Hrant Topchyan, Activeloop, Mountain View, CA, USA;
(6) ডেভিড ইসায়ান, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;
(7) Mark McQuade, Activeloop, Mountain View, CA, USA;
(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, USA;
(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, USA;
(10) Ivo Stranic, Activeloop, Mountain View, CA, USA;
(11) Davit Buniatyan, Activeloop, Mountain View, CA, USA.
ঐতিহ্যগত ডেটা লেকগুলি টাইম ট্র্যাভেল সক্ষম করে, এসকিউএল কোয়েরি চালানো, ACID লেনদেনের সাথে ডেটা ইনজেস্ট করা এবং ক্লাউড স্টোরেজে পেটাবাইটস্কেল ডেটাসেটগুলিকে ভিজ্যুয়ালাইজ করার মাধ্যমে বিশ্লেষণাত্মক কাজের চাপের জন্য গুরুত্বপূর্ণ ডেটা অবকাঠামো প্রদান করে। তারা সংস্থাগুলিকে ডেটা সাইলোগুলি ভেঙে ফেলার, ডেটা-চালিত সিদ্ধান্ত গ্রহণকে আনলক করার, অপারেশনাল দক্ষতা উন্নত করতে এবং খরচ কমানোর অনুমতি দেয়। যাইহোক, গভীর শিক্ষার ব্যবহার বৃদ্ধির সাথে সাথে, ঐতিহ্যগত ডেটা লেকগুলি ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (NLP), অডিও প্রসেসিং, কম্পিউটার ভিশন এবং নন-টেবুলার ডেটাসেট যুক্ত অ্যাপ্লিকেশনগুলির জন্য ভালভাবে ডিজাইন করা হয় না। এই কাগজটি ডিপ লেক উপস্থাপন করে, অ্যাক্টিভলুপ[1][2]-এ বিকশিত গভীর শিক্ষার অ্যাপ্লিকেশনের জন্য একটি ওপেন-সোর্স লেকহাউস। ডিপ লেক একটি ভ্যানিলা ডেটা লেকের সুবিধাগুলিকে একটি মূল পার্থক্যের সাথে বজায় রাখে: এটি জটিল ডেটা, যেমন চিত্র, ভিডিও, টীকা, পাশাপাশি ট্যাবুলার ডেটা সংরক্ষণ করে, টেনসর আকারে এবং নেটওয়ার্কের মাধ্যমে ডেটা দ্রুত প্রবাহিত করে (এ ) টেনসর কোয়েরি ল্যাঙ্গুয়েজ, (খ) ইন-ব্রাউজার ভিজ্যুয়ালাইজেশন ইঞ্জিন, বা (গ) ডিপ লার্নিং ফ্রেমওয়ার্ক জিপিইউ ব্যবহারকে ত্যাগ না করে। ডিপ লেকে সংরক্ষিত ডেটাসেটগুলি PyTorch [58], TensorFlow [25], JAX [31] থেকে অ্যাক্সেস করা যেতে পারে এবং অসংখ্য MLOps টুলের সাথে একত্রিত হতে পারে।
কীওয়ার্ডস - ডিপ লেক, ডিপ লার্নিং, ডেটা লেক, লেকহাউস, ক্লাউড কম্পিউটিং, ডিস্ট্রিবিউটেড সিস্টেম
একটি ডেটা লেক হল একটি কেন্দ্রীয় সংগ্রহস্থল যা সংস্থাগুলিকে এক জায়গায় কাঠামোগত, অসংগঠিত এবং আধা-কাঠামোগত ডেটা সংরক্ষণ করতে দেয়। ডেটা লেকগুলি ডেটা পরিচালনা, পরিচালনা এবং বিশ্লেষণ করার একটি ভাল উপায় প্রদান করে। উপরন্তু, তারা ডেটা সাইলো ভাঙ্গার একটি উপায় প্রদান করে এবং অর্ন্তদৃষ্টি অর্জন করে যা পূর্বে পৃথক ডেটা উত্সগুলিতে লুকিয়ে থাকে। প্রথম প্রজন্মের ডেটা লেকগুলি ঐতিহ্যগতভাবে HDFS [71] বা AWS S3 [1] এর মতো বিতরণ করা স্টোরেজ সিস্টেমে ডেটা সংগ্রহ করে। ডেটার অসংগঠিত সংগ্রহ ডেটা লেকগুলিকে "ডেটা সোয়াম্প"-এ পরিণত করেছে, যা ডেল্টা, আইসবার্গ এবং হুডি [২৭, ১৫, ১০] এর নেতৃত্বে দ্বিতীয় প্রজন্মের ডেটা লেকের জন্ম দিয়েছে। তারা কঠোরভাবে স্ট্যান্ডার্ড স্ট্রাকচার্ড ফরম্যাটের উপরে কাজ করে যেমন Parquet, ORC, Avro [79, 6, 20] এবং সময় ভ্রমণ, ACID লেনদেন এবং স্কিমা বিবর্তনের মতো বৈশিষ্ট্যগুলি প্রদান করে। ডেটা হ্রদ প্রেস্টো, এথেনা, এর মতো কোয়েরি ইঞ্জিনগুলির সাথে সরাসরি একত্রিত হয়
হাইভ, এবং ফোটন [70, 12, 76, 66] বিশ্লেষণাত্মক প্রশ্ন চালানোর জন্য। উপরন্তু, তারা ETL পাইপলাইন রক্ষণাবেক্ষণের জন্য Hadoop, Spark, এবং Airflow [14, 82, 9] এর মত ফ্রেমওয়ার্কের সাথে সংযোগ করে। এর পরিবর্তে, পরিষ্কার গণনা এবং স্টোরেজ বিভাজন সহ ডেটা লেক এবং ক্যোয়ারী ইঞ্জিনগুলির মধ্যে একীকরণের ফলে লেকহাউসের মতো সিস্টেমের উত্থান ঘটে [২৮] যা স্নোফ্লেক, বিগকুয়েরি, রেডশিফ্ট এবং ক্লিকহাউস সহ ডেটা গুদামের বিকল্প হিসাবে কাজ করে [৩৩, 4, 40, 2]।
গত এক দশকে, গভীর শিক্ষা অসংগঠিত এবং জটিল ডেটা যেমন পাঠ্য, ছবি, ভিডিও এবং অডিও [44, 47, 38, 83, 51, 30, 63, 56] জড়িত প্রথাগত মেশিন লার্নিং কৌশলকে ছাড়িয়ে গেছে। ডিপ লার্নিং সিস্টেমগুলি শুধুমাত্র ঐতিহ্যগত কৌশলকেই ছাড়িয়ে যায় না, তারা এক্স-রে ছবি থেকে ক্যান্সার সনাক্তকরণ, মানুষের স্নায়ু কোষের শারীরবৃত্তীয় পুনর্গঠন, গেম খেলা, গাড়ি চালানো, প্রোটিন উন্মোচন এবং ছবি তৈরি করার মতো অ্যাপ্লিকেশনগুলিতে অতি-মানবীয় নির্ভুলতা অর্জন করেছে। 61, 48, 72, 42, 77]। ট্রান্সফরমার-ভিত্তিক আর্কিটেকচার সহ বৃহৎ ভাষার মডেলগুলি অনুবাদ, যুক্তি, সংক্ষিপ্তকরণ এবং পাঠ্য সমাপ্তির কাজগুলি জুড়ে অত্যাধুনিক ফলাফল অর্জন করেছে [78, 36, 81, 32]। বড় মাল্টি-মোডাল নেটওয়ার্কগুলি ক্রস-মোডাল অনুসন্ধানের জন্য ভেক্টরগুলিতে অসংগঠিত ডেটা এম্বেড করে [২৯, ৬০]। তদুপরি, এগুলি পাঠ্য [62, 65] থেকে ফটো-বাস্তববাদী চিত্র তৈরি করতে ব্যবহৃত হয়।
যদিও ডিপ লার্নিং মডেলের সাফল্যে প্রাথমিক অবদানকারীদের মধ্যে একটি হল CoCo (330K ইমেজ), ইমেজনেট (1.2M ইমেজ), অস্কার (বহুভাষিক টেক্সট কর্পাস), এবং LAION (400M এবং 5B ইমেজ) এর মতো বড় ডেটাসেটের প্রাপ্যতা। [49, 34, 74, 68], এই ধরনের স্কেল সমর্থন করার জন্য ঐতিহ্যগত বিশ্লেষণাত্মক কাজের চাপের মতো এটির একটি সু-প্রতিষ্ঠিত ডেটা অবকাঠামোর ব্লুপ্রিন্ট নেই। অন্যদিকে, মডার্ন ডেটা স্ট্যাক (MDS) এর মধ্যে পারফরম্যান্ট ডিপ লার্নিং-ভিত্তিক সমাধান স্থাপনের জন্য প্রয়োজনীয় বৈশিষ্ট্যের অভাব রয়েছে তাই প্রতিষ্ঠানগুলি ইন-হাউস সিস্টেমগুলি বিকাশ করতে বেছে নেয়।
এই কাগজে, আমরা ডিপ লেকের সাথে পরিচয় করিয়ে দিই, একটি লেকহাউস যা গভীর শিক্ষার কাজের চাপের জন্য বিশেষ। গভীর হ্রদ এর প্রধান সুবিধাগুলি ধরে রাখে
একটি উল্লেখযোগ্য পার্থক্য সহ ঐতিহ্যবাহী ডেটা লেক: এটি জটিল ডেটা, যেমন চিত্র, ভিডিও, টীকা এবং ট্যাবুলার ডেটা সংরক্ষণ করে, টেনসর হিসাবে এবং GPU ব্যবহারকে ত্যাগ না করেই নেটওয়ার্কে গভীর শিক্ষার কাঠামোতে ডেটা দ্রুত প্রবাহিত করে। অধিকন্তু, এটি পাইটর্চ, টেনসরফ্লো, এবং JAX [58, 25, 31] এর মতো গভীর শিক্ষার কাঠামোর মধ্যে নেটিভ ইন্টারঅপারেবিলিটি প্রদান করে।
এই কাগজের প্রধান প্রযুক্তিগত অবদানগুলির মধ্যে রয়েছে:
• টেনসর স্টোরেজ ফরম্যাট যা বস্তু সঞ্চয়স্থানে গতিশীল আকারের অ্যারে সঞ্চয় করে;
• স্ট্রিমিং ডেটালোডার যা আনয়ন, ডিকম্প্রেশন, এবং ব্যবহারকারী-সংজ্ঞায়িত রূপান্তরগুলি নির্ধারণ করে, গভীর শিক্ষার জন্য GPU-তে ডেটা স্থানান্তর থ্রুপুট অপ্টিমাইজ করে;
• বহুমাত্রিক অ্যারে ডেটার উপরে টেনসর কোয়েরি ল্যাঙ্গুয়েজ এসকিউএল-এর মতো অপারেশন চালাচ্ছে;
• ইন-ব্রাউজার ভিজ্যুয়ালাইজেশন ইঞ্জিন যা অবজেক্ট স্টোরেজ থেকে ডেটা স্ট্রিম করে এবং ওয়েবজিএল ব্যবহার করে ব্রাউজারে রেন্ডার করে।
এই কাগজের অবশিষ্টাংশ নিম্নরূপ উদ্ঘাটিত হয়. আমরা অসংগঠিত ডেটার উপর গভীর শিক্ষার বর্তমান চ্যালেঞ্জগুলি বিবেচনা করে শুরু করি। এর পরে, আমরা টেনসর স্টোরেজ ফরম্যাট (TSF) এর মূল ধারণাগুলির সাথে উপস্থাপন করি। তদ্ব্যতীত, আমরা এমএল চক্রের মধ্যে ডিপ লেকের ক্ষমতা এবং অ্যাপ্লিকেশনগুলি নিয়ে আলোচনা করি। পরবর্তী, আমরা কর্মক্ষমতা পরীক্ষা প্রদান এবং ফলাফল আলোচনা. পরিশেষে, আমরা সম্পর্কিত কাজ পর্যালোচনা করি, সম্ভাব্য সীমাবদ্ধতা তালিকাভুক্ত করি এবং উপসংহার করি।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।
[১] সোর্স কোড উপলব্ধ: https://github.com/activeloopai/deeplake
[২] ডকুমেন্টেশন https://docs.deeplake.ai-এ উপলব্ধ