লেখক:
(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, USA;
(2) অভিনব তুলি, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;
(3) Levon Ghukasyan, Activeloop, Mountain View, CA, USA;
(4) ফারিজ রহমান, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;।
(5) Hrant Topchyan, Activeloop, Mountain View, CA, USA;
(6) ডেভিড ইসায়ান, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;
(7) Mark McQuade, Activeloop, Mountain View, CA, USA;
(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, USA;
(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, USA;
(10) Ivo Stranic, Activeloop, Mountain View, CA, USA;
(11) Davit Buniatyan, Activeloop, Mountain View, CA, USA.
এই বিভাগে, আমরা অসংগঠিত বা জটিল ডেটা ব্যবস্থাপনার বর্তমান এবং ঐতিহাসিক চ্যালেঞ্জগুলি নিয়ে আলোচনা করি।
এটি সাধারণত ডাটাবেসে সরাসরি বাইনারি ডেটা, যেমন ইমেজ সংরক্ষণ করার সুপারিশ করা হয় না। এর কারণ হল ডাটাবেসগুলি বড় ফাইলগুলি সংরক্ষণ এবং পরিবেশন করার জন্য অপ্টিমাইজ করা হয় না এবং কর্মক্ষমতা সমস্যা সৃষ্টি করতে পারে। উপরন্তু, বাইনারি ডেটা একটি ডাটাবেসের কাঠামোগত বিন্যাসে ভালভাবে মাপসই করে না, এটিকে অনুসন্ধান করা এবং ম্যানিপুলেট করা কঠিন করে তোলে। এটি ব্যবহারকারীদের জন্য ধীর লোড সময় হতে পারে. ফাইল সিস্টেম বা ক্লাউড স্টোরেজ পরিষেবাগুলির মতো অন্যান্য ধরণের স্টোরেজের তুলনায় ডেটাবেসগুলি সাধারণত পরিচালনা এবং রক্ষণাবেক্ষণের জন্য বেশি ব্যয়বহুল। অতএব, একটি ডাটাবেসে প্রচুর পরিমাণে বাইনারি ডেটা সংরক্ষণ করা অন্যান্য স্টোরেজ সমাধানগুলির চেয়ে বেশি ব্যয়বহুল হতে পারে।
বৃহৎ আকারের বিশ্লেষণাত্মক এবং BI কাজের লোডের বৃদ্ধি Parquet, ORC, Avro, বা তীর [79, 6, 20, 13] এর মতো ক্ষণস্থায়ী ইন-মেমরি ফর্ম্যাটের মতো সংকুচিত কাঠামোগত ফর্ম্যাটগুলির বিকাশকে অনুপ্রাণিত করেছে। টেবুলার ফরম্যাটগুলি গ্রহণ করার সাথে সাথে, গভীর শিক্ষার জন্য পেটাস্টর্ম [১৮] বা ফেদার [৭]-এর মতো এই বিন্যাসগুলিকে প্রসারিত করার প্রচেষ্টা আবির্ভূত হয়েছে। আমাদের সর্বোত্তম জ্ঞান অনুসারে, এই ফর্ম্যাটগুলি এখনও ব্যাপকভাবে গ্রহণ করতে পারেনি। এই পদ্ধতিটি প্রাথমিকভাবে আধুনিক ডেটা স্ট্যাক (MDS) এর সাথে নেটিভ ইন্টিগ্রেশন থেকে উপকৃত হয়। যাইহোক, পূর্বে আলোচনা করা হয়েছে, আপস্ট্রিম সরঞ্জামগুলির গভীর শিক্ষার অ্যাপ্লিকেশনগুলির সাথে খাপ খাইয়ে নিতে মৌলিক পরিবর্তনের প্রয়োজন।
বড় অসংগঠিত ডেটাসেটগুলি সংরক্ষণের জন্য বর্তমান ক্লাউড-নেটিভ পছন্দ হল বস্তু সঞ্চয়স্থান যেমন AWS S3 [1], Google ক্লাউড স্টোরেজ (GCS) [3], অথবা MinIO [17]। অবজেক্ট স্টোরেজ বিতরণ করা নেটওয়ার্ক ফাইল সিস্টেমের উপর তিনটি প্রধান সুবিধা প্রদান করে। এগুলি হল (a) খরচ-দক্ষ, (b) মাপযোগ্য, এবং (c) একটি বিন্যাস-অজ্ঞেয়মূলক সংগ্রহস্থল হিসাবে কাজ করে৷ যাইহোক, ক্লাউড স্টোরেজগুলি ত্রুটি ছাড়াই নয়। প্রথমত, তারা উল্লেখযোগ্য লেটেন্সি ওভারহেড প্রবর্তন করে, বিশেষ করে যখন অনেক ছোট ফাইল যেমন টেক্সট বা JSON এর উপর পুনরাবৃত্তি করে। এর পরে, মেটাডেটা নিয়ন্ত্রণ ছাড়াই অসংগঠিত ডেটা ইনজেশন "ডেটা সোয়াম্প" তৈরি করতে পারে। উপরন্তু, অবজেক্ট স্টোরেজ অন্তর্নির্মিত সংস্করণ নিয়ন্ত্রণ আছে; ডেটা সায়েন্স ওয়ার্কফ্লোতে এটি খুব কমই ব্যবহৃত হয়। অবশেষে, প্রশিক্ষণের আগে অবজেক্ট স্টোরেজের ডেটা একটি ভার্চুয়াল মেশিনে কপি করা হয়, ফলে স্টোরেজ ওভারহেড এবং অতিরিক্ত খরচ হয়।
ডেল্টা, আইসবার্গ, হুডি [27, 15, 10] এর নেতৃত্বে দ্বিতীয় প্রজন্মের ডেটা লেকগুলি নিম্নলিখিত প্রাথমিক বৈশিষ্ট্যগুলির সাথে ট্যাবুলার ফর্ম্যাট ফাইলগুলি পরিচালনা করে অবজেক্ট স্টোরেজ প্রসারিত করে।
(1) আপডেট অপারেশন: একটি ট্যাবুলার ফরম্যাট ফাইলের উপরে একটি সারি সন্নিবেশ করা বা মুছে ফেলা।
(2) স্ট্রিমিং : এসিআইডি বৈশিষ্ট্যের সাথে ডাউনস্ট্রিম ডেটা ইনজেশন এবং এসকিউএল ইন্টারফেস প্রকাশকারী কোয়েরি ইঞ্জিনের সাথে আপস্ট্রিম ইন্টিগ্রেশন।
(3) স্কিমা বিবর্তন: পশ্চাদগামী সামঞ্জস্য রক্ষা করার সময় কলামার কাঠামোর বিকাশ।
(4) সময় ভ্রমণ এবং অডিট লগ ট্রেইলিং: রোলব্যাক সম্পত্তি সহ ঐতিহাসিক অবস্থা সংরক্ষণ করা যেখানে প্রশ্নগুলি পুনরুত্পাদনযোগ্য হতে পারে। এছাড়াও, ডেটা বংশের উপর সারি-স্তরের নিয়ন্ত্রণের জন্য সমর্থন।
(5) লেআউট অপ্টিমাইজেশান: কাস্টম অর্ডার সমর্থন সহ ফাইলের আকার এবং ডেটা কমপ্যাকশন অপ্টিমাইজ করার জন্য অন্তর্নির্মিত বৈশিষ্ট্য। উল্লেখযোগ্যভাবে অনুসন্ধানের গতি বাড়ায়।
যাইহোক, দ্বিতীয় প্রজন্মের ডেটা লেকগুলি এখনও গভীর শিক্ষায় ব্যবহার করা সহজাত ডেটা বিন্যাসের সীমাবদ্ধতা দ্বারা আবদ্ধ, যেমনটি পূর্বে অধ্যায় 2.2-এ আলোচনা করা হয়েছে। তাই এই কাগজে, আমরা চিত্র 2-এ দেখানো ML লাইফসাইকেল সম্পূর্ণ করার জন্য কোয়েরি, ভিজ্যুয়ালাইজেশন এবং গভীর শিক্ষার কাঠামোর সাথে নেটিভ ইন্টিগ্রেশন সহ বিন্যাস এবং আপস্ট্রিম বৈশিষ্ট্যগুলি পুনর্বিবেচনার মাধ্যমে গভীর শিক্ষার ব্যবহারের ক্ষেত্রে ডেটা লেকের ক্ষমতার দ্বিতীয় প্রজন্মকে প্রসারিত করি। .
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।