paint-brush
গভীর লেক, গভীর শিক্ষার জন্য একটি লেকহাউস: বর্তমান চ্যালেঞ্জদ্বারা@dataology
115 পড়া

গভীর লেক, গভীর শিক্ষার জন্য একটি লেকহাউস: বর্তমান চ্যালেঞ্জ

দ্বারা Dataology: Study of Data in Computer Science3m2024/06/05
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

গবেষকরা ডিপ লেকের সাথে পরিচয় করিয়ে দেন, গভীর শিক্ষার জন্য একটি ওপেন সোর্স লেকহাউস, জটিল ডেটা স্টোরেজ অপ্টিমাইজ করে এবং গভীর শিক্ষার কাঠামোর জন্য স্ট্রিমিং।
featured image - গভীর লেক, গভীর শিক্ষার জন্য একটি লেকহাউস: বর্তমান চ্যালেঞ্জ
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

লেখক:

(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, USA;

(2) অভিনব তুলি, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;

(3) Levon Ghukasyan, Activeloop, Mountain View, CA, USA;

(4) ফারিজ রহমান, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;।

(5) Hrant Topchyan, Activeloop, Mountain View, CA, USA;

(6) ডেভিড ইসায়ান, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;

(7) Mark McQuade, Activeloop, Mountain View, CA, USA;

(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, USA;

(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, USA;

(10) Ivo Stranic, Activeloop, Mountain View, CA, USA;

(11) Davit Buniatyan, Activeloop, Mountain View, CA, USA.

লিঙ্কের টেবিল

2. বর্তমান চ্যালেঞ্জ

এই বিভাগে, আমরা অসংগঠিত বা জটিল ডেটা ব্যবস্থাপনার বর্তমান এবং ঐতিহাসিক চ্যালেঞ্জগুলি নিয়ে আলোচনা করি।

2.1 একটি ডাটাবেসে জটিল তথ্য প্রকার

এটি সাধারণত ডাটাবেসে সরাসরি বাইনারি ডেটা, যেমন ইমেজ সংরক্ষণ করার সুপারিশ করা হয় না। এর কারণ হল ডাটাবেসগুলি বড় ফাইলগুলি সংরক্ষণ এবং পরিবেশন করার জন্য অপ্টিমাইজ করা হয় না এবং কর্মক্ষমতা সমস্যা সৃষ্টি করতে পারে। উপরন্তু, বাইনারি ডেটা একটি ডাটাবেসের কাঠামোগত বিন্যাসে ভালভাবে মাপসই করে না, এটিকে অনুসন্ধান করা এবং ম্যানিপুলেট করা কঠিন করে তোলে। এটি ব্যবহারকারীদের জন্য ধীর লোড সময় হতে পারে. ফাইল সিস্টেম বা ক্লাউড স্টোরেজ পরিষেবাগুলির মতো অন্যান্য ধরণের স্টোরেজের তুলনায় ডেটাবেসগুলি সাধারণত পরিচালনা এবং রক্ষণাবেক্ষণের জন্য বেশি ব্যয়বহুল। অতএব, একটি ডাটাবেসে প্রচুর পরিমাণে বাইনারি ডেটা সংরক্ষণ করা অন্যান্য স্টোরেজ সমাধানগুলির চেয়ে বেশি ব্যয়বহুল হতে পারে।

2.2 ট্যাবুলার ফর্ম্যাটের সাথে জটিল ডেটা

বৃহৎ আকারের বিশ্লেষণাত্মক এবং BI কাজের লোডের বৃদ্ধি Parquet, ORC, Avro, বা তীর [79, 6, 20, 13] এর মতো ক্ষণস্থায়ী ইন-মেমরি ফর্ম্যাটের মতো সংকুচিত কাঠামোগত ফর্ম্যাটগুলির বিকাশকে অনুপ্রাণিত করেছে। টেবুলার ফরম্যাটগুলি গ্রহণ করার সাথে সাথে, গভীর শিক্ষার জন্য পেটাস্টর্ম [১৮] বা ফেদার [৭]-এর মতো এই বিন্যাসগুলিকে প্রসারিত করার প্রচেষ্টা আবির্ভূত হয়েছে। আমাদের সর্বোত্তম জ্ঞান অনুসারে, এই ফর্ম্যাটগুলি এখনও ব্যাপকভাবে গ্রহণ করতে পারেনি। এই পদ্ধতিটি প্রাথমিকভাবে আধুনিক ডেটা স্ট্যাক (MDS) এর সাথে নেটিভ ইন্টিগ্রেশন থেকে উপকৃত হয়। যাইহোক, পূর্বে আলোচনা করা হয়েছে, আপস্ট্রিম সরঞ্জামগুলির গভীর শিক্ষার অ্যাপ্লিকেশনগুলির সাথে খাপ খাইয়ে নিতে মৌলিক পরিবর্তনের প্রয়োজন।

2.3 গভীর শিক্ষার জন্য অবজেক্ট স্টোরেজ

বড় অসংগঠিত ডেটাসেটগুলি সংরক্ষণের জন্য বর্তমান ক্লাউড-নেটিভ পছন্দ হল বস্তু সঞ্চয়স্থান যেমন AWS S3 [1], Google ক্লাউড স্টোরেজ (GCS) [3], অথবা MinIO [17]। অবজেক্ট স্টোরেজ বিতরণ করা নেটওয়ার্ক ফাইল সিস্টেমের উপর তিনটি প্রধান সুবিধা প্রদান করে। এগুলি হল (a) খরচ-দক্ষ, (b) মাপযোগ্য, এবং (c) একটি বিন্যাস-অজ্ঞেয়মূলক সংগ্রহস্থল হিসাবে কাজ করে৷ যাইহোক, ক্লাউড স্টোরেজগুলি ত্রুটি ছাড়াই নয়। প্রথমত, তারা উল্লেখযোগ্য লেটেন্সি ওভারহেড প্রবর্তন করে, বিশেষ করে যখন অনেক ছোট ফাইল যেমন টেক্সট বা JSON এর উপর পুনরাবৃত্তি করে। এর পরে, মেটাডেটা নিয়ন্ত্রণ ছাড়াই অসংগঠিত ডেটা ইনজেশন "ডেটা সোয়াম্প" তৈরি করতে পারে। উপরন্তু, অবজেক্ট স্টোরেজ অন্তর্নির্মিত সংস্করণ নিয়ন্ত্রণ আছে; ডেটা সায়েন্স ওয়ার্কফ্লোতে এটি খুব কমই ব্যবহৃত হয়। অবশেষে, প্রশিক্ষণের আগে অবজেক্ট স্টোরেজের ডেটা একটি ভার্চুয়াল মেশিনে কপি করা হয়, ফলে স্টোরেজ ওভারহেড এবং অতিরিক্ত খরচ হয়।

2.4 ডেটা লেকের দ্বিতীয় প্রজন্ম

ডেল্টা, আইসবার্গ, হুডি [27, 15, 10] এর নেতৃত্বে দ্বিতীয় প্রজন্মের ডেটা লেকগুলি নিম্নলিখিত প্রাথমিক বৈশিষ্ট্যগুলির সাথে ট্যাবুলার ফর্ম্যাট ফাইলগুলি পরিচালনা করে অবজেক্ট স্টোরেজ প্রসারিত করে।


(1) আপডেট অপারেশন: একটি ট্যাবুলার ফরম্যাট ফাইলের উপরে একটি সারি সন্নিবেশ করা বা মুছে ফেলা।


(2) স্ট্রিমিং : এসিআইডি বৈশিষ্ট্যের সাথে ডাউনস্ট্রিম ডেটা ইনজেশন এবং এসকিউএল ইন্টারফেস প্রকাশকারী কোয়েরি ইঞ্জিনের সাথে আপস্ট্রিম ইন্টিগ্রেশন।


(3) স্কিমা বিবর্তন: পশ্চাদগামী সামঞ্জস্য রক্ষা করার সময় কলামার কাঠামোর বিকাশ।


(4) সময় ভ্রমণ এবং অডিট লগ ট্রেইলিং: রোলব্যাক সম্পত্তি সহ ঐতিহাসিক অবস্থা সংরক্ষণ করা যেখানে প্রশ্নগুলি পুনরুত্পাদনযোগ্য হতে পারে। এছাড়াও, ডেটা বংশের উপর সারি-স্তরের নিয়ন্ত্রণের জন্য সমর্থন।


(5) লেআউট অপ্টিমাইজেশান: কাস্টম অর্ডার সমর্থন সহ ফাইলের আকার এবং ডেটা কমপ্যাকশন অপ্টিমাইজ করার জন্য অন্তর্নির্মিত বৈশিষ্ট্য। উল্লেখযোগ্যভাবে অনুসন্ধানের গতি বাড়ায়।


যাইহোক, দ্বিতীয় প্রজন্মের ডেটা লেকগুলি এখনও গভীর শিক্ষায় ব্যবহার করা সহজাত ডেটা বিন্যাসের সীমাবদ্ধতা দ্বারা আবদ্ধ, যেমনটি পূর্বে অধ্যায় 2.2-এ আলোচনা করা হয়েছে। তাই এই কাগজে, আমরা চিত্র 2-এ দেখানো ML লাইফসাইকেল সম্পূর্ণ করার জন্য কোয়েরি, ভিজ্যুয়ালাইজেশন এবং গভীর শিক্ষার কাঠামোর সাথে নেটিভ ইন্টিগ্রেশন সহ বিন্যাস এবং আপস্ট্রিম বৈশিষ্ট্যগুলি পুনর্বিবেচনার মাধ্যমে গভীর শিক্ষার ব্যবহারের ক্ষেত্রে ডেটা লেকের ক্ষমতার দ্বিতীয় প্রজন্মকে প্রসারিত করি। .


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ