লেখক:  (1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, USA;  (2) অভিনব তুলি, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;  (3) Levon Ghukasyan, Activeloop, Mountain View, CA, USA;  (4) ফারিজ রহমান, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;।  (5) Hrant Topchyan, Activeloop, Mountain View, CA, USA;  (6) ডেভিড ইসায়ান, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;  (7) Mark McQuade, Activeloop, Mountain View, CA, USA;  (8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, USA;  (9) Tatevik Hakobyan, Activeloop, Mountain View, CA, USA;  (10) Ivo Stranic, Activeloop, Mountain View, CA, USA;  (11) Davit Buniatyan, Activeloop, Mountain View, CA, USA.  লিঙ্কের টেবিল   বিমূর্ত এবং ভূমিকা   বর্তমান চ্যালেঞ্জ   টেনসর স্টোরেজ ফরম্যাট   গভীর লেক সিস্টেম ওভারভিউ   মেশিন লার্নিং ব্যবহারের ক্ষেত্রে   কর্মক্ষমতা মানদণ্ড   আলোচনা এবং সীমাবদ্ধতা   সম্পর্কিত কাজ   উপসংহার, স্বীকৃতি, এবং রেফারেন্স  2. বর্তমান চ্যালেঞ্জ  এই বিভাগে, আমরা অসংগঠিত বা জটিল ডেটা ব্যবস্থাপনার বর্তমান এবং ঐতিহাসিক চ্যালেঞ্জগুলি নিয়ে আলোচনা করি।  2.1 একটি ডাটাবেসে জটিল তথ্য প্রকার  এটি সাধারণত ডাটাবেসে সরাসরি বাইনারি ডেটা, যেমন ইমেজ সংরক্ষণ করার সুপারিশ করা হয় না। এর কারণ হল ডাটাবেসগুলি বড় ফাইলগুলি সংরক্ষণ এবং পরিবেশন করার জন্য অপ্টিমাইজ করা হয় না এবং কর্মক্ষমতা সমস্যা সৃষ্টি করতে পারে। উপরন্তু, বাইনারি ডেটা একটি ডাটাবেসের কাঠামোগত বিন্যাসে ভালভাবে মাপসই করে না, এটিকে অনুসন্ধান করা এবং ম্যানিপুলেট করা কঠিন করে তোলে। এটি ব্যবহারকারীদের জন্য ধীর লোড সময় হতে পারে. ফাইল সিস্টেম বা ক্লাউড স্টোরেজ পরিষেবাগুলির মতো অন্যান্য ধরণের স্টোরেজের তুলনায় ডেটাবেসগুলি সাধারণত পরিচালনা এবং রক্ষণাবেক্ষণের জন্য বেশি ব্যয়বহুল। অতএব, একটি ডাটাবেসে প্রচুর পরিমাণে বাইনারি ডেটা সংরক্ষণ করা অন্যান্য স্টোরেজ সমাধানগুলির চেয়ে বেশি ব্যয়বহুল হতে পারে।  2.2 ট্যাবুলার ফর্ম্যাটের সাথে জটিল ডেটা  বৃহৎ আকারের বিশ্লেষণাত্মক এবং BI কাজের লোডের বৃদ্ধি Parquet, ORC, Avro, বা তীর [79, 6, 20, 13] এর মতো ক্ষণস্থায়ী ইন-মেমরি ফর্ম্যাটের মতো সংকুচিত কাঠামোগত ফর্ম্যাটগুলির বিকাশকে অনুপ্রাণিত করেছে। টেবুলার ফরম্যাটগুলি গ্রহণ করার সাথে সাথে, গভীর শিক্ষার জন্য পেটাস্টর্ম [১৮] বা ফেদার [৭]-এর মতো এই বিন্যাসগুলিকে প্রসারিত করার প্রচেষ্টা আবির্ভূত হয়েছে। আমাদের সর্বোত্তম জ্ঞান অনুসারে, এই ফর্ম্যাটগুলি এখনও ব্যাপকভাবে গ্রহণ করতে পারেনি। এই পদ্ধতিটি প্রাথমিকভাবে আধুনিক ডেটা স্ট্যাক (MDS) এর সাথে নেটিভ ইন্টিগ্রেশন থেকে উপকৃত হয়। যাইহোক, পূর্বে আলোচনা করা হয়েছে, আপস্ট্রিম সরঞ্জামগুলির গভীর শিক্ষার অ্যাপ্লিকেশনগুলির সাথে খাপ খাইয়ে নিতে মৌলিক পরিবর্তনের প্রয়োজন।  2.3 গভীর শিক্ষার জন্য অবজেক্ট স্টোরেজ  বড় অসংগঠিত ডেটাসেটগুলি সংরক্ষণের জন্য বর্তমান ক্লাউড-নেটিভ পছন্দ হল বস্তু সঞ্চয়স্থান যেমন AWS S3 [1], Google ক্লাউড স্টোরেজ (GCS) [3], অথবা MinIO [17]। অবজেক্ট স্টোরেজ বিতরণ করা নেটওয়ার্ক ফাইল সিস্টেমের উপর তিনটি প্রধান সুবিধা প্রদান করে। এগুলি হল (a) খরচ-দক্ষ, (b) মাপযোগ্য, এবং (c) একটি বিন্যাস-অজ্ঞেয়মূলক সংগ্রহস্থল হিসাবে কাজ করে৷ যাইহোক, ক্লাউড স্টোরেজগুলি ত্রুটি ছাড়াই নয়। প্রথমত, তারা উল্লেখযোগ্য লেটেন্সি ওভারহেড প্রবর্তন করে, বিশেষ করে যখন অনেক ছোট ফাইল যেমন টেক্সট বা JSON এর উপর পুনরাবৃত্তি করে। এর পরে, মেটাডেটা নিয়ন্ত্রণ ছাড়াই অসংগঠিত ডেটা ইনজেশন "ডেটা সোয়াম্প" তৈরি করতে পারে। উপরন্তু, অবজেক্ট স্টোরেজ অন্তর্নির্মিত সংস্করণ নিয়ন্ত্রণ আছে; ডেটা সায়েন্স ওয়ার্কফ্লোতে এটি খুব কমই ব্যবহৃত হয়। অবশেষে, প্রশিক্ষণের আগে অবজেক্ট স্টোরেজের ডেটা একটি ভার্চুয়াল মেশিনে কপি করা হয়, ফলে স্টোরেজ ওভারহেড এবং অতিরিক্ত খরচ হয়।  2.4 ডেটা লেকের দ্বিতীয় প্রজন্ম  ডেল্টা, আইসবার্গ, হুডি [27, 15, 10] এর নেতৃত্বে দ্বিতীয় প্রজন্মের ডেটা লেকগুলি নিম্নলিখিত প্রাথমিক বৈশিষ্ট্যগুলির সাথে ট্যাবুলার ফর্ম্যাট ফাইলগুলি পরিচালনা করে অবজেক্ট স্টোরেজ প্রসারিত করে।  (1)   একটি ট্যাবুলার ফরম্যাট ফাইলের উপরে একটি সারি সন্নিবেশ করা বা মুছে ফেলা। আপডেট অপারেশন:  (2)   : এসিআইডি বৈশিষ্ট্যের সাথে ডাউনস্ট্রিম ডেটা ইনজেশন এবং এসকিউএল ইন্টারফেস প্রকাশকারী কোয়েরি ইঞ্জিনের সাথে আপস্ট্রিম ইন্টিগ্রেশন। স্ট্রিমিং  (3)   পশ্চাদগামী সামঞ্জস্য রক্ষা করার সময় কলামার কাঠামোর বিকাশ। স্কিমা বিবর্তন:  (4)   রোলব্যাক সম্পত্তি সহ ঐতিহাসিক অবস্থা সংরক্ষণ করা যেখানে প্রশ্নগুলি পুনরুত্পাদনযোগ্য হতে পারে। এছাড়াও, ডেটা বংশের উপর সারি-স্তরের নিয়ন্ত্রণের জন্য সমর্থন। সময় ভ্রমণ এবং অডিট লগ ট্রেইলিং:  (5)   কাস্টম অর্ডার সমর্থন সহ ফাইলের আকার এবং ডেটা কমপ্যাকশন অপ্টিমাইজ করার জন্য অন্তর্নির্মিত বৈশিষ্ট্য। উল্লেখযোগ্যভাবে অনুসন্ধানের গতি বাড়ায়। লেআউট অপ্টিমাইজেশান:  যাইহোক, দ্বিতীয় প্রজন্মের ডেটা লেকগুলি এখনও গভীর শিক্ষায় ব্যবহার করা সহজাত ডেটা বিন্যাসের সীমাবদ্ধতা দ্বারা আবদ্ধ, যেমনটি পূর্বে অধ্যায় 2.2-এ আলোচনা করা হয়েছে। তাই এই কাগজে, আমরা চিত্র 2-এ দেখানো ML লাইফসাইকেল সম্পূর্ণ করার জন্য কোয়েরি, ভিজ্যুয়ালাইজেশন এবং গভীর শিক্ষার কাঠামোর সাথে নেটিভ ইন্টিগ্রেশন সহ বিন্যাস এবং আপস্ট্রিম বৈশিষ্ট্যগুলি পুনর্বিবেচনার মাধ্যমে গভীর শিক্ষার ব্যবহারের ক্ষেত্রে ডেটা লেকের ক্ষমতার দ্বিতীয় প্রজন্মকে প্রসারিত করি। .  এই কাগজটি CC 4.0 লাইসেন্সের অধীনে   । arxiv-এ উপলব্ধ

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Dataology.TECH

Dataology is the study of data. We publish the highest quality university papers & blog posts about the essence of data.

Dataology

গল্পের মূল ভাষায় এই অডিও তৈরি!

গভীর লেক, গভীর শিক্ষার জন্য একটি লেকহাউস: বর্তমান চ্যালেঞ্জ

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

অদেখা স্তরগুলি: কেন ব্যবহারকারীর সাক্ষাত্কারগুলি একটি অপরিবর্তনীয় সম্পদ

সেলিং দ্য ওয়াটারস: ডেটা লেক সহ প্রোডাকশন-গ্রেড RAG অ্যাপ্লিকেশন তৈরি করা

ব্যবহারকারী-কেন্দ্রিক ক্রিপ্টো পণ্য তৈরি করা: গ্রাহক প্রতিক্রিয়ার গুরুত্ব

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

অদেখা স্তরগুলি: কেন ব্যবহারকারীর সাক্ষাত্কারগুলি একটি অপরিবর্তনীয় সম্পদ

সেলিং দ্য ওয়াটারস: ডেটা লেক সহ প্রোডাকশন-গ্রেড RAG অ্যাপ্লিকেশন তৈরি করা

ব্যবহারকারী-কেন্দ্রিক ক্রিপ্টো পণ্য তৈরি করা: গ্রাহক প্রতিক্রিয়ার গুরুত্ব

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps