লেখক:
(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, USA;
(2) অভিনব তুলি, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;
(3) Levon Ghukasyan, Activeloop, Mountain View, CA, USA;
(4) ফারিজ রহমান, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;।
(5) Hrant Topchyan, Activeloop, Mountain View, CA, USA;
(6) ডেভিড ইসায়ান, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;
(7) Mark McQuade, Activeloop, Mountain View, CA, USA;
(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, USA;
(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, USA;
(10) Ivo Stranic, Activeloop, Mountain View, CA, USA;
(11) Davit Buniatyan, Activeloop, Mountain View, CA, USA.
ডিপ লেকের প্রাথমিক ব্যবহারের ক্ষেত্রে রয়েছে (a) গভীর শিক্ষার মডেল প্রশিক্ষণ, (b) ডেটা লাইনেজ এবং সংস্করণ নিয়ন্ত্রণ, (c) ডেটা কোয়েরি, এবং বিশ্লেষণ, (d) ডেটা পরিদর্শন এবং গুণমান নিয়ন্ত্রণ। আমরা NumPy [55] অ্যারেগুলিকে একটি মৌলিক ব্লক হিসাবে নিয়েছি এবং প্রয়োগ করেছি
সংস্করণ নিয়ন্ত্রণ, স্ট্রিমিং ডেটালোডার, স্ক্র্যাচ থেকে ভিজ্যুয়ালাইজেশন ইঞ্জিন।
টেনসর স্টোরেজ ফরম্যাট (TSF) হল একটি বাইনারি ফাইল ফরম্যাট যা বিশেষভাবে টেনসর সংরক্ষণের জন্য ডিজাইন করা হয়েছে, যা অনেক মেশিন লার্নিং এবং ডিপ লার্নিং অ্যালগরিদমে ব্যবহৃত সংখ্যাসূচক মানের বহু-মাত্রিক অ্যারে। টিএসএফ ফরম্যাটটি দক্ষ এবং কমপ্যাক্ট হওয়ার জন্য ডিজাইন করা হয়েছে, যা দ্রুত এবং দক্ষ স্টোরেজ এবং টেনসর ডেটা অ্যাক্সেসের অনুমতি দেয়। টিএসএফ ফরম্যাটের একটি মূল সুবিধা হল এটি গতিশীল আকৃতির টেনসর সহ বিস্তৃত টেনসর ডেটা প্রকার সমর্থন করে।
তুলনামূলকভাবে, Parquet [79] এবং তীর [13] ফরম্যাট হল কলামার ফাইল ফরম্যাট যা বৃহৎ বিশ্লেষণাত্মক ডেটাসেট সংরক্ষণ ও প্রক্রিয়াকরণের জন্য ডিজাইন করা হয়েছে। TSF এর বিপরীতে, যা বিশেষভাবে টেনসর ডেটার জন্য ডিজাইন করা হয়েছে, Parquet এবং Arrow দক্ষ স্টোরেজ এবং টেবুলার এবং টাইম-সিরিজ ডেটাতে বিশ্লেষণাত্মক কাজের চাপের অনুসন্ধানের জন্য অপ্টিমাইজ করা হয়েছে। তারা কলামার স্টোরেজ এবং কম্প্রেশন কৌশল ব্যবহার করে স্টোরেজ স্পেস কমিয়ে দেয় এবং পারফরম্যান্স উন্নত করে, বড় ডেটা অ্যাপ্লিকেশনের জন্য উপযুক্ত করে তোলে। যাইহোক, টেনসর ডেটার ক্ষেত্রে TSF-এর কিছু সুবিধা রয়েছে Parquet এবং Arrow এর থেকে। টিএসএফ গভীর শিক্ষার কাঠামোতে টেনসর অপারেশন এবং দক্ষ স্ট্রিমিং সমর্থন করতে পারে।
অন্যান্য টেনসর বিন্যাস [18, 52, 23, 57] ব্যাপকভাবে ব্যাপকভাবে সমান্তরাল কাজের চাপের জন্য দক্ষ কারণ তাদের অংশগুলি জুড়ে সমন্বয়ের প্রয়োজন হয় না। টেনসর স্টোরেজ ফরম্যাট কী ট্রেড-অফ প্যাডিং মেমরি ফুটপ্রিন্ট ছাড়াই একটি টেনসরের ভিতরে গতিশীল আকারের অ্যারে সংরক্ষণ করতে সক্ষম করে। উদাহরণস্বরূপ, কম্পিউটার ভিশনে বিভিন্ন আকারের একাধিক ছবি বা ভিডিওর গতিশীল দৈর্ঘ্য থাকা খুবই সাধারণ। নমনীয়তা সমর্থন করার জন্য, ছোটখাট ওভারহেড পূর্বে আলোচিত খণ্ড এনকোডারের আকারে চালু করা হয়েছে যে অনুশীলনে আমরা উত্পাদন কাজের চাপের উপর প্রভাব লক্ষ্য করিনি।
ডিপ লেক স্থানীয় এবং দূরবর্তী সেটিংসে অত্যাধুনিক ফলাফল অর্জন করে, যেমনটি বড় চিত্রগুলিতে পুনরাবৃত্তি করার জন্য মানদণ্ডে দেখা যায় চিত্র 7. প্রাথমিকভাবে, এটি FFCV [৩৯] এর চেয়ে দ্রুততর হয়েছে, যা ইমেজনেট মডেল প্রশিক্ষণের একটি হ্রাস দাবি করেছে মডেল প্রশিক্ষণ প্রতি 98 সেন্ট পর্যন্ত। তদ্ব্যতীত, ডিপ লেক ওয়েবডেটাসেটের অনুরূপ ইনজেশন কর্মক্ষমতা অর্জন করে [19]। ডিপ লেক বড় ইমেজগুলিতে উল্লেখযোগ্যভাবে ছাড়িয়ে যায়। Parquet ছোট কোষ এবং বিশ্লেষণাত্মক কাজের জন্য অপ্টিমাইজ করা হয়, যখন ডিপ লেক বড়, গতিশীল আকৃতির টেনসোরিয়াল ডেটার জন্য অপ্টিমাইজ করা হয়। অন্যান্য ডেটা লেক সমাধানগুলির তুলনায়, এর ন্যূনতম পাইথন প্যাকেজ ডিজাইন ডিপ লেককে সহজেই বৃহৎ-স্কেল বিতরণ প্রশিক্ষণ বা অনুমান কাজের লোডের সাথে একীভূত করতে সক্ষম করে।
ডিপ লেকের বর্তমান বাস্তবায়নে আরও উন্নতির সুযোগ রয়েছে। প্রথমত, সঞ্চয়স্থান বিন্যাস ভেক্টর অনুসন্ধান বা কী-মান সূচীকরণের জন্য প্রয়োজনীয় আরও দক্ষ স্টোরেজ বিন্যাসের জন্য কাস্টম অর্ডারিং সমর্থন করে না। দ্বিতীয়ত, ডিপ লেক একযোগে অ্যাক্সেসের জন্য শাখা-ভিত্তিক তালা প্রয়োগ করে। ডেল্টা ACID লেনদেন মডেলের অনুরূপ [27], ডিপ লেককে উচ্চ কার্যকারিতা সমান্তরাল কাজের চাপে প্রসারিত করা যেতে পারে। তৃতীয়ত, TQL-এর বর্তমান বাস্তবায়ন শুধুমাত্র SQL অপারেশনের একটি উপসেটকে সমর্থন করে (অর্থাৎ, যোগদানের মতো অপারেশনগুলিকে সমর্থন করে না)। পরবর্তী কাজ এটিকে এসকিউএল-সম্পূর্ণ করা, আরও সংখ্যাসূচক ক্রিয়াকলাপের জন্য প্রসারিত করা, বাহ্যিক ডেটা উত্সগুলিতে ফেডারেটেড কোয়েরি চালানো এবং SQL ইঞ্জিনগুলির বিরুদ্ধে বেঞ্চমার্ক করার উপর ফোকাস করবে।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।