paint-brush
ডিপ লেক, গভীর শিক্ষার জন্য একটি লেকহাউস: মেশিন লার্নিং ব্যবহারের ক্ষেত্রেদ্বারা@dataology
197 পড়া

ডিপ লেক, গভীর শিক্ষার জন্য একটি লেকহাউস: মেশিন লার্নিং ব্যবহারের ক্ষেত্রে

দ্বারা Dataology: Study of Data in Computer Science4m2024/06/05
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

গবেষকরা ডিপ লেকের সাথে পরিচয় করিয়ে দেন, গভীর শিক্ষার জন্য একটি ওপেন সোর্স লেকহাউস, জটিল ডেটা স্টোরেজ অপ্টিমাইজ করে এবং গভীর শিক্ষার কাঠামোর জন্য স্ট্রিমিং।
featured image - ডিপ লেক, গভীর শিক্ষার জন্য একটি লেকহাউস: মেশিন লার্নিং ব্যবহারের ক্ষেত্রে
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

লেখক:

(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, USA;

(2) অভিনব তুলি, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, সিএ, ইউএসএ;

(3) Levon Ghukasyan, Activeloop, Mountain View, CA, USA;

(4) ফারিজ রহমান, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;।

(5) Hrant Topchyan, Activeloop, Mountain View, CA, USA;

(6) ডেভিড ইসায়ান, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;

(7) Mark McQuade, Activeloop, Mountain View, CA, USA;

(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, USA;

(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, USA;

(10) Ivo Stranic, Activeloop, Mountain View, CA, USA;

(11) Davit Buniatyan, Activeloop, Mountain View, CA, USA.

লিঙ্কের টেবিল

5. মেশিন লার্নিং ব্যবহারের ক্ষেত্রে

এই বিভাগে, আমরা ডিপ লেকের অ্যাপ্লিকেশনগুলি পর্যালোচনা করি।


একটি ডিপ লার্নিং অ্যাপ্লিকেশনের একটি সাধারণ দৃশ্যের সাথে শুরু হয়


(1) ফাইলগুলির একটি কাঁচা সেট যা একটি বস্তু স্টোরেজ বালতিতে সংগ্রহ করা হয়। এটিতে ছবি, ভিডিও এবং অন্যান্য ধরণের মাল্টিমিডিয়া ডেটা তাদের নেটিভ ফরম্যাটে যেমন JPEG, PNG বা MP4 অন্তর্ভুক্ত থাকতে পারে।


(2) কোনো সম্পর্কিত মেটাডেটা এবং লেবেল একটি রিলেশনাল ডাটাবেসে সংরক্ষিত। ঐচ্ছিকভাবে, CSV, JSON, বা Parquet ফরম্যাটের মতো স্বাভাবিক সারণী আকারে কাঁচা ডেটা সহ একই বালতিতে সেগুলি সংরক্ষণ করা যেতে পারে।


চিত্র 4 এ দেখানো হয়েছে, একটি খালি ডিপ লেক ডেটাসেট তৈরি করা হয়েছে। তারপরে, খালি টেনসরগুলি কাঁচা ডেটার পাশাপাশি মেটাডেটা উভয় সংরক্ষণের জন্য সংজ্ঞায়িত করা হয়। টেনসর সংখ্যা নির্বিচারে হতে পারে। একটি ইমেজ ক্লাসিফিকেশন টাস্কের একটি মৌলিক উদাহরণে দুটি টেনসর থাকবে,


• h টাইপ 𝑖𝑚𝑎𝑔𝑒 এবং JPEG এর নমুনা কম্প্রেশন সহ চিত্র টেনসর


• 𝑐𝑙𝑎𝑠𝑠_𝑙𝑎𝑏𝑒𝑙 এবং LZ4 এর খণ্ড কম্প্রেশন সহ লেবেল টেনসর।


টেনসর ঘোষণা করার পরে, ডেটা ডেটাসেটে যুক্ত করা যেতে পারে। যদি একটি কাঁচা চিত্র কম্প্রেশন টেনসর নমুনা সংকোচনের সাথে মেলে, বাইনারিটি অতিরিক্ত ডিকোডিং ছাড়াই সরাসরি একটি খণ্ডে অনুলিপি করা হয়। লেবেল ডেটা একটি এসকিউএল কোয়েরি বা CSV টেবিল থেকে একটি শ্রেণীবদ্ধ পূর্ণসংখ্যাতে বের করা হয় এবং লেবেল টেনসরে যুক্ত করা হয়। লেবেল টেনসর খণ্ডগুলি LZ4 কম্প্রেশন ব্যবহার করে সংরক্ষণ করা হয়। সমস্ত ডিপ লেক ডেটা বালতিতে সংরক্ষণ করা হয় এবং স্বয়ংসম্পূর্ণ। স্টোরেজের পরে, ডেটা একটি NumPy ইন্টারফেসে বা স্ট্রীমযোগ্য ডিপ লার্নিং ডেটালোডার হিসাবে অ্যাক্সেস করা যেতে পারে। তারপরে, একটি কম্পিউট মেশিনে চলমান মডেলটি ইমেজ টেনসরের স্রোতে পুনরাবৃত্তি করে এবং মডেলটির আউটপুটকে ভবিষ্যদ্বাণী নামে একটি নতুন টেনসরে সঞ্চয় করে। তদ্ব্যতীত, আমরা নীচে আলোচনা করি যে কীভাবে একজনকে প্রশিক্ষণ দেওয়া যায়, সংস্করণ নিয়ন্ত্রণ করা যায়, প্রশ্ন করা যায় এবং একটি ডিপ লেক ডেটাসেটের গুণমান পরিদর্শন করা যায়।

5.1 ডিপ লার্নিং মডেল ট্রেনিং

ডিপ লার্নিং মডেলগুলিকে একটি প্রতিষ্ঠানে একাধিক স্তরে প্রশিক্ষিত করা হয়, যার মধ্যে রয়েছে ব্যক্তিগত কম্পিউটারে অন্বেষণমূলক প্রশিক্ষণ থেকে শুরু করে বৃহৎ আকারের প্রশিক্ষণ যা অনেকগুলি জিপিইউ যুক্ত ডিস্ট্রিবিউটেড মেশিনে ঘটে। দীর্ঘমেয়াদী স্টোরেজ থেকে প্রশিক্ষণ ক্লায়েন্টের কাছে ডেটা আনতে যে সময় এবং প্রচেষ্টা প্রয়োজন তা প্রায়শই প্রশিক্ষণের সাথেই তুলনীয়। ডিপ লেক ডাউনস্ট্রিম প্রশিক্ষণ প্রক্রিয়ায় বাধা না দিয়ে দ্রুত ডেটা স্ট্রিমিং সক্ষম করে এই সমস্যার সমাধান করে, এইভাবে স্থানীয় স্টোরেজে ডেটা নকল করার জন্য প্রয়োজনীয় খরচ এবং সময় এড়িয়ে যায়।

5.2 ডেটা লাইনেজ এবং সংস্করণ নিয়ন্ত্রণ

নতুন ডেটা যুক্ত হওয়ার সাথে সাথে গভীর শিক্ষার ডেটা ক্রমাগত বিকশিত হয় এবং বিদ্যমান ডেটা গুণমান নিয়ন্ত্রিত হয়। ডেটা পরিবর্তনের সময় বিশ্লেষণাত্মক এবং প্রশিক্ষণের কাজের চাপ সমান্তরালভাবে ঘটে। অতএব, ডেটা এবং মডেল পারফরম্যান্সের মধ্যে সম্পর্ক বোঝার জন্য প্রদত্ত কাজের চাপ দ্বারা কোন ডেটা সংস্করণ ব্যবহার করা হয়েছিল তা জানা গুরুত্বপূর্ণ। ডিপ লেক গভীর শিক্ষার অনুশীলনকারীদের বুঝতে সক্ষম করে যে তাদের ডেটার কোন সংস্করণটি কোন বিশ্লেষণাত্মক কাজের চাপে ব্যবহৃত হয়েছে এবং যদি একটি অডিটের প্রয়োজন হয় তবে এই সংস্করণগুলি জুড়ে সময় ভ্রমণ করতে। যেহেতু সমস্ত ডেটা পরিবর্তনযোগ্য, তাই সম্মতি-সম্পর্কিত গোপনীয়তার প্রয়োজনীয়তাগুলি পূরণ করতে এটি সম্পাদনা করা যেতে পারে। কোডের জন্য গিট-এর মতো, ডিপ লেকও ডেটা শাখার ধারণা প্রবর্তন করে, সহকর্মীদের কাজকে প্রভাবিত না করেই ডেটা পরীক্ষা এবং সম্পাদনা করার অনুমতি দেয়।

5.3 ডেটা অনুসন্ধান এবং বিশ্লেষণ

গভীর শিক্ষার মডেলের প্রশিক্ষণ খুব কমই একটি নির্দিষ্ট অ্যাপ্লিকেশনের জন্য একটি সংস্থা দ্বারা সংগৃহীত সমস্ত ডেটাতে ঘটে। প্রশিক্ষণ ডেটাসেটগুলি প্রায়শই মডেলের কর্মক্ষমতা বৃদ্ধির শর্তগুলির উপর ভিত্তি করে কাঁচা ডেটা ফিল্টার করে তৈরি করা হয়, যার মধ্যে প্রায়শই ডেটা ভারসাম্য, অপ্রয়োজনীয় ডেটা নির্মূল করা বা নির্দিষ্ট বৈশিষ্ট্য রয়েছে এমন ডেটা নির্বাচন করা হয়। ডিপ লেক ডেটা অনুসন্ধান এবং বিশ্লেষণ করার জন্য সরঞ্জামগুলি সরবরাহ করে যাতে গভীর শিক্ষার প্রকৌশলীরা সর্বোচ্চ নির্ভুলতার মডেল তৈরি করে ডেটাসেট তৈরি করতে পারে।

5.4 ডেটা পরিদর্শন এবং গুণমান নিয়ন্ত্রণ

যদিও তত্ত্বাবধানহীন শিক্ষা বাস্তব জগতের ব্যবহারের ক্ষেত্রে আরও বেশি প্রযোজ্য হয়ে উঠছে, তবুও বেশিরভাগ গভীর শিক্ষার অ্যাপ্লিকেশনগুলি এখনও তত্ত্বাবধানে শিক্ষার উপর নির্ভর করে। যেকোন তত্ত্বাবধানে থাকা শিক্ষা ব্যবস্থা তার ডেটার গুণমানের মতোই ভাল, প্রায়শই ডেটার ম্যানুয়াল এবং সম্পূর্ণ পরিদর্শনের মাধ্যমে অর্জন করা হয়। যেহেতু এই প্রক্রিয়াটি সময়সাপেক্ষ, তাই খুব দ্রুত বিপুল পরিমাণ ডেটা পরীক্ষা করার জন্য মানুষকে লুপের মধ্যে থাকা সরঞ্জামগুলি প্রদান করা গুরুত্বপূর্ণ। ডিপ লেক কোনো সেটআপ সময় বা ডেটা ডাউনলোড করার প্রয়োজন ছাড়াই ব্রাউজার থেকে যেকোনো আকারের ডিপ লার্নিং ডেটাসেটগুলি পরিদর্শন করার অনুমতি দেয়। তদ্ব্যতীত, স্থল সত্যের সাথে মডেল ফলাফলের তুলনা করার জন্য সরঞ্জামগুলি প্রসারিত করা যেতে পারে। ক্যোয়ারী এবং সংস্করণ নিয়ন্ত্রণের সাথে মিলিত, এটি সর্বোত্তম সম্ভাব্য মডেল অর্জনের জন্য ডেটার পুনরাবৃত্তিমূলক উন্নতিতে প্রয়োগ করা যেতে পারে।


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ