paint-brush
ডিপ লেক, গভীর শিক্ষার জন্য একটি লেকহাউস: মেশিন লার্নিং ব্যবহারের ক্ষেত্রেদ্বারা@dataology
209 পড়া

ডিপ লেক, গভীর শিক্ষার জন্য একটি লেকহাউস: মেশিন লার্নিং ব্যবহারের ক্ষেত্রে

দ্বারা Dataology: Study of Data in Computer Science
Dataology: Study of Data in Computer Science HackerNoon profile picture

Dataology: Study of Data in Computer Science

@dataology

Dataology is the study of data. We publish the highest...

4 মিনিট read2024/06/05
Read on Terminal Reader
Read this story in a terminal
Print this story

অতিদীর্ঘ; পড়তে

গবেষকরা ডিপ লেকের সাথে পরিচয় করিয়ে দেন, গভীর শিক্ষার জন্য একটি ওপেন সোর্স লেকহাউস, জটিল ডেটা স্টোরেজ অপ্টিমাইজ করে এবং গভীর শিক্ষার কাঠামোর জন্য স্ট্রিমিং।
featured image - ডিপ লেক, গভীর শিক্ষার জন্য একটি লেকহাউস: মেশিন লার্নিং ব্যবহারের ক্ষেত্রে
Dataology: Study of Data in Computer Science HackerNoon profile picture
Dataology: Study of Data in Computer Science

Dataology: Study of Data in Computer Science

@dataology

Dataology is the study of data. We publish the highest quality university papers & blog posts about the essence of data.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

লেখক:

(1) Sasun Hambardzumyan, Activeloop, Mountain View, CA, USA;

(2) অভিনব তুলি, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, সিএ, ইউএসএ;

(3) Levon Ghukasyan, Activeloop, Mountain View, CA, USA;

(4) ফারিজ রহমান, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;।

(5) Hrant Topchyan, Activeloop, Mountain View, CA, USA;

(6) ডেভিড ইসায়ান, অ্যাক্টিভলুপ, মাউন্টেন ভিউ, CA, USA;

(7) Mark McQuade, Activeloop, Mountain View, CA, USA;

(8) Mikayel Harutyunyan, Activeloop, Mountain View, CA, USA;

(9) Tatevik Hakobyan, Activeloop, Mountain View, CA, USA;

(10) Ivo Stranic, Activeloop, Mountain View, CA, USA;

(11) Davit Buniatyan, Activeloop, Mountain View, CA, USA.

লিঙ্কের টেবিল

5. মেশিন লার্নিং ব্যবহারের ক্ষেত্রে

এই বিভাগে, আমরা ডিপ লেকের অ্যাপ্লিকেশনগুলি পর্যালোচনা করি।


একটি ডিপ লার্নিং অ্যাপ্লিকেশনের একটি সাধারণ দৃশ্যের সাথে শুরু হয়


(1) ফাইলগুলির একটি কাঁচা সেট যা একটি বস্তু স্টোরেজ বালতিতে সংগ্রহ করা হয়। এটিতে ছবি, ভিডিও এবং অন্যান্য ধরণের মাল্টিমিডিয়া ডেটা তাদের নেটিভ ফরম্যাটে যেমন JPEG, PNG বা MP4 অন্তর্ভুক্ত থাকতে পারে।


(2) কোনো সম্পর্কিত মেটাডেটা এবং লেবেল একটি রিলেশনাল ডাটাবেসে সংরক্ষিত। ঐচ্ছিকভাবে, CSV, JSON, বা Parquet ফরম্যাটের মতো স্বাভাবিক সারণী আকারে কাঁচা ডেটা সহ একই বালতিতে সেগুলি সংরক্ষণ করা যেতে পারে।


চিত্র 4 এ দেখানো হয়েছে, একটি খালি ডিপ লেক ডেটাসেট তৈরি করা হয়েছে। তারপরে, খালি টেনসরগুলি কাঁচা ডেটার পাশাপাশি মেটাডেটা উভয় সংরক্ষণের জন্য সংজ্ঞায়িত করা হয়। টেনসর সংখ্যা নির্বিচারে হতে পারে। একটি ইমেজ ক্লাসিফিকেশন টাস্কের একটি মৌলিক উদাহরণে দুটি টেনসর থাকবে,


• h টাইপ 𝑖𝑚𝑎𝑔𝑒 এবং JPEG এর নমুনা কম্প্রেশন সহ চিত্র টেনসর


• 𝑐𝑙𝑎𝑠𝑠_𝑙𝑎𝑏𝑒𝑙 এবং LZ4 এর খণ্ড কম্প্রেশন সহ লেবেল টেনসর।


টেনসর ঘোষণা করার পরে, ডেটা ডেটাসেটে যুক্ত করা যেতে পারে। যদি একটি কাঁচা চিত্র কম্প্রেশন টেনসর নমুনা সংকোচনের সাথে মেলে, বাইনারিটি অতিরিক্ত ডিকোডিং ছাড়াই সরাসরি একটি খণ্ডে অনুলিপি করা হয়। লেবেল ডেটা একটি এসকিউএল কোয়েরি বা CSV টেবিল থেকে একটি শ্রেণীবদ্ধ পূর্ণসংখ্যাতে বের করা হয় এবং লেবেল টেনসরে যুক্ত করা হয়। লেবেল টেনসর খণ্ডগুলি LZ4 কম্প্রেশন ব্যবহার করে সংরক্ষণ করা হয়। সমস্ত ডিপ লেক ডেটা বালতিতে সংরক্ষণ করা হয় এবং স্বয়ংসম্পূর্ণ। স্টোরেজের পরে, ডেটা একটি NumPy ইন্টারফেসে বা স্ট্রীমযোগ্য ডিপ লার্নিং ডেটালোডার হিসাবে অ্যাক্সেস করা যেতে পারে। তারপরে, একটি কম্পিউট মেশিনে চলমান মডেলটি ইমেজ টেনসরের স্রোতে পুনরাবৃত্তি করে এবং মডেলটির আউটপুটকে ভবিষ্যদ্বাণী নামে একটি নতুন টেনসরে সঞ্চয় করে। তদ্ব্যতীত, আমরা নীচে আলোচনা করি যে কীভাবে একজনকে প্রশিক্ষণ দেওয়া যায়, সংস্করণ নিয়ন্ত্রণ করা যায়, প্রশ্ন করা যায় এবং একটি ডিপ লেক ডেটাসেটের গুণমান পরিদর্শন করা যায়।

5.1 ডিপ লার্নিং মডেল ট্রেনিং

ডিপ লার্নিং মডেলগুলিকে একটি প্রতিষ্ঠানে একাধিক স্তরে প্রশিক্ষিত করা হয়, যার মধ্যে রয়েছে ব্যক্তিগত কম্পিউটারে অন্বেষণমূলক প্রশিক্ষণ থেকে শুরু করে বৃহৎ আকারের প্রশিক্ষণ যা অনেকগুলি জিপিইউ যুক্ত ডিস্ট্রিবিউটেড মেশিনে ঘটে। দীর্ঘমেয়াদী স্টোরেজ থেকে প্রশিক্ষণ ক্লায়েন্টের কাছে ডেটা আনতে যে সময় এবং প্রচেষ্টা প্রয়োজন তা প্রায়শই প্রশিক্ষণের সাথেই তুলনীয়। ডিপ লেক ডাউনস্ট্রিম প্রশিক্ষণ প্রক্রিয়ায় বাধা না দিয়ে দ্রুত ডেটা স্ট্রিমিং সক্ষম করে এই সমস্যার সমাধান করে, এইভাবে স্থানীয় স্টোরেজে ডেটা নকল করার জন্য প্রয়োজনীয় খরচ এবং সময় এড়িয়ে যায়।

5.2 ডেটা লাইনেজ এবং সংস্করণ নিয়ন্ত্রণ

নতুন ডেটা যুক্ত হওয়ার সাথে সাথে গভীর শিক্ষার ডেটা ক্রমাগত বিকশিত হয় এবং বিদ্যমান ডেটা গুণমান নিয়ন্ত্রিত হয়। ডেটা পরিবর্তনের সময় বিশ্লেষণাত্মক এবং প্রশিক্ষণের কাজের চাপ সমান্তরালভাবে ঘটে। অতএব, ডেটা এবং মডেল পারফরম্যান্সের মধ্যে সম্পর্ক বোঝার জন্য প্রদত্ত কাজের চাপ দ্বারা কোন ডেটা সংস্করণ ব্যবহার করা হয়েছিল তা জানা গুরুত্বপূর্ণ। ডিপ লেক গভীর শিক্ষার অনুশীলনকারীদের বুঝতে সক্ষম করে যে তাদের ডেটার কোন সংস্করণটি কোন বিশ্লেষণাত্মক কাজের চাপে ব্যবহৃত হয়েছে এবং যদি একটি অডিটের প্রয়োজন হয় তবে এই সংস্করণগুলি জুড়ে সময় ভ্রমণ করতে। যেহেতু সমস্ত ডেটা পরিবর্তনযোগ্য, তাই সম্মতি-সম্পর্কিত গোপনীয়তার প্রয়োজনীয়তাগুলি পূরণ করতে এটি সম্পাদনা করা যেতে পারে। কোডের জন্য গিট-এর মতো, ডিপ লেকও ডেটা শাখার ধারণা প্রবর্তন করে, সহকর্মীদের কাজকে প্রভাবিত না করেই ডেটা পরীক্ষা এবং সম্পাদনা করার অনুমতি দেয়।

5.3 ডেটা অনুসন্ধান এবং বিশ্লেষণ

গভীর শিক্ষার মডেলের প্রশিক্ষণ খুব কমই একটি নির্দিষ্ট অ্যাপ্লিকেশনের জন্য একটি সংস্থা দ্বারা সংগৃহীত সমস্ত ডেটাতে ঘটে। প্রশিক্ষণ ডেটাসেটগুলি প্রায়শই মডেলের কর্মক্ষমতা বৃদ্ধির শর্তগুলির উপর ভিত্তি করে কাঁচা ডেটা ফিল্টার করে তৈরি করা হয়, যার মধ্যে প্রায়শই ডেটা ভারসাম্য, অপ্রয়োজনীয় ডেটা নির্মূল করা বা নির্দিষ্ট বৈশিষ্ট্য রয়েছে এমন ডেটা নির্বাচন করা হয়। ডিপ লেক ডেটা অনুসন্ধান এবং বিশ্লেষণ করার জন্য সরঞ্জামগুলি সরবরাহ করে যাতে গভীর শিক্ষার প্রকৌশলীরা সর্বোচ্চ নির্ভুলতার মডেল তৈরি করে ডেটাসেট তৈরি করতে পারে।

5.4 ডেটা পরিদর্শন এবং গুণমান নিয়ন্ত্রণ

যদিও তত্ত্বাবধানহীন শিক্ষা বাস্তব জগতের ব্যবহারের ক্ষেত্রে আরও বেশি প্রযোজ্য হয়ে উঠছে, তবুও বেশিরভাগ গভীর শিক্ষার অ্যাপ্লিকেশনগুলি এখনও তত্ত্বাবধানে শিক্ষার উপর নির্ভর করে। যেকোন তত্ত্বাবধানে থাকা শিক্ষা ব্যবস্থা তার ডেটার গুণমানের মতোই ভাল, প্রায়শই ডেটার ম্যানুয়াল এবং সম্পূর্ণ পরিদর্শনের মাধ্যমে অর্জন করা হয়। যেহেতু এই প্রক্রিয়াটি সময়সাপেক্ষ, তাই খুব দ্রুত বিপুল পরিমাণ ডেটা পরীক্ষা করার জন্য মানুষকে লুপের মধ্যে থাকা সরঞ্জামগুলি প্রদান করা গুরুত্বপূর্ণ। ডিপ লেক কোনো সেটআপ সময় বা ডেটা ডাউনলোড করার প্রয়োজন ছাড়াই ব্রাউজার থেকে যেকোনো আকারের ডিপ লার্নিং ডেটাসেটগুলি পরিদর্শন করার অনুমতি দেয়। তদ্ব্যতীত, স্থল সত্যের সাথে মডেল ফলাফলের তুলনা করার জন্য সরঞ্জামগুলি প্রসারিত করা যেতে পারে। ক্যোয়ারী এবং সংস্করণ নিয়ন্ত্রণের সাথে মিলিত, এটি সর্বোত্তম সম্ভাব্য মডেল অর্জনের জন্য ডেটার পুনরাবৃত্তিমূলক উন্নতিতে প্রয়োগ করা যেতে পারে।


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


L O A D I N G
. . . comments & more!

About Author

Dataology: Study of Data in Computer Science HackerNoon profile picture
Dataology: Study of Data in Computer Science@dataology
Dataology is the study of data. We publish the highest quality university papers & blog posts about the essence of data.

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
X REMOVE AD