paint-brush
আসল কারণ কেন AI অবজেক্ট স্টোরেজে তৈরি হয়দ্বারা@minio
7,297 পড়া
7,297 পড়া

আসল কারণ কেন AI অবজেক্ট স্টোরেজে তৈরি হয়

দ্বারা MinIO6m2024/08/29
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

MinIO অবজেক্ট স্টোর হল বিশাল অসংগঠিত ডেটা লেকের জন্য প্রকৃত মান। MinIO সমস্ত আধুনিক মেশিন লার্নিং ফ্রেমওয়ার্কের সাথে সামঞ্জস্যপূর্ণ। এটি 100% S3 API- সামঞ্জস্যপূর্ণ, তাই আপনি আপনার অন-প্রিমিস বা অন-ডিভাইস অবজেক্ট স্টোরের বিরুদ্ধে ML ওয়ার্কলোডগুলি সম্পাদন করতে পারেন।
featured image - আসল কারণ কেন AI অবজেক্ট স্টোরেজে তৈরি হয়
MinIO HackerNoon profile picture

1. অসংগঠিত ডেটার কোনও সীমা নেই৷

একটি সাধারণ (একক নোড) এআই মডেল প্রশিক্ষণ সেটআপ (পাইটর্চ অবজেক্ট স্টোর থেকে জিপিইউ ডেটা খাওয়ানো)


মেশিন লার্নিং এর বর্তমান দৃষ্টান্তে, কম্পিউটের সাথে পারফরম্যান্স এবং ক্ষমতার স্কেল, যা সত্যিই ডেটাসেটের আকার এবং মডেলের আকারের জন্য একটি প্রক্সি ( নিউরাল ল্যাঙ্গুয়েজ মডেলের জন্য স্কেলিং আইন , কাপলান এট। আল।)। বিগত কয়েক বছরে, এটি কীভাবে মেশিন লার্নিং এবং ডেটা পরিকাঠামো তৈরি করা হয় তাতে ব্যাপক পরিবর্তন এনেছে - যথা: স্টোরেজ এবং গণনার পৃথকীকরণ, অসংগঠিত ডেটাতে ভরা বিশাল ক্লাউড-নেটিভ ডেটা লেক নির্মাণ এবং বিশেষ হার্ডওয়্যার যা করতে পারে সত্যিই দ্রুত ম্যাট্রিক্স গুণন না.


যখন একটি প্রশিক্ষণ ডেটাসেট, বা এমনকি একটি ডেটাসেটের একটি পৃথক শর্ডের জন্য সিস্টেম মেমরি এবং/অথবা স্থানীয় স্টোরেজের তুলনায় বেশি জায়গার প্রয়োজন হয়, তখন কম্পিউট থেকে স্টোরেজ ডিকপলিং করার গুরুত্ব স্পষ্টভাবে স্পষ্ট হয়ে ওঠে। MinIO অবজেক্ট স্টোরে থাকা ডেটার প্রশিক্ষণের সময়, আপনার প্রশিক্ষণের ডেটা আকারের কোনও সীমা নেই৷ সরলতা এবং I/O থ্রুপুটের উপর MinIO-এর ফোকাস করার কারণে, এটি এমন নেটওয়ার্ক যা প্রশিক্ষণের গতি এবং GPU ব্যবহারের জন্য একমাত্র সীমাবদ্ধ ফ্যাক্টর হয়ে ওঠে।


যেকোনো অবজেক্ট স্টোরের সেরা পারফরম্যান্সের সামর্থ্যের পাশাপাশি, MinIO সমস্ত আধুনিক মেশিন লার্নিং ফ্রেমওয়ার্কের সাথে সামঞ্জস্যপূর্ণ। MinIO অবজেক্ট স্টোরটি 100% S3 API-সামঞ্জস্যপূর্ণ, তাই আপনি TorchData এর মতো পরিচিত ডেটাসেট ইউটিলিটিগুলি ব্যবহার করে আপনার অন-প্রিমিস বা অন-ডিভাইস অবজেক্ট স্টোরের বিরুদ্ধে ML ওয়ার্কলোডগুলি সম্পাদন করতে পারেন। S3 ডেটাপাইপ . ইভেন্টে যেখানে ফাইল-সিস্টেম-এর মতো ক্ষমতা আপনার গ্রাসকারী অ্যাপ্লিকেশনের জন্য প্রয়োজন, আপনি এমনকি অবজেক্ট স্টোর ফাইল ইন্টারফেসের মতো MinIO ব্যবহার করতে পারেন মাউন্টপয়েন্ট S3 বা S3FS . ভবিষ্যতের একটি ব্লগ পোস্টে, আমরা কিছু সাধারণ PyTorch এবং FairSeq ইন্টারফেসের (যথাক্রমে ডেটাসেট এবং টাস্ক) কাস্টম বাস্তবায়নে MinIO পাইথন SDK ব্যবহার করব যাতে মডেল প্রশিক্ষণের জন্য 'কোন সীমা নেই' প্রশিক্ষণ ডেটা এবং উচ্চ GPU ব্যবহার সক্ষম করতে।


আধুনিক ML স্ট্যাকের সাথে কর্মক্ষমতা এবং সামঞ্জস্যের বাইরে, অবজেক্ট স্টোরেজের ডিজাইন পছন্দ, যথা (1) একটি ফ্ল্যাট নেমস্পেস, (2) সর্বনিম্ন লজিক্যাল সত্তা হিসাবে সমগ্র বস্তুর এনক্যাপসুলেশন (এবং এর মেটাডেটা) এবং (3) সহজ এইচটিটিপি ক্রিয়া এপিআই, যা বস্তুর সঞ্চয়স্থানকে বিশাল অসংগঠিত ডেটা লেকের জন্য ডি ফ্যাক্টো স্ট্যান্ডার্ডে পরিণত করেছে। মেশিন লার্নিং এর সাম্প্রতিক ইতিহাসের দিকে নজর দিলে দেখা যায় যে প্রশিক্ষণের ডেটা (এবং এক অর্থে, মডেল আর্কিটেকচার নিজেই) কম কাঠামোগত এবং আরও সাধারণ হয়ে উঠেছে। এটি এমন ছিল যে মডেলগুলি প্রধানত ট্যাবুলার ডেটাতে প্রশিক্ষিত ছিল। আজকাল, প্লেইন টেক্সটের অনুচ্ছেদ থেকে ভিডিওর ঘন্টা পর্যন্ত অনেক বিস্তৃত পরিসর রয়েছে। মডেল আর্কিটেকচার এবং ML অ্যাপ্লিকেশনগুলি বিকশিত হওয়ার সাথে সাথে অবজেক্ট স্টোরের স্টেটলেস, স্কিমা-হীন, এবং ফলস্বরূপ, স্কেলেবল প্রকৃতি কেবল আরও সমালোচনামূলক হয়ে ওঠে।

2. মডেল এবং ডেটাসেটের জন্য সমৃদ্ধ মেটাডেটা

মেটাডেটা ডেটাসেটের ট্যাগিং এবং একটি মডেল চেকপয়েন্টের পরিসংখ্যান বর্ণনা করতে সক্ষম করে।


MinIO অবজেক্ট স্টোরের ডিজাইন পছন্দের কারণে, প্রতিটি বস্তুতে কর্মক্ষমতা ত্যাগ না করে বা একটি ডেডিকেটেড মেটাডেটা সার্ভার ব্যবহারের প্রয়োজন ছাড়াই সমৃদ্ধ, স্কিমা-লেস মেটাডেটা থাকতে পারে। আপনি আপনার অবজেক্টে কি ধরনের মেটাডেটা যোগ করতে চান তা নিয়ে আসলে কল্পনাই একমাত্র সীমা। যাইহোক, এখানে কিছু ধারণা রয়েছে যা বিশেষ করে এমএল-সম্পর্কিত বস্তুর জন্য উপযোগী হতে পারে:

মডেল চেকপয়েন্টের জন্য : ক্ষতি ফাংশন মান, প্রশিক্ষণের জন্য সময় নেওয়া, প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেট।


ডেটাসেটের জন্য: পেয়ার করা ইনডেক্স ফাইলের নাম (প্রযোজ্য হলে), ডেটাসেট বিভাগ (ট্রেন, বৈধতা, পরীক্ষা), ডেটাসেটের ফর্ম্যাট সম্পর্কে তথ্য।

এই ধরনের উচ্চ বর্ণনামূলক মেটাডেটা বিশেষভাবে শক্তিশালী হতে পারে যখন এই মেটাডেটাকে দক্ষতার সাথে সূচীকরণ এবং অনুসন্ধান করার ক্ষমতার সাথে যুক্ত করা হয়, এমনকি বিলিয়ন অবজেক্ট জুড়ে, এমন কিছু যা MinIO এন্টারপ্রাইজ ক্যাটালগ affords উদাহরণস্বরূপ, আপনি "পরীক্ষিত" হিসাবে ট্যাগ করা মডেল চেকপয়েন্টগুলির জন্য বা একটি নির্দিষ্ট ডেটাসেটে প্রশিক্ষণপ্রাপ্ত চেকপয়েন্টগুলির জন্য অনুসন্ধান করতে পারেন৷

3. মডেল এবং ডেটাসেটগুলি উপলব্ধ, নিরীক্ষণযোগ্য এবং সংস্করণযোগ্য


যেহেতু মেশিন লার্নিং মডেল এবং তাদের ডেটাসেটগুলি ক্রমবর্ধমান সমালোচনামূলক সম্পদে পরিণত হয়েছে, তাই এই সম্পদগুলিকে এমনভাবে সংরক্ষণ করা এবং পরিচালনা করাও গুরুত্বপূর্ণ হয়ে উঠেছে যা ত্রুটি-সহনশীল, নিরীক্ষণযোগ্য এবং সংস্করণযোগ্য।


ডেটাসেট এবং মডেলগুলি যেগুলি তাদের উপর প্রশিক্ষণ দেয় সেগুলি হল মূল্যবান সম্পদ যা সময়, প্রকৌশলী প্রচেষ্টা এবং অর্থের পরিশ্রম-অর্জিত পণ্য৷ তদনুসারে, সেগুলিকে এমনভাবে সুরক্ষিত করা উচিত যা অ্যাপ্লিকেশনগুলির দ্বারা অ্যাক্সেসকে আটকে রাখে না৷ MinIO-এর ইনলাইন ক্রিয়াকলাপ যেমন বিট্রট চেকিং এবং ইরেজার কোডিং, মাল্টি-সাইট, সক্রিয়-সক্রিয় প্রতিলিপির মতো বৈশিষ্ট্যগুলির সাথে এই বস্তুগুলির স্কেলে স্থিতিস্থাপকতা নিশ্চিত করে।


বিশেষ করে জেনারেটিভ এআই-এর সাথে, যে কোনও ডেটাসেটের কোন সংস্করণ ব্যবহার করা হয়েছে তা জেনে রাখা একটি নির্দিষ্ট মডেলকে প্রশিক্ষণের জন্য ব্যবহার করা হয়েছে যা হ্যালুসিনেশন এবং অন্যান্য মডেলের খারাপ আচরণ ডিবাগ করার সময় সহায়ক। মডেল চেকপয়েন্ট সঠিকভাবে সংস্করণ করা হলে, চেকপয়েন্টের পূর্বে পরিবেশিত সংস্করণে দ্রুত রোলব্যাক বিশ্বাস করা সহজ হয়ে যায়। MinIO অবজেক্ট স্টোরের সাথে, আপনি বাক্সের বাইরে আপনার বস্তুর জন্য এই সুবিধাগুলি পাবেন।

4. মালিকানাধীন পরিবেশন পরিকাঠামো

অনুমানের জন্য সাধারণ মডেল পরিবেশন নিদর্শন। বাম দিকে, তৃতীয় পক্ষের মডেল সংগ্রহস্থলের উপর নির্ভর করে এবং ডানদিকে, আপনার নিজের চেকপয়েন্ট স্টোরের উপর নির্ভর করে।


MinIO অবজেক্ট স্টোর হল, মৌলিকভাবে, একটি অবজেক্ট স্টোর যা আপনি বা আপনার সংস্থা নিয়ন্ত্রণ করেন। ব্যবহার-কেস প্রোটোটাইপিং, নিরাপত্তা, নিয়ন্ত্রক, বা জন্য কিনা অর্থনৈতিক উদ্দেশ্য , নিয়ন্ত্রণ হল সাধারণ থ্রেড। তদনুসারে, যদি প্রশিক্ষিত মডেলের চেকপয়েন্টগুলি অবজেক্ট স্টোরে থাকে তবে এটি আপনাকে অনুমান বা ব্যবহারের জন্য মডেলগুলি পরিবেশন করার কাজের উপর আরও বেশি নিয়ন্ত্রণ প্রদান করে।


আগের পোস্টে , আমরা অবজেক্ট স্টোরে মডেল ফাইলগুলি সংরক্ষণ করার সুবিধাগুলি এবং PyTorch থেকে TorchServe ইনফারেন্স ফ্রেমওয়ার্কের সাথে কীভাবে সরাসরি সেগুলি পরিবেশন করা যায় তা অন্বেষণ করেছি৷ যাইহোক, এটি একটি সম্পূর্ণ মডেল এবং কাঠামো-অজ্ঞেয়বাদী কৌশল।


কিন্তু কেন এই ব্যাপার? থার্ড-পার্টি মডেল রিপোজিটরিগুলিতে নেটওয়ার্ক ল্যাগ বা বিভ্রাটগুলি অনুমানের জন্য পরিবেশিত হতে মডেলগুলিকে ধীর করে দিতে পারে বা সম্পূর্ণরূপে অনুপলব্ধ হতে পারে। তদ্ব্যতীত, একটি উত্পাদন পরিবেশে যেখানে অনুমান সার্ভারগুলি স্কেলিং করছে এবং নিয়মিতভাবে মডেল চেকপয়েন্টগুলি টানতে হবে, এই সমস্যাটি আরও বাড়িয়ে তুলতে পারে। সবচেয়ে নিরাপদ এবং/অথবা জটিল পরিস্থিতিতে, ইন্টারনেটের উপর তৃতীয় পক্ষের নির্ভরতা এড়াতে পারলে ভালো হয়। একটি ব্যক্তিগত বা হাইব্রিড ক্লাউড অবজেক্ট স্টোর হিসাবে MinIO এর সাথে, এই সমস্যাগুলি সম্পূর্ণরূপে এড়ানো সম্ভব।

ক্লোজিং থটস

ভবিষ্যতের ডেটা পরিকাঠামোর AI এর চিত্রায়ন, রোবট এবং ... উইন্ডমিল দিয়ে সম্পূর্ণ?


এই চারটি কারণ কোনোভাবেই একটি সম্পূর্ণ তালিকা নয়। বিকাশকারীরা এবং সংস্থাগুলি তাদের AI কাজের চাপের জন্য MinIO অবজেক্ট স্টোরেজ ব্যবহার করে বিভিন্ন কারণে, যার মধ্যে উন্নয়নের সহজতা থেকে শুরু করে এর সুপার লাইট ফুটপ্রিন্ট।


এই পোস্টের শুরুতে, আমরা AI এর জন্য উচ্চ কার্যকারিতা অবজেক্ট স্টোর গ্রহণের পিছনে চালিকা শক্তিগুলিকে কভার করেছি। স্কেলিং আইনগুলি থাকুক বা না থাকুক, যা অবশ্যই সত্য হতে চলেছে তা হল যে সংস্থাগুলি এবং তাদের এআই কাজের চাপগুলি সর্বদা উপলব্ধ সেরা I/O থ্রুপুট ক্ষমতা থেকে উপকৃত হবে। এর পাশাপাশি, আমরা মোটামুটি আত্মবিশ্বাসী হতে পারি যে ডেভেলপাররা কখনই এমন API-এর জন্য জিজ্ঞাসা করবে না যা ব্যবহার করা কঠিন এবং সফ্টওয়্যার যা 'শুধু কাজ করে না ।' যে কোনো ভবিষ্যতে যেখানে এই অনুমান ধরে, উচ্চ কর্মক্ষমতা বস্তুর দোকান উপায়.


যেকোন স্থপতি এবং ইঞ্জিনিয়ারিং সিদ্ধান্ত গ্রহণকারীদের জন্য এটি পড়ার জন্য, এখানে উল্লিখিত অনেকগুলি সর্বোত্তম অনুশীলনগুলি স্বয়ংক্রিয় হতে পারে যাতে অবজেক্ট স্টোরেজ এমনভাবে লিভারেজ করা যায় যা আপনার AI/ML ওয়ার্কফ্লোকে সহজ এবং আরও মাপযোগ্য করে তোলে। এটি আধুনিক MLOps টুল সেটগুলির যেকোনো একটি ব্যবহারের মাধ্যমে করা যেতে পারে। AI/ML SME কিথ পিজানোস্কি এই টুলগুলির অনেকগুলি অন্বেষণ করেছেন - MLOps টুলিং সম্পর্কে আরও তথ্যের জন্য Kubeflow, MLflow এবং MLRun-এর জন্য আমাদের ব্লগ সাইট অনুসন্ধান করুন৷ যাইহোক, যদি এই MLOps টুলগুলি আপনার প্রতিষ্ঠানের জন্য একটি বিকল্প না হয় এবং আপনাকে দ্রুত এগিয়ে যেতে হবে, তাহলে এই পোস্টে দেখানো কৌশলগুলি হল MinIO এর সাথে আপনার AI/ML কর্মপ্রবাহ পরিচালনা শুরু করার সর্বোত্তম উপায়।


ডেভেলপারদের জন্য (বা যে কেউ আগ্রহী 🙂), ভবিষ্যতের ব্লগ পোস্টে, আমরা 'কোন সীমাবদ্ধতা নেই' প্রশিক্ষণের ডেটা এবং সঠিক GPU ব্যবহারের লক্ষ্য নিয়ে অবজেক্ট স্টোরের সুবিধা নেওয়ার জন্য একটি ML ফ্রেমওয়ার্ককে অভিযোজিত করার জন্য এন্ড-টু-এন্ড ওয়াকথ্রু করব।


পড়ার জন্য ধন্যবাদ, আমি আশা করি এটি তথ্যপূর্ণ ছিল! বরাবরের মত, যদি আপনার কোন প্রশ্ন থাকে আমাদের যোগদান স্ল্যাক চ্যানেল অথবা আমাদের একটি নোট ড্রপ [email protected] .