paint-brush
আপনার AI পরিকাঠামোর জন্য একটি আধুনিক ডেটালেক তৈরি করার সময় যে নীতিগুলি মাথায় রাখতে হবেদ্বারা@minio
12,626 পড়া
12,626 পড়া

আপনার AI পরিকাঠামোর জন্য একটি আধুনিক ডেটালেক তৈরি করার সময় যে নীতিগুলি মাথায় রাখতে হবে

দ্বারা MinIO5m2024/02/06
Read on Terminal Reader
Read this story w/o Javascript

অতিদীর্ঘ; পড়তে

এআই গেমটি স্কেলে পারফরম্যান্স সম্পর্কে, এবং এর জন্য সঠিক ভিত্তি প্রয়োজন। একটি আধুনিক ডেটালেক তৈরি করার সময় কীভাবে স্মার্ট হতে হবে এবং সঠিক ভিত্তি স্থাপন করতে হবে তা এখানে।

People Mentioned

Mention Thumbnail
featured image - আপনার AI পরিকাঠামোর জন্য একটি আধুনিক ডেটালেক তৈরি করার সময় যে নীতিগুলি মাথায় রাখতে হবে
MinIO HackerNoon profile picture
0-item


AI গ্রহণ করার আগ্রহের মধ্যে একটি সমালোচনামূলক এবং প্রায়শই উপেক্ষা করা সত্য - যেকোনো AI উদ্যোগের সাফল্য অন্তর্নিহিত ডেটা পরিকাঠামোর গুণমান, নির্ভরযোগ্যতা এবং কার্যকারিতার সাথে অন্তর্নিহিতভাবে আবদ্ধ। আপনার যদি সঠিক ভিত্তি না থাকে, তাহলে আপনি যা তৈরি করতে পারেন এবং সেইজন্য আপনি কী অর্জন করতে পারেন তার মধ্যে সীমাবদ্ধ।


আপনার ডেটা পরিকাঠামো হল সেই ভিত্তি যার উপর আপনার সম্পূর্ণ AI পরিকাঠামো তৈরি করা হয়েছে। এটি যেখানে ডেটা সংগ্রহ, সংরক্ষণ, প্রক্রিয়াকরণ এবং রূপান্তরিত হয়। তত্ত্বাবধানে থাকা, তত্ত্বাবধান না করা এবং রিইনফোর্সমেন্ট লার্নিং ব্যবহার করে প্রশিক্ষণের মডেলগুলির জন্য স্টোরেজ সলিউশনের প্রয়োজন হয় যা স্ট্রাকচার্ড ডেটা পরিচালনা করতে পারে - যেমন একটি ডেটা গুদাম। অন্যদিকে, আপনি যদি লার্জ ল্যাঙ্গুয়েজ মডেল (এলএলএম) প্রশিক্ষণ দিচ্ছেন, তাহলে আপনাকে অবশ্যই অসংগঠিত ডেটা - নথিগুলি তাদের কাঁচা এবং প্রক্রিয়াকৃত আকারে পরিচালনা করতে হবে।


একটি আধুনিক ডাটালেক, বা লেকহাউস, এআই-এর এই ভিন্ন স্বাদের উভয়ের ভিত্তি। একটি আধুনিক ডেটালেক হল এক-অর্ধেক ডেটা গুদাম এবং এক-অর্ধেক ডেটা লেক এবং সবকিছুর জন্য অবজেক্ট স্টোরেজ ব্যবহার করে। অতি সম্প্রতি, আমরা ওপেন টেবিল ফরম্যাটের উত্থান দেখেছি। Apache Iceberg, Apache Hudi, এবং Delta Lake এর মত ওপেন টেবিল ফরম্যাটগুলি (OTFs) ডেটা গুদামের মধ্যে অবজেক্ট স্টোরেজ ব্যবহার করার জন্য এটিকে বিরামহীন করে তোলে।


ডাটালকে


এই নিবন্ধের বাকি অংশটি পরীক্ষা করবে যে কীভাবে আধুনিক ডেটালেকের বৈশিষ্ট্যগুলিকে ব্যবহার করা যায় যা এটিকে মালিকানাধীন ডেটা গুদাম এবং যন্ত্রপাতিগুলির মতো প্রচলিত সমাধান থেকে আলাদা করে৷ এআই অবকাঠামোর ভিত্তি তৈরি করতে আপনার নিম্নলিখিতগুলি প্রয়োজন:


  • কম্পিউট এবং স্টোরেজের ডিস্যাগ্রিগেশন
  • স্কেল আউট (উপরে নয়)
  • সফ্টওয়্যার সংজ্ঞায়িত
  • ক্লাউড নেটিভ
  • কমোডিটি হার্ডওয়্যার


যদি আমরা উপরের বিষয়ে একমত হই, তাহলে সেরা অনুশীলনের একটি সিরিজ আবির্ভূত হয় যা কর্মক্ষমতার দুটি ক্ষেত্রে ফোকাস করে। অন্তর্ভুক্ত করা হলে, আধুনিক ডাটালেক দ্রুত এবং মাপযোগ্য উভয়ই হবে। এই সেরা অনুশীলন অন্তর্ভুক্ত:


  • ড্রাইভ মূল্য এবং কর্মক্ষমতা অপ্টিমাইজ করা
  • একটি উচ্চ-গতির নেটওয়ার্ক অন্তর্ভুক্ত করুন

কম্পিউট এবং স্টোরেজকে আলাদা করা

আপনার ডেটা পরিকাঠামোর মধ্যে গণনা এবং সঞ্চয়স্থান বিচ্ছিন্ন করার অর্থ হল গণনা এবং স্টোরেজের জন্য পৃথক সংস্থান ব্যবহার করা হয়। এটি প্রচলিত স্টোরেজ সমাধানগুলির বিপরীতে, যেখানে সবকিছু একটি একক সার্ভারে প্যাকেজ করা হয় বা আরও খারাপ, একটি যন্ত্র। যাইহোক, আধুনিক ডেটালেকগুলি ভিন্নতাকে অন্য স্তরে নিয়ে যায়। যদি ডেটা লেক এবং ডেটা গুদামের সম্পূর্ণ আলাদা সঞ্চয়স্থানের প্রয়োজনীয়তা থাকে তবে আমরা একটি বস্তুর দোকানের দুটি পৃথক উদাহরণ ব্যবহার করতে পারি, যেমনটি নীচে দেখানো হয়েছে।


মিনিও ডাটালকে


অতিরিক্তভাবে, যদি ডেটা ওয়্যারহাউসকে এমন ওয়ার্কলোড সমর্থন করতে হয় যার জন্য বিরোধপূর্ণ কনফিগারেশন প্রয়োজন, তাহলে আপনি একাধিক প্রসেসিং ইঞ্জিন ব্যবহার করতে পারেন। এটি নীচে দেখানো হয়েছে।


সাপোর্টিং ওয়ার্কলোড


একটি সংমিশ্রণযোগ্য অবকাঠামো আপনাকে স্বাধীনভাবে আপনার গণনা এবং স্টোরেজ সংস্থানগুলিকে স্কেল করতে দেয়। এর অর্থ হল আপনি আপনার পরিকাঠামোর অংশে আরও সংস্থান বরাদ্দ করতে পারেন যেটির জন্য এটির সবচেয়ে বেশি প্রয়োজন কম্পিউট এবং স্টোরেজ উভয়কে একসাথে আপগ্রেড করার পরিবর্তে। আপনি শুধুমাত্র প্রয়োজনীয় সংস্থানগুলিতে বিনিয়োগ করার কারণে এটি ব্যয়-কার্যকর স্কেলিং এর ফলাফল।

স্কেল-আউট নট আপ

এআই ওয়ার্কলোডগুলি ডেটা নিবিড়, প্রায়শই একাধিক CPU বা GPU তে বিতরণ করা হয়, প্রশিক্ষণের জন্য প্রচুর গণনা শক্তি ব্যবহার করে এবং রিয়েল-টাইম ইনফারেন্সের প্রয়োজন হয়। স্কেলিং আউট, আপ না, কর্মক্ষমতা অপ্টিমাইজ করতে এবং উচ্চ-গতির নেটওয়ার্কগুলিকে মিটমাট করতে সহায়তা করে৷


স্কেল আউট এবং স্কেল আপ আপনার ডেটা পরিকাঠামোর ক্ষমতা এবং কর্মক্ষমতা বাড়ানোর জন্য দুটি ভিন্ন পদ্ধতি। যাইহোক, কুবারনেটসের মতো ক্লাস্টারিং প্ল্যাটফর্মে অগ্রগতি হওয়ায় এবং আরও বেশি সংখ্যক সমাধান ক্লাউড নেটিভ হওয়ার চেষ্টা করায় স্কেল আউট করা আরও কার্যকর পদ্ধতি হিসাবে প্রমাণিত হচ্ছে। একটি বিচ্ছিন্ন পরিকাঠামোতে স্কেলিং প্রদান করে:


উচ্চ উপলব্ধতা এবং ত্রুটি সহনশীলতা - একটি নোড ব্যস্ত থাকলে, অন্য নোড একটি নতুন অনুরোধ গ্রহণ করতে পারে, অপেক্ষার সময় হ্রাস করে এবং থ্রুপুট বৃদ্ধি করে। একটি নোড ব্যর্থ হলে, কাজের চাপ অন্য নোডে স্থানান্তরিত করা যেতে পারে, ডাউনটাইম হ্রাস করে এবং ধারাবাহিকতা নিশ্চিত করে।


কর্মক্ষমতা এবং নমনীয়তা - বৃহত্তর পরিমাণে ডেটা এবং আরও সমসাময়িক অনুরোধগুলি পরিচালনা করার জন্য একাধিক নোড বা সার্ভার জুড়ে কাজের চাপ বিতরণ করে স্কেলিং আউট আরও ভাল কার্যক্ষমতা প্রদান করতে পারে। স্কেল আউট করা আরও নমনীয় কারণ আপনি প্রয়োজন অনুসারে নোডগুলি যোগ বা মুছে ফেলতে পারেন, যা ওঠানামা করা কাজের চাপের সাথে সামঞ্জস্য করা বা ঋতুগত পরিবর্তনগুলিকে মিটমাট করা সহজ করে তোলে।


কার্যক্ষম এবং সম্পদ দক্ষ - আপনি যখন স্কেল আউট করেন তখন রক্ষণাবেক্ষণ এবং আপগ্রেডগুলি সরলীকৃত হয়। আপগ্রেডের জন্য একটি জটিল সিস্টেম অফলাইনে নেওয়ার পরিবর্তে, আপনি সম্পূর্ণ পরিকাঠামোকে ব্যাহত না করে পৃথক স্টোরেজ বা গণনা নোডগুলিতে রক্ষণাবেক্ষণ করতে পারেন।

ক্লাউড নেটিভ + সফ্টওয়্যার সংজ্ঞায়িত

এআই-এর জন্য একটি শক্তিশালী ভিত্তি তৈরি করতে আধুনিক ডেটালাকে ব্যবহার করার শেষ উপাদানটি একটি ক্লাউড-নেটিভ, সফ্টওয়্যার-সংজ্ঞায়িত পদ্ধতি গ্রহণ করছে।


ডকারের মতো ধারক এবং কুবারনেটসের মতো কন্টেইনার অর্কেস্ট্রেশন সরঞ্জামগুলি ক্লাউড-নেটিভ আর্কিটেকচারকে সম্ভব করে তোলে। একটি আধুনিক ডাটালেকের সমস্ত উপাদান কুবারনেটসে চলা পাত্রে চলে। অতএব, একটি আধুনিক Datalak মেঘ স্থানীয় হয়.


"সফ্টওয়্যার-সংজ্ঞায়িত" এমন একটি পদ্ধতিকে বোঝায় যেখানে সফ্টওয়্যার হার্ডওয়্যার উপাদানগুলির কনফিগারেশন, কার্যকারিতা এবং আচরণ নিয়ন্ত্রণ করে এবং পরিচালনা করে, প্রায়শই কম্পিউটার সিস্টেম এবং নেটওয়ার্কিংয়ের প্রসঙ্গে। এটি কোড আন্দোলন হিসাবে অবকাঠামোর বিল্ডিং ব্লক যেখানে স্মার্ট সফ্টওয়্যার এবং বোবা দ্রুত হার্ডওয়্যারের উপর জোর দেওয়া হয়। সফ্টওয়্যার-সংজ্ঞায়িত স্টোরেজ সফ্টওয়্যারের মাধ্যমে স্টোরেজ সংস্থানগুলিকে বিমূর্ত করে এবং পরিচালনা করে, যা বিভিন্ন ডিভাইস এবং স্টোরেজ মিডিয়া জুড়ে স্টোরেজ ক্ষমতা বরাদ্দ এবং পরিচালনা সহজ করে তোলে।

গতির জন্য তৈরি: NVMe এবং 100GbE

আপনার পণ্য হার্ডওয়্যার এবং সফ্টওয়্যার-সংজ্ঞায়িত আর্কিটেকচারের সম্পূর্ণ সুবিধা নিতে - আপনার আরও দুটি মূল টুকরা প্রয়োজন। প্রথমটি হল NVMe ড্রাইভ। আধুনিক, কর্মক্ষমতা ভিত্তিক কাজের চাপ, পঠন/লেখার এলোমেলো প্রকৃতি, ছোট বস্তুর উত্থান এবং এসএসডি মূল্য হ্রাস সবই একটির পক্ষে NVMe কেন্দ্রিক আর্কিটেকচার . সেই গণিত করুন, আপফ্রন্ট বেশি হতে পারে, TCO কম হবে।


দ্বিতীয় উপাদান হল 100GbE নেটওয়ার্কিং। একটি সফ্টওয়্যার-সংজ্ঞায়িত বিশ্বে, নেটওয়ার্কটি 100GbE-তেও অনেক সেটআপে বাধা হয়ে দাঁড়ায়৷ এখানে সেই পরিস্থিতিতে কিছু আছে:


ডেটা ইনটেনসিভ - এআই ওয়ার্কলোডগুলি প্রায়শই বিশাল ডেটাসেট প্রক্রিয়া করে, যেমন ছবি, ভিডিও, প্রাকৃতিক ভাষা পাঠ্য এবং সেন্সর ডেটা। হাই-স্পিড নেটওয়ার্কগুলি স্টোরেজ এবং প্রসেসিং ইউনিটের মধ্যে এই বৃহৎ ডেটাসেটগুলিকে দ্রুত স্থানান্তর করতে পারে, ডেটা স্থানান্তরের বাধাগুলি হ্রাস করে।


ডিস্ট্রিবিউটেড কম্পিউটিং - অনেক AI টাস্কে একাধিক CPU বা GPU তে ডিস্ট্রিবিউটেড কম্পিউটিং জড়িত। উচ্চ-গতির নেটওয়ার্কগুলি এই ডিভাইসগুলির মধ্যে দক্ষ যোগাযোগ এবং ডেটা বিনিময় সক্ষম করে, কম্পিউটিং ক্লাস্টারগুলি কার্যকরভাবে সমান্তরালভাবে কাজ করে তা নিশ্চিত করে।


মডেল ট্রেনিং - গভীর শিক্ষার মডেল, বিশেষ করে এলএলএম যেমন ট্রান্সফরমার বা কনভোল্যুশনাল নিউরাল নেটওয়ার্কের প্রশিক্ষণের জন্য প্রচুর ডেটা এবং কম্পিউটেশনাল শক্তির প্রয়োজন হয়। একটি উচ্চ-গতির নেটওয়ার্ক বিতরণ করা জিপিইউগুলির মধ্যে দ্রুত ডেটা লোডিং এবং সিঙ্ক্রোনাইজেশনের অনুমতি দেয়, যা প্রশিক্ষণের সময়কে উল্লেখযোগ্যভাবে গতি দিতে পারে।


রিয়েল-টাইম ইনফরেন্স - কম লেটেন্সি এবং হাই-থ্রুপুট নেটওয়ার্কগুলি প্রতিক্রিয়াশীল অ্যাপ্লিকেশনগুলির জন্য প্রয়োজনীয় যা AI অন্তর্ভুক্ত করে৷ একটি উচ্চ-গতির নেটওয়ার্ক ব্যবহারকারীর অনুরোধ এবং একটি মডেলের প্রতিক্রিয়ার মধ্যে ন্যূনতম বিলম্ব নিশ্চিত করে।

ভিত্তিগত ধারণা

এই নীতিগুলি মেনে চলার মাধ্যমে: গণনা এবং স্টোরেজ, স্কেল-আউট, নট আপ, ডাম্ব, ফাস্ট হার্ডওয়্যার এবং স্মার্ট ক্লাউড নেটিভ সফ্টওয়্যারগুলির বিচ্ছিন্নকরণ এন্টারপ্রাইজ একটি আধুনিক ডেটালেক তৈরি করতে পারে যা এই প্রয়োজনীয়তাগুলি পূরণ করার এবং আপনার AI উদ্যোগগুলিকে এগিয়ে নেওয়ার জন্য সঠিক ভিত্তি রয়েছে। এগিয়ে


আপনি একটি দুর্বল ভিত্তির উপর একটি ভবন নির্মাণ করতে পারবেন না, শুধু প্রাচীন মিশরীয়দের জিজ্ঞাসা করুন। এআই গেমটি স্কেলে পারফরম্যান্স সম্পর্কে, এবং এর জন্য সঠিক ভিত্তি প্রয়োজন। ফাউন্ডেশনে এগোনোর অর্থ হল প্রযুক্তিগত ঋণ জমা করা যা কয়েক মিনিটের পরে আপনার জেঙ্গা টাওয়ারকে ভেঙে ফেলবে। স্মার্ট তৈরি করুন, জায়গায় ভিত্তি রাখুন।