AI গ্রহণ করার আগ্রহের মধ্যে একটি সমালোচনামূলক এবং প্রায়শই উপেক্ষা করা সত্য - যেকোনো AI উদ্যোগের সাফল্য অন্তর্নিহিত ডেটা পরিকাঠামোর গুণমান, নির্ভরযোগ্যতা এবং কার্যকারিতার সাথে অন্তর্নিহিতভাবে আবদ্ধ। আপনার যদি সঠিক ভিত্তি না থাকে, তাহলে আপনি যা তৈরি করতে পারেন এবং সেইজন্য আপনি কী অর্জন করতে পারেন তার মধ্যে সীমাবদ্ধ।
আপনার ডেটা পরিকাঠামো হল সেই ভিত্তি যার উপর আপনার সম্পূর্ণ AI পরিকাঠামো তৈরি করা হয়েছে। এটি যেখানে ডেটা সংগ্রহ, সংরক্ষণ, প্রক্রিয়াকরণ এবং রূপান্তরিত হয়। তত্ত্বাবধানে থাকা, তত্ত্বাবধান না করা এবং রিইনফোর্সমেন্ট লার্নিং ব্যবহার করে প্রশিক্ষণের মডেলগুলির জন্য স্টোরেজ সলিউশনের প্রয়োজন হয় যা স্ট্রাকচার্ড ডেটা পরিচালনা করতে পারে - যেমন একটি ডেটা গুদাম। অন্যদিকে, আপনি যদি লার্জ ল্যাঙ্গুয়েজ মডেল (এলএলএম) প্রশিক্ষণ দিচ্ছেন, তাহলে আপনাকে অবশ্যই অসংগঠিত ডেটা - নথিগুলি তাদের কাঁচা এবং প্রক্রিয়াকৃত আকারে পরিচালনা করতে হবে।
একটি আধুনিক ডাটালেক, বা লেকহাউস, এআই-এর এই ভিন্ন স্বাদের উভয়ের ভিত্তি। একটি আধুনিক ডেটালেক হল এক-অর্ধেক ডেটা গুদাম এবং এক-অর্ধেক ডেটা লেক এবং সবকিছুর জন্য অবজেক্ট স্টোরেজ ব্যবহার করে। অতি সম্প্রতি, আমরা ওপেন টেবিল ফরম্যাটের উত্থান দেখেছি। Apache Iceberg, Apache Hudi, এবং Delta Lake এর মত ওপেন টেবিল ফরম্যাটগুলি (OTFs) ডেটা গুদামের মধ্যে অবজেক্ট স্টোরেজ ব্যবহার করার জন্য এটিকে বিরামহীন করে তোলে।
এই নিবন্ধের বাকি অংশটি পরীক্ষা করবে যে কীভাবে আধুনিক ডেটালেকের বৈশিষ্ট্যগুলিকে ব্যবহার করা যায় যা এটিকে মালিকানাধীন ডেটা গুদাম এবং যন্ত্রপাতিগুলির মতো প্রচলিত সমাধান থেকে আলাদা করে৷ এআই অবকাঠামোর ভিত্তি তৈরি করতে আপনার নিম্নলিখিতগুলি প্রয়োজন:
যদি আমরা উপরের বিষয়ে একমত হই, তাহলে সেরা অনুশীলনের একটি সিরিজ আবির্ভূত হয় যা কর্মক্ষমতার দুটি ক্ষেত্রে ফোকাস করে। অন্তর্ভুক্ত করা হলে, আধুনিক ডাটালেক দ্রুত এবং মাপযোগ্য উভয়ই হবে। এই সেরা অনুশীলন অন্তর্ভুক্ত:
আপনার ডেটা পরিকাঠামোর মধ্যে গণনা এবং সঞ্চয়স্থান বিচ্ছিন্ন করার অর্থ হল গণনা এবং স্টোরেজের জন্য পৃথক সংস্থান ব্যবহার করা হয়। এটি প্রচলিত স্টোরেজ সমাধানগুলির বিপরীতে, যেখানে সবকিছু একটি একক সার্ভারে প্যাকেজ করা হয় বা আরও খারাপ, একটি যন্ত্র। যাইহোক, আধুনিক ডেটালেকগুলি ভিন্নতাকে অন্য স্তরে নিয়ে যায়। যদি ডেটা লেক এবং ডেটা গুদামের সম্পূর্ণ আলাদা সঞ্চয়স্থানের প্রয়োজনীয়তা থাকে তবে আমরা একটি বস্তুর দোকানের দুটি পৃথক উদাহরণ ব্যবহার করতে পারি, যেমনটি নীচে দেখানো হয়েছে।
অতিরিক্তভাবে, যদি ডেটা ওয়্যারহাউসকে এমন ওয়ার্কলোড সমর্থন করতে হয় যার জন্য বিরোধপূর্ণ কনফিগারেশন প্রয়োজন, তাহলে আপনি একাধিক প্রসেসিং ইঞ্জিন ব্যবহার করতে পারেন। এটি নীচে দেখানো হয়েছে।
একটি সংমিশ্রণযোগ্য অবকাঠামো আপনাকে স্বাধীনভাবে আপনার গণনা এবং স্টোরেজ সংস্থানগুলিকে স্কেল করতে দেয়। এর অর্থ হল আপনি আপনার পরিকাঠামোর অংশে আরও সংস্থান বরাদ্দ করতে পারেন যেটির জন্য এটির সবচেয়ে বেশি প্রয়োজন কম্পিউট এবং স্টোরেজ উভয়কে একসাথে আপগ্রেড করার পরিবর্তে। আপনি শুধুমাত্র প্রয়োজনীয় সংস্থানগুলিতে বিনিয়োগ করার কারণে এটি ব্যয়-কার্যকর স্কেলিং এর ফলাফল।
এআই ওয়ার্কলোডগুলি ডেটা নিবিড়, প্রায়শই একাধিক CPU বা GPU তে বিতরণ করা হয়, প্রশিক্ষণের জন্য প্রচুর গণনা শক্তি ব্যবহার করে এবং রিয়েল-টাইম ইনফারেন্সের প্রয়োজন হয়। স্কেলিং আউট, আপ না, কর্মক্ষমতা অপ্টিমাইজ করতে এবং উচ্চ-গতির নেটওয়ার্কগুলিকে মিটমাট করতে সহায়তা করে৷
স্কেল আউট এবং স্কেল আপ আপনার ডেটা পরিকাঠামোর ক্ষমতা এবং কর্মক্ষমতা বাড়ানোর জন্য দুটি ভিন্ন পদ্ধতি। যাইহোক, কুবারনেটসের মতো ক্লাস্টারিং প্ল্যাটফর্মে অগ্রগতি হওয়ায় এবং আরও বেশি সংখ্যক সমাধান ক্লাউড নেটিভ হওয়ার চেষ্টা করায় স্কেল আউট করা আরও কার্যকর পদ্ধতি হিসাবে প্রমাণিত হচ্ছে। একটি বিচ্ছিন্ন পরিকাঠামোতে স্কেলিং প্রদান করে:
উচ্চ উপলব্ধতা এবং ত্রুটি সহনশীলতা - একটি নোড ব্যস্ত থাকলে, অন্য নোড একটি নতুন অনুরোধ গ্রহণ করতে পারে, অপেক্ষার সময় হ্রাস করে এবং থ্রুপুট বৃদ্ধি করে। একটি নোড ব্যর্থ হলে, কাজের চাপ অন্য নোডে স্থানান্তরিত করা যেতে পারে, ডাউনটাইম হ্রাস করে এবং ধারাবাহিকতা নিশ্চিত করে।
কর্মক্ষমতা এবং নমনীয়তা - বৃহত্তর পরিমাণে ডেটা এবং আরও সমসাময়িক অনুরোধগুলি পরিচালনা করার জন্য একাধিক নোড বা সার্ভার জুড়ে কাজের চাপ বিতরণ করে স্কেলিং আউট আরও ভাল কার্যক্ষমতা প্রদান করতে পারে। স্কেল আউট করা আরও নমনীয় কারণ আপনি প্রয়োজন অনুসারে নোডগুলি যোগ বা মুছে ফেলতে পারেন, যা ওঠানামা করা কাজের চাপের সাথে সামঞ্জস্য করা বা ঋতুগত পরিবর্তনগুলিকে মিটমাট করা সহজ করে তোলে।
কার্যক্ষম এবং সম্পদ দক্ষ - আপনি যখন স্কেল আউট করেন তখন রক্ষণাবেক্ষণ এবং আপগ্রেডগুলি সরলীকৃত হয়। আপগ্রেডের জন্য একটি জটিল সিস্টেম অফলাইনে নেওয়ার পরিবর্তে, আপনি সম্পূর্ণ পরিকাঠামোকে ব্যাহত না করে পৃথক স্টোরেজ বা গণনা নোডগুলিতে রক্ষণাবেক্ষণ করতে পারেন।
এআই-এর জন্য একটি শক্তিশালী ভিত্তি তৈরি করতে আধুনিক ডেটালাকে ব্যবহার করার শেষ উপাদানটি একটি ক্লাউড-নেটিভ, সফ্টওয়্যার-সংজ্ঞায়িত পদ্ধতি গ্রহণ করছে।
ডকারের মতো ধারক এবং কুবারনেটসের মতো কন্টেইনার অর্কেস্ট্রেশন সরঞ্জামগুলি ক্লাউড-নেটিভ আর্কিটেকচারকে সম্ভব করে তোলে। একটি আধুনিক ডাটালেকের সমস্ত উপাদান কুবারনেটসে চলা পাত্রে চলে। অতএব, একটি আধুনিক Datalak মেঘ স্থানীয় হয়.
"সফ্টওয়্যার-সংজ্ঞায়িত" এমন একটি পদ্ধতিকে বোঝায় যেখানে সফ্টওয়্যার হার্ডওয়্যার উপাদানগুলির কনফিগারেশন, কার্যকারিতা এবং আচরণ নিয়ন্ত্রণ করে এবং পরিচালনা করে, প্রায়শই কম্পিউটার সিস্টেম এবং নেটওয়ার্কিংয়ের প্রসঙ্গে। এটি কোড আন্দোলন হিসাবে অবকাঠামোর বিল্ডিং ব্লক যেখানে স্মার্ট সফ্টওয়্যার এবং বোবা দ্রুত হার্ডওয়্যারের উপর জোর দেওয়া হয়। সফ্টওয়্যার-সংজ্ঞায়িত স্টোরেজ সফ্টওয়্যারের মাধ্যমে স্টোরেজ সংস্থানগুলিকে বিমূর্ত করে এবং পরিচালনা করে, যা বিভিন্ন ডিভাইস এবং স্টোরেজ মিডিয়া জুড়ে স্টোরেজ ক্ষমতা বরাদ্দ এবং পরিচালনা সহজ করে তোলে।
আপনার পণ্য হার্ডওয়্যার এবং সফ্টওয়্যার-সংজ্ঞায়িত আর্কিটেকচারের সম্পূর্ণ সুবিধা নিতে - আপনার আরও দুটি মূল টুকরা প্রয়োজন। প্রথমটি হল NVMe ড্রাইভ। আধুনিক, কর্মক্ষমতা ভিত্তিক কাজের চাপ, পঠন/লেখার এলোমেলো প্রকৃতি, ছোট বস্তুর উত্থান এবং এসএসডি মূল্য হ্রাস সবই একটির পক্ষে
দ্বিতীয় উপাদান হল 100GbE নেটওয়ার্কিং। একটি সফ্টওয়্যার-সংজ্ঞায়িত বিশ্বে, নেটওয়ার্কটি 100GbE-তেও অনেক সেটআপে বাধা হয়ে দাঁড়ায়৷ এখানে সেই পরিস্থিতিতে কিছু আছে:
ডেটা ইনটেনসিভ - এআই ওয়ার্কলোডগুলি প্রায়শই বিশাল ডেটাসেট প্রক্রিয়া করে, যেমন ছবি, ভিডিও, প্রাকৃতিক ভাষা পাঠ্য এবং সেন্সর ডেটা। হাই-স্পিড নেটওয়ার্কগুলি স্টোরেজ এবং প্রসেসিং ইউনিটের মধ্যে এই বৃহৎ ডেটাসেটগুলিকে দ্রুত স্থানান্তর করতে পারে, ডেটা স্থানান্তরের বাধাগুলি হ্রাস করে।
ডিস্ট্রিবিউটেড কম্পিউটিং - অনেক AI টাস্কে একাধিক CPU বা GPU তে ডিস্ট্রিবিউটেড কম্পিউটিং জড়িত। উচ্চ-গতির নেটওয়ার্কগুলি এই ডিভাইসগুলির মধ্যে দক্ষ যোগাযোগ এবং ডেটা বিনিময় সক্ষম করে, কম্পিউটিং ক্লাস্টারগুলি কার্যকরভাবে সমান্তরালভাবে কাজ করে তা নিশ্চিত করে।
মডেল ট্রেনিং - গভীর শিক্ষার মডেল, বিশেষ করে এলএলএম যেমন ট্রান্সফরমার বা কনভোল্যুশনাল নিউরাল নেটওয়ার্কের প্রশিক্ষণের জন্য প্রচুর ডেটা এবং কম্পিউটেশনাল শক্তির প্রয়োজন হয়। একটি উচ্চ-গতির নেটওয়ার্ক বিতরণ করা জিপিইউগুলির মধ্যে দ্রুত ডেটা লোডিং এবং সিঙ্ক্রোনাইজেশনের অনুমতি দেয়, যা প্রশিক্ষণের সময়কে উল্লেখযোগ্যভাবে গতি দিতে পারে।
রিয়েল-টাইম ইনফরেন্স - কম লেটেন্সি এবং হাই-থ্রুপুট নেটওয়ার্কগুলি প্রতিক্রিয়াশীল অ্যাপ্লিকেশনগুলির জন্য প্রয়োজনীয় যা AI অন্তর্ভুক্ত করে৷ একটি উচ্চ-গতির নেটওয়ার্ক ব্যবহারকারীর অনুরোধ এবং একটি মডেলের প্রতিক্রিয়ার মধ্যে ন্যূনতম বিলম্ব নিশ্চিত করে।
এই নীতিগুলি মেনে চলার মাধ্যমে: গণনা এবং স্টোরেজ, স্কেল-আউট, নট আপ, ডাম্ব, ফাস্ট হার্ডওয়্যার এবং স্মার্ট ক্লাউড নেটিভ সফ্টওয়্যারগুলির বিচ্ছিন্নকরণ এন্টারপ্রাইজ একটি আধুনিক ডেটালেক তৈরি করতে পারে যা এই প্রয়োজনীয়তাগুলি পূরণ করার এবং আপনার AI উদ্যোগগুলিকে এগিয়ে নেওয়ার জন্য সঠিক ভিত্তি রয়েছে। এগিয়ে
আপনি একটি দুর্বল ভিত্তির উপর একটি ভবন নির্মাণ করতে পারবেন না, শুধু প্রাচীন মিশরীয়দের জিজ্ঞাসা করুন। এআই গেমটি স্কেলে পারফরম্যান্স সম্পর্কে, এবং এর জন্য সঠিক ভিত্তি প্রয়োজন। ফাউন্ডেশনে এগোনোর অর্থ হল প্রযুক্তিগত ঋণ জমা করা যা কয়েক মিনিটের পরে আপনার জেঙ্গা টাওয়ারকে ভেঙে ফেলবে। স্মার্ট তৈরি করুন, জায়গায় ভিত্তি রাখুন।