আমি আগে সম্পর্কে লিখেছিলাম
আধুনিক ডেটা লেক, কখনও কখনও ডেটা লেকহাউস হিসাবে উল্লেখ করা হয়, এটি এক-অর্ধেক ডেটা লেক এবং এক-অর্ধেক ওপেন টেবিল ফরম্যাট স্পেসিফিকেশন (OTF)-ভিত্তিক ডেটা গুদাম। উভয়ই আধুনিক অবজেক্ট স্টোরেজের উপর নির্মিত।
একইসঙ্গে, আমরা গভীরভাবে চিন্তা করেছি যে কীভাবে সংস্থাগুলি AI ডেটা পরিকাঠামো তৈরি করতে পারে যা আপনার সমস্ত AI/ML চাহিদাগুলিকে সমর্থন করতে পারে — শুধুমাত্র আপনার প্রশিক্ষণ সেট, বৈধতা সেট এবং পরীক্ষার সেটগুলির কাঁচা স্টোরেজ নয়। অন্য কথায়, এটিতে বড় ভাষা মডেল, MLOps টুলিং, বিতরণ করা প্রশিক্ষণ এবং আরও অনেক কিছু প্রশিক্ষণের জন্য প্রয়োজনীয় গণনা থাকা উচিত। চিন্তার এই লাইনের ফলস্বরূপ, আমরা কীভাবে আধুনিক ডেটা লেক ব্যবহার করতে হয় সে সম্পর্কে আরও একটি কাগজ একসাথে রেখেছি
সূত্র:
উভয় কাগজপত্র নির্দিষ্ট বিক্রেতা বা সরঞ্জাম উল্লেখ করে না. আমি এখন আধুনিক ডেটা লেক তৈরির জন্য প্রয়োজনীয় বিক্রেতা এবং সরঞ্জামগুলি নিয়ে আলোচনা করতে চাই৷ এই শীর্ষ-10 তালিকায়, প্রতিটি এন্ট্রি হল একটি ক্ষমতা যা জেনারেটিভ এআই সমর্থন করার জন্য প্রয়োজন।
এন্টারপ্রাইজ ডেটা লেক অবজেক্ট স্টোরেজের উপর নির্মিত। আপনার পুরানো স্কুল নয়, অ্যাপ্লায়েন্স-ভিত্তিক অবজেক্ট স্টোরেজ যা সস্তা এবং গভীর আর্কাইভাল ব্যবহারের ক্ষেত্রে পরিবেশন করে, তবে আধুনিক, পারফরম্যান্ট, সফ্টওয়্যার-সংজ্ঞায়িত এবং কুবারনেটস নেটিভ অবজেক্ট স্টোর, আধুনিক GenAI স্ট্যাকের মূল ভিত্তি তারা একটি পরিষেবা (AWS) হিসাবে উপলব্ধ , GCP, Azure) অথবা অন-প্রিমিসেস বা হাইব্রিড/উভয়, যেমন MinIO। এই ডেটা লেকগুলিকে স্ট্রিমিং ওয়ার্কলোড সমর্থন করতে হবে, অত্যন্ত দক্ষ এনক্রিপশন এবং ইরেজার কোডিং থাকতে হবে, বস্তুর সাথে মেটাডেটা পরমাণুভাবে সংরক্ষণ করতে হবে এবং ল্যাম্বডা কম্পিউটের মতো প্রযুক্তি সমর্থন করতে হবে। এই আধুনিক বিকল্পগুলি ক্লাউড নেটিভ হওয়ার কারণে, তারা অন্যান্য ক্লাউড নেটিভ প্রযুক্তির সম্পূর্ণ স্ট্যাকের সাথে একীভূত হবে — ফায়ারওয়াল থেকে ব্যবহারকারী এবং অ্যাক্সেস ম্যানেজমেন্ট পর্যন্ত — সরাসরি বাক্সের বাইরে।
অবজেক্ট স্টোরেজ হল একটি OTP-ভিত্তিক ডেটা গুদামের জন্য অন্তর্নিহিত স্টোরেজ সমাধান। একটি ডেটা গুদামের জন্য অবজেক্ট স্টোরেজ ব্যবহার করা অদ্ভুত শোনাতে পারে, কিন্তু এইভাবে নির্মিত একটি ডেটা গুদাম পরবর্তী প্রজন্মের ডেটা গুদামগুলির প্রতিনিধিত্ব করে। Netflix, Uber এবং Databricks দ্বারা রচিত OTF স্পেসিফিকেশন দ্বারা এটি সম্ভব হয়েছে, যা ডেটা গুদামের মধ্যে অবজেক্ট স্টোরেজ নিযুক্ত করাকে নির্বিঘ্ন করে তোলে।
OTFs — Apache Iceberg, Apache Hudi এবং Delta Lake — লেখা হয়েছিল কারণ বাজারে এমন কোনো পণ্য ছিল না যা নির্মাতাদের ডেটার চাহিদা মেটাতে পারে। মূলত, তারা সবাই যা করে (বিভিন্ন উপায়ে) তা হল একটি ডেটা গুদাম সংজ্ঞায়িত করা যা অবজেক্ট স্টোরেজের উপরে তৈরি করা যেতে পারে। অবজেক্ট স্টোরেজ স্কেলযোগ্য ক্ষমতা এবং উচ্চ কর্মক্ষমতার সমন্বয় প্রদান করে যা অন্যান্য স্টোরেজ সমাধান করতে পারে না। যেহেতু এগুলি আধুনিক স্পেসিফিকেশন, তাই তাদের উন্নত বৈশিষ্ট্য রয়েছে যা পুরানো ধাঁচের ডেটা গুদামগুলিতে নেই যেমন পার্টিশন বিবর্তন, স্কিমা বিবর্তন এবং জিরো-কপি ব্রাঞ্চিং।
দুটি MinIO অংশীদার যারা MinIO-এর উপরে তাদের OTF-ভিত্তিক ডেটা গুদাম চালাতে পারে তারা হল Dremio এবং Starburst।
MLOps হল মেশিন লার্নিং যা DevOps প্রথাগত সফ্টওয়্যার বিকাশের জন্য। উভয়ই প্রকৌশল দল (দেব বা এমএল) এবং আইটি অপারেশন (অপস) দলগুলির মধ্যে সহযোগিতার উন্নতির লক্ষ্যে অনুশীলন এবং নীতিগুলির একটি সেট। লক্ষ্য হল অটোমেশন ব্যবহার করে উন্নয়নের জীবনচক্রকে স্ট্রিমলাইন করা, পরিকল্পনা ও উন্নয়ন থেকে শুরু করে স্থাপনা এবং অপারেশন পর্যন্ত। এই পদ্ধতির প্রাথমিক সুবিধাগুলির মধ্যে একটি হল ক্রমাগত উন্নতি।
MLOps কৌশল এবং বৈশিষ্ট্য ক্রমাগত বিকশিত হয়. আপনি এমন একটি সরঞ্জাম চান যা একটি প্রধান খেলোয়াড় দ্বারা সমর্থিত, নিশ্চিত করে যে সরঞ্জামটি ক্রমাগত উন্নয়ন এবং উন্নতির অধীনে রয়েছে এবং দীর্ঘমেয়াদী সহায়তা প্রদান করবে। এই সরঞ্জামগুলির প্রতিটি একটি মডেলের জীবনচক্রের সময় ব্যবহৃত শিল্পকর্মগুলি সংরক্ষণ করতে হুডের নীচে MinIO ব্যবহার করে৷
আপনার মেশিন লার্নিং ফ্রেমওয়ার্ক হল লাইব্রেরি (সাধারণত পাইথনের জন্য) যা আপনি আপনার মডেলগুলি তৈরি করতে এবং তাদের প্রশিক্ষণ দেয় এমন কোড লিখতে ব্যবহার করেন। এই লাইব্রেরিগুলি বৈশিষ্ট্যে সমৃদ্ধ কারণ তারা বিভিন্ন ক্ষতিকারক ফাংশন, অপ্টিমাইজার, ডেটা ট্রান্সফরমেশন টুল এবং নিউরাল নেটওয়ার্কগুলির জন্য পূর্ব-নির্মিত স্তরগুলির একটি সংগ্রহ প্রদান করে। এই দুটি গ্রন্থাগারের সবচেয়ে গুরুত্বপূর্ণ বৈশিষ্ট্য হল একটি টেনসর। টেনসর হল মাল্টি-ডাইমেনশনাল অ্যারে যা GPU-তে সরানো যায়। তাদের স্বয়ংক্রিয় পার্থক্যও রয়েছে, যা মডেল প্রশিক্ষণের সময় ব্যবহৃত হয়।
বর্তমানে সবচেয়ে জনপ্রিয় দুটি মেশিন লার্নিং ফ্রেমওয়ার্ক হল PyTorch (Facebook থেকে) এবং Tensorflow (Google থেকে)।
ডিস্ট্রিবিউটেড মডেল ট্রেনিং হল একাধিক কম্পিউটেশনাল ডিভাইস বা নোড জুড়ে মেশিন লার্নিং মডেলকে একই সাথে প্রশিক্ষণ দেওয়ার প্রক্রিয়া। এই পদ্ধতিটি প্রশিক্ষণ প্রক্রিয়াকে গতিশীল করে, বিশেষ করে যখন জটিল মডেলগুলিকে প্রশিক্ষণের জন্য বড় ডেটাসেটের প্রয়োজন হয়।
বিতরণকৃত মডেল প্রশিক্ষণে, ডেটাসেটকে ছোট ছোট উপসেটে ভাগ করা হয় এবং প্রতিটি উপসেট সমান্তরালভাবে বিভিন্ন নোড দ্বারা প্রক্রিয়া করা হয়। এই নোডগুলি একটি ক্লাস্টারের মধ্যে পৃথক মেশিন, পৃথক প্রক্রিয়া বা কুবারনেটস ক্লাস্টারের মধ্যে পৃথক পড হতে পারে। তাদের GPU-তে অ্যাক্সেস থাকতে পারে। প্রতিটি নোড স্বাধীনভাবে ডেটার উপসেট প্রক্রিয়া করে এবং সেই অনুযায়ী মডেল প্যারামিটার আপডেট করে। নীচের পাঁচটি লাইব্রেরি বিতরণকৃত প্রশিক্ষণের বেশিরভাগ জটিলতা থেকে বিকাশকারীদেরকে দূরে রাখে। আপনার যদি ক্লাস্টার না থাকে তবে আপনি সেগুলি স্থানীয়ভাবে চালাতে পারেন, তবে প্রশিক্ষণের সময় একটি উল্লেখযোগ্য হ্রাস দেখতে আপনার একটি ক্লাস্টারের প্রয়োজন হবে৷
একটি মডেল হাব প্রকৃতপক্ষে আধুনিক ডেটা লেক রেফারেন্স আর্কিটেকচারের অংশ নয়, তবে আমি যেভাবেই হোক এটি অন্তর্ভুক্ত করছি কারণ এটি জেনারেটিভ AI দিয়ে দ্রুত শুরু করার জন্য গুরুত্বপূর্ণ। আলিঙ্গন মুখ বড় ভাষার মডেলের জন্য যাওয়ার জায়গা হয়ে উঠেছে। হাগিং ফেস একটি মডেল হাব হোস্ট করে যেখানে প্রকৌশলীরা পূর্ব-প্রশিক্ষিত মডেলগুলি ডাউনলোড করতে এবং নিজেদের তৈরি করা মডেলগুলি ভাগ করতে পারেন৷ আলিঙ্গন মুখ ট্রান্সফরমার এবং ডেটাসেট লাইব্রেরির লেখক, যেগুলি বড় ভাষা মডেল (এলএলএম) এবং তাদের প্রশিক্ষণ এবং সূক্ষ্ম সুর করার জন্য ব্যবহৃত ডেটা নিয়ে কাজ করে।
অন্যান্য মডেল হাব আছে. সমস্ত প্রধান ক্লাউড বিক্রেতাদের কাছে মডেলগুলি আপলোড এবং ভাগ করার কিছু উপায় রয়েছে, তবে হাগিং ফেস, তার মডেল এবং লাইব্রেরির সংগ্রহ সহ, এই স্থানটিতে শীর্ষস্থানীয় হয়ে উঠেছে।
একটি অ্যাপ্লিকেশন ফ্রেমওয়ার্ক একটি অ্যাপ্লিকেশানে একটি এলএলএম অন্তর্ভুক্ত করতে সহায়তা করে। একটি LLM ব্যবহার করা একটি স্ট্যান্ডার্ড API ব্যবহার করার মত ভিন্ন। একটি ব্যবহারকারীর অনুরোধকে এমন কিছুতে পরিণত করতে অনেক কাজ করতে হবে যা এলএলএম বুঝতে এবং প্রক্রিয়া করতে পারে। উদাহরণস্বরূপ, যদি আপনি একটি চ্যাট অ্যাপ্লিকেশন তৈরি করেন এবং আপনি পুনরুদ্ধার অগমেন্টেড জেনারেশন (RAG) ব্যবহার করতে চান, তাহলে আপনাকে অনুরোধটি টোকেনাইজ করতে হবে, টোকেনগুলিকে একটি ভেক্টরে পরিণত করতে হবে, একটি ভেক্টর ডাটাবেসের সাথে একীভূত করতে হবে (নীচে বর্ণিত), একটি প্রম্পট তৈরি করতে হবে। , এবং তারপর আপনার এলএলএম কল করুন। জেনারেটিভ এআই-এর জন্য একটি অ্যাপ্লিকেশন ফ্রেমওয়ার্ক আপনাকে এই ক্রিয়াগুলিকে একসাথে চেইন করার অনুমতি দেবে। বর্তমানে সর্বাধিক ব্যবহৃত অ্যাপ্লিকেশন ফ্রেমওয়ার্ক হল ল্যাংচেইন। এটিতে অন্যান্য প্রযুক্তির সাথে একীকরণ রয়েছে, উদাহরণস্বরূপ, দস্তাবেজ প্রক্রিয়াকরণের জন্য হাগিং ফেস ট্রান্সফরমার লাইব্রেরি এবং আনস্ট্রাকচার্ড লাইব্রেরি। এটি বৈশিষ্ট্য-সমৃদ্ধ এবং ব্যবহার করা কিছুটা জটিল হতে পারে, তাই যাদের জটিল প্রয়োজনীয়তা নেই এবং ল্যাংচেইনের চেয়ে সহজ কিছু চান তাদের জন্য নীচে তালিকাভুক্ত কিছু বিকল্প রয়েছে।
বেশিরভাগ প্রতিষ্ঠানের পরিষ্কার এবং নির্ভুল নথি সহ একটি একক সংগ্রহস্থল নেই। বরং, নথিগুলি বিভিন্ন ফরম্যাটে বিভিন্ন টিম পোর্টালে সংস্থা জুড়ে ছড়িয়ে রয়েছে। জেনারেটিভ এআই-এর জন্য প্রস্তুত হওয়ার প্রথম ধাপ হল একটি পাইপলাইন তৈরি করা যা শুধুমাত্র সেই নথিগুলি নিয়ে যায় যা জেনারেটিভ এআই-এর সাথে ব্যবহারের জন্য অনুমোদিত এবং সেগুলিকে আপনার ভেক্টর ডাটাবেসে রাখে। এটি বড় বৈশ্বিক সংস্থাগুলির জন্য একটি জেনারেটিভ এআই সমাধানের সম্ভাব্য সবচেয়ে কঠিন কাজ হতে পারে।
একটি নথির পাইপলাইনে নথিগুলিকে পাঠ্যে রূপান্তর করা উচিত, দস্তাবেজটি খণ্ডিত করা উচিত এবং একটি এমবেডিং মডেলের মাধ্যমে খণ্ডিত পাঠ্য চালানো উচিত যাতে এর ভেক্টর উপস্থাপনা একটি ভেক্টর ডাটাবেসে সংরক্ষণ করা যায়। সৌভাগ্যবশত, কয়েকটি ওপেন সোর্স লাইব্রেরি অনেক সাধারণ নথি বিন্যাসের জন্য এটি করতে পারে। কয়েকটি লাইব্রেরি নীচে তালিকাভুক্ত করা হয়েছে। এই লাইব্রেরিগুলি ল্যাংচেইনের সাথে একটি সম্পূর্ণ নথি প্রক্রিয়াকরণ পাইপলাইন তৈরি করতে ব্যবহার করা যেতে পারে।
ভেক্টর ডাটাবেস শব্দার্থিক অনুসন্ধানের সুবিধা দেয়। এটি কীভাবে করা হয় তা বোঝার জন্য প্রচুর গাণিতিক পটভূমি প্রয়োজন এবং এটি জটিল। যাইহোক, শব্দার্থক অনুসন্ধান ধারণাগতভাবে বোঝা সহজ। ধরা যাক আপনি "কৃত্রিম বুদ্ধিমত্তা" সম্পর্কিত যেকোন কিছু আলোচনা করে এমন সমস্ত নথি খুঁজে পেতে চান। একটি প্রচলিত ডাটাবেসে এটি করার জন্য, আপনাকে "কৃত্রিম বুদ্ধিমত্তা" এর প্রতিটি সম্ভাব্য সংক্ষেপণ, প্রতিশব্দ এবং সম্পর্কিত শব্দ অনুসন্ধান করতে হবে। আপনার ক্যোয়ারী এই মত কিছু দেখতে হবে:
SELECT snippet FROM MyCorpusTable WHERE (text like '%artificial intelligence%' OR text like '%ai%' OR text like '%machine learning%' OR text like '%ml%' OR ... and on and on ...
এই ম্যানুয়াল সাদৃশ্য অনুসন্ধানটি কেবল কঠিন এবং ত্রুটির প্রবণ নয়, তবে অনুসন্ধানটি নিজেই খুব ধীর। একটি ভেক্টর ডাটাবেস নীচের মত একটি অনুরোধ নিতে পারে এবং দ্রুত এবং অধিক নির্ভুলতার সাথে ক্যোয়ারী চালাতে পারে। আপনি যদি পুনরুদ্ধার অগমেন্টেড জেনারেশন ব্যবহার করতে চান তবে শব্দার্থগত প্রশ্নগুলি দ্রুত এবং নির্ভুলভাবে চালানোর ক্ষমতা গুরুত্বপূর্ণ।
{ Get { MyCorpusTable(nearText: {concepts: ["artificial intelligence"]}) {snippet} } }
চারটি জনপ্রিয় ভেক্টর ডাটাবেস নীচে তালিকাভুক্ত করা হয়েছে।
এটি সর্বদা এমন সরঞ্জাম থাকা একটি ভাল ধারণা যা আপনাকে আপনার ডেটাকে ঝগড়া করতে এবং এটিকে বিভিন্ন উপায়ে কল্পনা করতে দেয়৷ নীচে তালিকাভুক্ত পাইথন লাইব্রেরিগুলি ডেটা ম্যানিপুলেশন এবং ভিজ্যুয়ালাইজেশন ক্ষমতা প্রদান করে। এগুলি আপনার শুধুমাত্র ঐতিহ্যবাহী AI-এর জন্য প্রয়োজন এমন সরঞ্জামগুলির মতো মনে হতে পারে, তবে তারা জেনারেটিভ AI-এর সাথেও কাজে আসে। উদাহরণ স্বরূপ, আপনি যদি সেন্টিমেন্ট এনালাইসিস বা ইমোশন ডিটেকশন করেন, তাহলে আপনার প্রশিক্ষণ, বৈধতা এবং পরীক্ষার সেটগুলি পরীক্ষা করা উচিত যাতে আপনি আপনার সমস্ত ক্লাস জুড়ে যথাযথ বিতরণ করেন।
সেখানে আপনার কাছে এটি রয়েছে: প্রতিটি ক্ষমতার জন্য কংক্রিট বিক্রেতা পণ্য এবং লাইব্রেরি সহ আধুনিক ডেটা লেক রেফারেন্স আর্কিটেকচারে 10টি ক্ষমতা পাওয়া যেতে পারে। নীচে এই সরঞ্জামগুলির সংক্ষিপ্তসার একটি টেবিল।