paint-brush
আধুনিক ডেটা লেক তৈরির জন্য প্রয়োজনীয় শীর্ষ 10টি সরঞ্জামের জন্য একজন স্থপতির গাইডদ্বারা@minio
8,935 পড়া
8,935 পড়া

আধুনিক ডেটা লেক তৈরির জন্য প্রয়োজনীয় শীর্ষ 10টি সরঞ্জামের জন্য একজন স্থপতির গাইড

দ্বারা MinIO8m2024/08/27
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

এখানে আধুনিক ডেটা লেক তৈরির জন্য প্রয়োজনীয় বিক্রেতা এবং সরঞ্জামগুলির একটি তালিকা রয়েছে, প্রতিটি এন্ট্রির সাথে জেনারেটিভ এআই সমর্থন করার জন্য একটি ক্ষমতা প্রয়োজন।
featured image - আধুনিক ডেটা লেক তৈরির জন্য প্রয়োজনীয় শীর্ষ 10টি সরঞ্জামের জন্য একজন স্থপতির গাইড
MinIO HackerNoon profile picture


আমি আগে সম্পর্কে লিখেছিলাম আধুনিক ডেটা লেক রেফারেন্স আর্কিটেকচার , প্রতিটি এন্টারপ্রাইজে চ্যালেঞ্জ মোকাবেলা করা — আরও ডেটা, বার্ধক্য হাডুপ টুলিং (বিশেষত HDFS) এবং RESTful API (S3) এবং কর্মক্ষমতার জন্য আরও বেশি চাহিদা — কিন্তু আমি কিছু ফাঁক পূরণ করতে চাই৷


আধুনিক ডেটা লেক, কখনও কখনও ডেটা লেকহাউস হিসাবে উল্লেখ করা হয়, এটি এক-অর্ধেক ডেটা লেক এবং এক-অর্ধেক ওপেন টেবিল ফরম্যাট স্পেসিফিকেশন (OTF)-ভিত্তিক ডেটা গুদাম। উভয়ই আধুনিক অবজেক্ট স্টোরেজের উপর নির্মিত।


একইসঙ্গে, আমরা গভীরভাবে চিন্তা করেছি যে কীভাবে সংস্থাগুলি AI ডেটা পরিকাঠামো তৈরি করতে পারে যা আপনার সমস্ত AI/ML চাহিদাগুলিকে সমর্থন করতে পারে — শুধুমাত্র আপনার প্রশিক্ষণ সেট, বৈধতা সেট এবং পরীক্ষার সেটগুলির কাঁচা স্টোরেজ নয়। অন্য কথায়, এটিতে বড় ভাষা মডেল, MLOps টুলিং, বিতরণ করা প্রশিক্ষণ এবং আরও অনেক কিছু প্রশিক্ষণের জন্য প্রয়োজনীয় গণনা থাকা উচিত। চিন্তার এই লাইনের ফলস্বরূপ, আমরা কীভাবে আধুনিক ডেটা লেক ব্যবহার করতে হয় সে সম্পর্কে আরও একটি কাগজ একসাথে রেখেছি আপনার AI/ML সমর্থন করার জন্য রেফারেন্স আর্কিটেকচার প্রয়োজন নীচের গ্রাফিকটি চিত্রিত করে আধুনিক ডেটা লেক রেফারেন্স আর্কিটেকচার জেনারেটিভ এআই হাইলাইট করার জন্য প্রয়োজনীয় ক্ষমতা সহ।


সূত্র: একটি আধুনিক ডেটা লেকের মধ্যে AI/ML


উভয় কাগজপত্র নির্দিষ্ট বিক্রেতা বা সরঞ্জাম উল্লেখ করে না. আমি এখন আধুনিক ডেটা লেক তৈরির জন্য প্রয়োজনীয় বিক্রেতা এবং সরঞ্জামগুলি নিয়ে আলোচনা করতে চাই৷ এই শীর্ষ-10 তালিকায়, প্রতিটি এন্ট্রি হল একটি ক্ষমতা যা জেনারেটিভ এআই সমর্থন করার জন্য প্রয়োজন।

1. ডাটা লেক

এন্টারপ্রাইজ ডেটা লেক অবজেক্ট স্টোরেজের উপর নির্মিত। আপনার পুরানো স্কুল নয়, অ্যাপ্লায়েন্স-ভিত্তিক অবজেক্ট স্টোরেজ যা সস্তা এবং গভীর আর্কাইভাল ব্যবহারের ক্ষেত্রে পরিবেশন করে, তবে আধুনিক, পারফরম্যান্ট, সফ্টওয়্যার-সংজ্ঞায়িত এবং কুবারনেটস নেটিভ অবজেক্ট স্টোর, আধুনিক GenAI স্ট্যাকের মূল ভিত্তি তারা একটি পরিষেবা (AWS) হিসাবে উপলব্ধ , GCP, Azure) অথবা অন-প্রিমিসেস বা হাইব্রিড/উভয়, যেমন MinIO। এই ডেটা লেকগুলিকে স্ট্রিমিং ওয়ার্কলোড সমর্থন করতে হবে, অত্যন্ত দক্ষ এনক্রিপশন এবং ইরেজার কোডিং থাকতে হবে, বস্তুর সাথে মেটাডেটা পরমাণুভাবে সংরক্ষণ করতে হবে এবং ল্যাম্বডা কম্পিউটের মতো প্রযুক্তি সমর্থন করতে হবে। এই আধুনিক বিকল্পগুলি ক্লাউড নেটিভ হওয়ার কারণে, তারা অন্যান্য ক্লাউড নেটিভ প্রযুক্তির সম্পূর্ণ স্ট্যাকের সাথে একীভূত হবে — ফায়ারওয়াল থেকে ব্যবহারকারী এবং অ্যাক্সেস ম্যানেজমেন্ট পর্যন্ত — সরাসরি বাক্সের বাইরে।

2.OTF-ভিত্তিক ডেটা গুদাম

অবজেক্ট স্টোরেজ হল একটি OTP-ভিত্তিক ডেটা গুদামের জন্য অন্তর্নিহিত স্টোরেজ সমাধান। একটি ডেটা গুদামের জন্য অবজেক্ট স্টোরেজ ব্যবহার করা অদ্ভুত শোনাতে পারে, কিন্তু এইভাবে নির্মিত একটি ডেটা গুদাম পরবর্তী প্রজন্মের ডেটা গুদামগুলির প্রতিনিধিত্ব করে। Netflix, Uber এবং Databricks দ্বারা রচিত OTF স্পেসিফিকেশন দ্বারা এটি সম্ভব হয়েছে, যা ডেটা গুদামের মধ্যে অবজেক্ট স্টোরেজ নিযুক্ত করাকে নির্বিঘ্ন করে তোলে।


OTFs — Apache Iceberg, Apache Hudi এবং Delta Lake — লেখা হয়েছিল কারণ বাজারে এমন কোনো পণ্য ছিল না যা নির্মাতাদের ডেটার চাহিদা মেটাতে পারে। মূলত, তারা সবাই যা করে (বিভিন্ন উপায়ে) তা হল একটি ডেটা গুদাম সংজ্ঞায়িত করা যা অবজেক্ট স্টোরেজের উপরে তৈরি করা যেতে পারে। অবজেক্ট স্টোরেজ স্কেলযোগ্য ক্ষমতা এবং উচ্চ কর্মক্ষমতার সমন্বয় প্রদান করে যা অন্যান্য স্টোরেজ সমাধান করতে পারে না। যেহেতু এগুলি আধুনিক স্পেসিফিকেশন, তাই তাদের উন্নত বৈশিষ্ট্য রয়েছে যা পুরানো ধাঁচের ডেটা গুদামগুলিতে নেই যেমন পার্টিশন বিবর্তন, স্কিমা বিবর্তন এবং জিরো-কপি ব্রাঞ্চিং।


দুটি MinIO অংশীদার যারা MinIO-এর উপরে তাদের OTF-ভিত্তিক ডেটা গুদাম চালাতে পারে তারা হল Dremio এবং Starburst।


ড্রেমিও সোনার (ডেটা গুদাম প্রক্রিয়াকরণ ইঞ্জিন)

Dremio আর্কটিক (ডেটা গুদাম ক্যাটালগ)

ওপেন ডাটা লেকহাউস | স্টারবার্স্ট (ক্যাটালগ এবং প্রক্রিয়াকরণ ইঞ্জিন)

3.মেশিন লার্নিং অপারেশন (MLOps)

MLOps হল মেশিন লার্নিং যা DevOps প্রথাগত সফ্টওয়্যার বিকাশের জন্য। উভয়ই প্রকৌশল দল (দেব বা এমএল) এবং আইটি অপারেশন (অপস) দলগুলির মধ্যে সহযোগিতার উন্নতির লক্ষ্যে অনুশীলন এবং নীতিগুলির একটি সেট। লক্ষ্য হল অটোমেশন ব্যবহার করে উন্নয়নের জীবনচক্রকে স্ট্রিমলাইন করা, পরিকল্পনা ও উন্নয়ন থেকে শুরু করে স্থাপনা এবং অপারেশন পর্যন্ত। এই পদ্ধতির প্রাথমিক সুবিধাগুলির মধ্যে একটি হল ক্রমাগত উন্নতি।


MLOps কৌশল এবং বৈশিষ্ট্য ক্রমাগত বিকশিত হয়. আপনি এমন একটি সরঞ্জাম চান যা একটি প্রধান খেলোয়াড় দ্বারা সমর্থিত, নিশ্চিত করে যে সরঞ্জামটি ক্রমাগত উন্নয়ন এবং উন্নতির অধীনে রয়েছে এবং দীর্ঘমেয়াদী সহায়তা প্রদান করবে। এই সরঞ্জামগুলির প্রতিটি একটি মডেলের জীবনচক্রের সময় ব্যবহৃত শিল্পকর্মগুলি সংরক্ষণ করতে হুডের নীচে MinIO ব্যবহার করে৷


MLRun (Iguazio, McKinsey & Company দ্বারা অর্জিত)

MLflow (ডেটাব্রিক্স)

কুবেফ্লো (গুগল)

4.মেশিন লার্নিং ফ্রেমওয়ার্ক

আপনার মেশিন লার্নিং ফ্রেমওয়ার্ক হল লাইব্রেরি (সাধারণত পাইথনের জন্য) যা আপনি আপনার মডেলগুলি তৈরি করতে এবং তাদের প্রশিক্ষণ দেয় এমন কোড লিখতে ব্যবহার করেন। এই লাইব্রেরিগুলি বৈশিষ্ট্যে সমৃদ্ধ কারণ তারা বিভিন্ন ক্ষতিকারক ফাংশন, অপ্টিমাইজার, ডেটা ট্রান্সফরমেশন টুল এবং নিউরাল নেটওয়ার্কগুলির জন্য পূর্ব-নির্মিত স্তরগুলির একটি সংগ্রহ প্রদান করে। এই দুটি গ্রন্থাগারের সবচেয়ে গুরুত্বপূর্ণ বৈশিষ্ট্য হল একটি টেনসর। টেনসর হল মাল্টি-ডাইমেনশনাল অ্যারে যা GPU-তে সরানো যায়। তাদের স্বয়ংক্রিয় পার্থক্যও রয়েছে, যা মডেল প্রশিক্ষণের সময় ব্যবহৃত হয়।


বর্তমানে সবচেয়ে জনপ্রিয় দুটি মেশিন লার্নিং ফ্রেমওয়ার্ক হল PyTorch (Facebook থেকে) এবং Tensorflow (Google থেকে)।


পাইটর্চ

টেনসরফ্লো

5. বিতরণ করা প্রশিক্ষণ

ডিস্ট্রিবিউটেড মডেল ট্রেনিং হল একাধিক কম্পিউটেশনাল ডিভাইস বা নোড জুড়ে মেশিন লার্নিং মডেলকে একই সাথে প্রশিক্ষণ দেওয়ার প্রক্রিয়া। এই পদ্ধতিটি প্রশিক্ষণ প্রক্রিয়াকে গতিশীল করে, বিশেষ করে যখন জটিল মডেলগুলিকে প্রশিক্ষণের জন্য বড় ডেটাসেটের প্রয়োজন হয়।


বিতরণকৃত মডেল প্রশিক্ষণে, ডেটাসেটকে ছোট ছোট উপসেটে ভাগ করা হয় এবং প্রতিটি উপসেট সমান্তরালভাবে বিভিন্ন নোড দ্বারা প্রক্রিয়া করা হয়। এই নোডগুলি একটি ক্লাস্টারের মধ্যে পৃথক মেশিন, পৃথক প্রক্রিয়া বা কুবারনেটস ক্লাস্টারের মধ্যে পৃথক পড হতে পারে। তাদের GPU-তে অ্যাক্সেস থাকতে পারে। প্রতিটি নোড স্বাধীনভাবে ডেটার উপসেট প্রক্রিয়া করে এবং সেই অনুযায়ী মডেল প্যারামিটার আপডেট করে। নীচের পাঁচটি লাইব্রেরি বিতরণকৃত প্রশিক্ষণের বেশিরভাগ জটিলতা থেকে বিকাশকারীদেরকে দূরে রাখে। আপনার যদি ক্লাস্টার না থাকে তবে আপনি সেগুলি স্থানীয়ভাবে চালাতে পারেন, তবে প্রশিক্ষণের সময় একটি উল্লেখযোগ্য হ্রাস দেখতে আপনার একটি ক্লাস্টারের প্রয়োজন হবে৷


ডিপস্পীড (মাইক্রোসফট থেকে)

Horovod (Uber থেকে)

রে (অ্যানিস্কেল থেকে)

স্পার্ক পাইটর্চ ডিস্ট্রিবিউটর (ডেটাব্রিক্স থেকে)

স্পার্ক টেনসরফ্লো ডিস্ট্রিবিউটর (ডেটাব্রিক্স থেকে)

6. মডেল হাব

একটি মডেল হাব প্রকৃতপক্ষে আধুনিক ডেটা লেক রেফারেন্স আর্কিটেকচারের অংশ নয়, তবে আমি যেভাবেই হোক এটি অন্তর্ভুক্ত করছি কারণ এটি জেনারেটিভ AI দিয়ে দ্রুত শুরু করার জন্য গুরুত্বপূর্ণ। আলিঙ্গন মুখ বড় ভাষার মডেলের জন্য যাওয়ার জায়গা হয়ে উঠেছে। হাগিং ফেস একটি মডেল হাব হোস্ট করে যেখানে প্রকৌশলীরা পূর্ব-প্রশিক্ষিত মডেলগুলি ডাউনলোড করতে এবং নিজেদের তৈরি করা মডেলগুলি ভাগ করতে পারেন৷ আলিঙ্গন মুখ ট্রান্সফরমার এবং ডেটাসেট লাইব্রেরির লেখক, যেগুলি বড় ভাষা মডেল (এলএলএম) এবং তাদের প্রশিক্ষণ এবং সূক্ষ্ম সুর করার জন্য ব্যবহৃত ডেটা নিয়ে কাজ করে।


অন্যান্য মডেল হাব আছে. সমস্ত প্রধান ক্লাউড বিক্রেতাদের কাছে মডেলগুলি আপলোড এবং ভাগ করার কিছু উপায় রয়েছে, তবে হাগিং ফেস, তার মডেল এবং লাইব্রেরির সংগ্রহ সহ, এই স্থানটিতে শীর্ষস্থানীয় হয়ে উঠেছে।


আলিঙ্গন মুখ

7. অ্যাপ্লিকেশন ফ্রেমওয়ার্ক

একটি অ্যাপ্লিকেশন ফ্রেমওয়ার্ক একটি অ্যাপ্লিকেশানে একটি এলএলএম অন্তর্ভুক্ত করতে সহায়তা করে। একটি LLM ব্যবহার করা একটি স্ট্যান্ডার্ড API ব্যবহার করার মত ভিন্ন। একটি ব্যবহারকারীর অনুরোধকে এমন কিছুতে পরিণত করতে অনেক কাজ করতে হবে যা এলএলএম বুঝতে এবং প্রক্রিয়া করতে পারে। উদাহরণস্বরূপ, যদি আপনি একটি চ্যাট অ্যাপ্লিকেশন তৈরি করেন এবং আপনি পুনরুদ্ধার অগমেন্টেড জেনারেশন (RAG) ব্যবহার করতে চান, তাহলে আপনাকে অনুরোধটি টোকেনাইজ করতে হবে, টোকেনগুলিকে একটি ভেক্টরে পরিণত করতে হবে, একটি ভেক্টর ডাটাবেসের সাথে একীভূত করতে হবে (নীচে বর্ণিত), একটি প্রম্পট তৈরি করতে হবে। , এবং তারপর আপনার এলএলএম কল করুন। জেনারেটিভ এআই-এর জন্য একটি অ্যাপ্লিকেশন ফ্রেমওয়ার্ক আপনাকে এই ক্রিয়াগুলিকে একসাথে চেইন করার অনুমতি দেবে। বর্তমানে সর্বাধিক ব্যবহৃত অ্যাপ্লিকেশন ফ্রেমওয়ার্ক হল ল্যাংচেইন। এটিতে অন্যান্য প্রযুক্তির সাথে একীকরণ রয়েছে, উদাহরণস্বরূপ, দস্তাবেজ প্রক্রিয়াকরণের জন্য হাগিং ফেস ট্রান্সফরমার লাইব্রেরি এবং আনস্ট্রাকচার্ড লাইব্রেরি। এটি বৈশিষ্ট্য-সমৃদ্ধ এবং ব্যবহার করা কিছুটা জটিল হতে পারে, তাই যাদের জটিল প্রয়োজনীয়তা নেই এবং ল্যাংচেইনের চেয়ে সহজ কিছু চান তাদের জন্য নীচে তালিকাভুক্ত কিছু বিকল্প রয়েছে।


ল্যাংচেইন

এজেন্ট জিপিটি

অটো-জিপিটি

বেবিএজিআই

প্রবাহিত

গ্রেডিয়েন্ট জে

লামা ইনডেক্স

ল্যাংডক

TensorFlow (Keras API)

8. ডকুমেন্ট প্রসেসিং

বেশিরভাগ প্রতিষ্ঠানের পরিষ্কার এবং নির্ভুল নথি সহ একটি একক সংগ্রহস্থল নেই। বরং, নথিগুলি বিভিন্ন ফরম্যাটে বিভিন্ন টিম পোর্টালে সংস্থা জুড়ে ছড়িয়ে রয়েছে। জেনারেটিভ এআই-এর জন্য প্রস্তুত হওয়ার প্রথম ধাপ হল একটি পাইপলাইন তৈরি করা যা শুধুমাত্র সেই নথিগুলি নিয়ে যায় যা জেনারেটিভ এআই-এর সাথে ব্যবহারের জন্য অনুমোদিত এবং সেগুলিকে আপনার ভেক্টর ডাটাবেসে রাখে। এটি বড় বৈশ্বিক সংস্থাগুলির জন্য একটি জেনারেটিভ এআই সমাধানের সম্ভাব্য সবচেয়ে কঠিন কাজ হতে পারে।



একটি নথির পাইপলাইনে নথিগুলিকে পাঠ্যে রূপান্তর করা উচিত, দস্তাবেজটি খণ্ডিত করা উচিত এবং একটি এমবেডিং মডেলের মাধ্যমে খণ্ডিত পাঠ্য চালানো উচিত যাতে এর ভেক্টর উপস্থাপনা একটি ভেক্টর ডাটাবেসে সংরক্ষণ করা যায়। সৌভাগ্যবশত, কয়েকটি ওপেন সোর্স লাইব্রেরি অনেক সাধারণ নথি বিন্যাসের জন্য এটি করতে পারে। কয়েকটি লাইব্রেরি নীচে তালিকাভুক্ত করা হয়েছে। এই লাইব্রেরিগুলি ল্যাংচেইনের সাথে একটি সম্পূর্ণ নথি প্রক্রিয়াকরণ পাইপলাইন তৈরি করতে ব্যবহার করা যেতে পারে।


গঠনহীন

ওপেন-পার্স

9. ভেক্টর ডাটাবেস

ভেক্টর ডাটাবেস শব্দার্থিক অনুসন্ধানের সুবিধা দেয়। এটি কীভাবে করা হয় তা বোঝার জন্য প্রচুর গাণিতিক পটভূমি প্রয়োজন এবং এটি জটিল। যাইহোক, শব্দার্থক অনুসন্ধান ধারণাগতভাবে বোঝা সহজ। ধরা যাক আপনি "কৃত্রিম বুদ্ধিমত্তা" সম্পর্কিত যেকোন কিছু আলোচনা করে এমন সমস্ত নথি খুঁজে পেতে চান। একটি প্রচলিত ডাটাবেসে এটি করার জন্য, আপনাকে "কৃত্রিম বুদ্ধিমত্তা" এর প্রতিটি সম্ভাব্য সংক্ষেপণ, প্রতিশব্দ এবং সম্পর্কিত শব্দ অনুসন্ধান করতে হবে। আপনার ক্যোয়ারী এই মত কিছু দেখতে হবে:


 SELECT snippet FROM MyCorpusTable WHERE (text like '%artificial intelligence%' OR text like '%ai%' OR text like '%machine learning%' OR text like '%ml%' OR ... and on and on ...


এই ম্যানুয়াল সাদৃশ্য অনুসন্ধানটি কেবল কঠিন এবং ত্রুটির প্রবণ নয়, তবে অনুসন্ধানটি নিজেই খুব ধীর। একটি ভেক্টর ডাটাবেস নীচের মত একটি অনুরোধ নিতে পারে এবং দ্রুত এবং অধিক নির্ভুলতার সাথে ক্যোয়ারী চালাতে পারে। আপনি যদি পুনরুদ্ধার অগমেন্টেড জেনারেশন ব্যবহার করতে চান তবে শব্দার্থগত প্রশ্নগুলি দ্রুত এবং নির্ভুলভাবে চালানোর ক্ষমতা গুরুত্বপূর্ণ।


 { Get { MyCorpusTable(nearText: {concepts: ["artificial intelligence"]}) {snippet} } }


চারটি জনপ্রিয় ভেক্টর ডাটাবেস নীচে তালিকাভুক্ত করা হয়েছে।


মিলভাস

Pgvector

পাইনকোন

তাজা করা

10. ডেটা এক্সপ্লোরেশন এবং ভিজ্যুয়ালাইজেশন

এটি সর্বদা এমন সরঞ্জাম থাকা একটি ভাল ধারণা যা আপনাকে আপনার ডেটাকে ঝগড়া করতে এবং এটিকে বিভিন্ন উপায়ে কল্পনা করতে দেয়৷ নীচে তালিকাভুক্ত পাইথন লাইব্রেরিগুলি ডেটা ম্যানিপুলেশন এবং ভিজ্যুয়ালাইজেশন ক্ষমতা প্রদান করে। এগুলি আপনার শুধুমাত্র ঐতিহ্যবাহী AI-এর জন্য প্রয়োজন এমন সরঞ্জামগুলির মতো মনে হতে পারে, তবে তারা জেনারেটিভ AI-এর সাথেও কাজে আসে। উদাহরণ স্বরূপ, আপনি যদি সেন্টিমেন্ট এনালাইসিস বা ইমোশন ডিটেকশন করেন, তাহলে আপনার প্রশিক্ষণ, বৈধতা এবং পরীক্ষার সেটগুলি পরীক্ষা করা উচিত যাতে আপনি আপনার সমস্ত ক্লাস জুড়ে যথাযথ বিতরণ করেন।


পান্ডা

ম্যাটপ্লটলিব

সামুদ্রিক

স্ট্রিমলিট

উপসংহার

সেখানে আপনার কাছে এটি রয়েছে: প্রতিটি ক্ষমতার জন্য কংক্রিট বিক্রেতা পণ্য এবং লাইব্রেরি সহ আধুনিক ডেটা লেক রেফারেন্স আর্কিটেকচারে 10টি ক্ষমতা পাওয়া যেতে পারে। নীচে এই সরঞ্জামগুলির সংক্ষিপ্তসার একটি টেবিল।


  1. ডাটা লেক- MinIO , AWS, GCP, Azure
  2. OTF-ভিত্তিক ডেটা গুদাম - Dremio , Dremio Sonar , Dremio Arctic , Starburst , Open Data Lakehouse | স্টারবার্স্ট
  3. মেশিন লার্নিং ফ্রেমওয়ার্ক - পাইটর্চ , টেনসরফ্লো
  4. মেশিন লার্নিং অপারেশন - MLRun (McKinsey & Compan y), MLflow (Databricks) , Kubeflow (Google)
  5. বিতরণ করা প্রশিক্ষণ- ডিপস্পীড (মাইক্রোসফট থেকে) , হোরোভড (উবার থেকে) , রে (অ্যানিস্কেল থেকে) , স্পার্ক পাইটর্চ ডিস্ট্রিবিউটর (ডেটাব্রিক্স থেকে) , স্পার্ক টেনসোফ্লো ডিস্ট্রিবিউটর (ডেটাব্রিক্স থেকে)
  6. মডেল হাব - আলিঙ্গন মুখ
  7. আবেদন কাঠামো - LangChain , AgentGPT , Auto-GPT , BabyAGI , Flowise , GradientJ , LlamaIndex , Langdock , TensorFlow (Keras API)
  8. ডকুমেন্ট প্রসেসিং- অসংগঠিত , খোলা-পার্স
  9. ভেক্টর ডাটাবেস - মিলভাস , পিজিভেক্টর , পাইনকোন , ওয়েভিয়েট
  10. তথ্য অনুসন্ধান এবং ভিজ্যুয়ালাইজেশন - পান্ডাস , ম্যাটপ্লটলিব , সিবোর্ন , স্ট্রিমলিট