জেনারেটিভ এআই একটি সর্বশেষ কৌশল প্রতিনিধিত্ব করে যা একটি এন্টারপ্রাইজ তার সীমানার মধ্যে আটকে থাকা ডেটা আনলক করতে নিয়োগ করতে পারে। জেনারেটিভ এআই-এর সাহায্যে যা সম্ভব তা ধারণা করার সবচেয়ে সহজ উপায় হল একটি কাস্টমাইজড লার্জ ল্যাঙ্গুয়েজ মডেল কল্পনা করা - যেটি ChatGPT শক্তি দেয় - আপনার ফায়ারওয়ালের ভিতরে চলছে। এখন, এই কাস্টম এলএলএমটি ওপেনএআই পাবলিক ইন্টারনেটে হোস্ট করার মতো নয়৷ পরিবর্তে, এটি আপনার ব্যবসায় একটি "উন্নত শিক্ষা" অর্জন করেছে। এটি বহির্বিশ্বে অ্যাক্সেসযোগ্য নথিগুলির একটি কর্পাসে অ্যাক্সেস দেওয়ার মাধ্যমে এটি করা হয়। যাইহোক, এই নতুন টুলটি একটি প্রচলিত সার্চ ইঞ্জিন নয় যা লিঙ্কগুলির একটি তালিকা প্রদান করবে যা আপনাকে পর্যালোচনা করতে এবং আরও ফিল্টার করতে ঘন্টা সময় লাগবে। বরং, এটি এমন একটি সমাধান যা আপনার প্রয়োজনীয় সামগ্রী তৈরি করতে পারে। সময়ের সাথে সাথে, আপনি নিজেকে এটিকে আদেশ দেওয়ার পাশাপাশি প্রশ্ন জিজ্ঞাসা করতে দেখতে পাবেন। যা সম্ভব তার জন্য আপনাকে অনুভূতি প্রদান করার জন্য নীচে কয়েকটি উদাহরণ রয়েছে:
"ইউরোপীয় স্টক মার্কেটে আমাদের সাম্প্রতিক ফলাফলগুলি খুঁজুন।"
"জেনারেটিভ এআই-তে আমার আলোচনার জন্য একটি বিমূর্ত তৈরি করুন।"
"আমরা এই ত্রৈমাসিকে প্রকাশিত সমস্ত কিছু খুঁজুন।"
উপরের উদাহরণগুলি হল গবেষণা পরিস্থিতি, তবে একটি সু-নির্মিত বড় ভাষা মডেল (LLM) গ্রাহক সহায়তা (চ্যাটবট), সংক্ষিপ্তকরণ, গবেষণা, অনুবাদ এবং নথি তৈরির জন্যও ব্যবহার করা যেতে পারে, শুধুমাত্র কয়েকটি নাম।
এই সাধারণ উদাহরণগুলি জেনারেটিভ এআই-এর শক্তিকে হাইলাইট করে - এটি একটি পড়ার তালিকা তৈরি করার বিপরীতে আপনার কাজকে আরও দক্ষতার সাথে সম্পন্ন করার একটি হাতিয়ার।
এই জাতীয় সরঞ্জামের অস্তিত্বের ইচ্ছা করা যায় না এবং নিরাপত্তা এবং ডেটা গুণমানের মতো উদ্বেগগুলি বিবেচনা না করা হলে জিনিসগুলি খুব ভুল হতে পারে। অতিরিক্তভাবে, যে মডেলগুলি পাওয়ার জেনারেটিভ এআই একটি প্রচলিত ডেটা সেন্টারের মধ্যে চলতে পারে না। অসংগঠিত ডেটা (ডেটা লেক), আপনার LLMs (MLOPs টুলিং) এর জন্য AI/ML পাইপলাইন তৈরি করতে এবং LLM-গুলিকে আপনার কাস্টম কর্পাসের বিষয়ে প্রয়োজনীয় শিক্ষা পেতে অনুমতি দেয় এমন নতুন টুলিংয়ের জন্য তাদের আধুনিক সরঞ্জাম সহ একটি আধুনিক পরিবেশ প্রয়োজন। (আমি পুনরুদ্ধার অগমেন্টেড জেনারেশন বাস্তবায়নের জন্য ভেক্টর ডাটাবেস সম্পর্কে কথা বলছি - আমি এই পোস্টে পরে আরও ব্যাখ্যা করব)।
এই পোস্টে, আমি একটি ধারণাগত স্তরে কভার করতে চাই যে জেনারেটিভ এআই সফলভাবে বাস্তবায়নের জন্য একটি এন্টারপ্রাইজের জন্য কী বিবেচনা করা উচিত।
আসুন ডেটা সম্পর্কে একটি কথোপকথন দিয়ে শুরু করি।
একটি গুরুত্বপূর্ণ পার্থক্য হল জেনারেটিভ AI-এর জন্য প্রয়োজনীয় ডেটা প্রচলিত AI-এর জন্য ব্যবহৃত ডেটার মতো নয়। ডেটা অসংগঠিত হবে - বিশেষত, আপনার প্রয়োজনীয় ডেটা শেয়ারপয়েন্ট, কনফ্লুয়েন্স এবং নেটওয়ার্ক ফাইল শেয়ারের মতো সরঞ্জামগুলিতে লক করা হবে। একটি ভাল জেনারেটিভ এআই সমাধান অ-টেক্সচুয়াল সামগ্রী যেমন অডিও এবং ভিডিও ফাইলগুলি পরিচালনা করতে পারে। আপনার একটি ডেটা পাইপলাইন দরকার যা এই সমস্ত ডেটা সংগ্রহ করে এবং এটিকে এক ছাদের নীচে রাখে।
এটি একটি জেনারেটিভ এআই উদ্যোগের সবচেয়ে চ্যালেঞ্জিং কাজ হতে পারে। আমরা সকলেই জানি যে কোন প্রতিষ্ঠানের মধ্যে কনফ্লুয়েন্স সাইট এবং শেয়ারপয়েন্ট সাইটগুলি কত দ্রুত তৈরি হয়। তাদের মধ্যে থাকা নথিগুলি সম্পূর্ণ, সত্য এবং নির্ভুল কিনা তার কোন নিশ্চয়তা নেই। অন্যান্য উদ্বেগ হল নিরাপত্তা, ব্যক্তিগতভাবে শনাক্তযোগ্য তথ্য, এবং লাইসেন্সিং শর্তাবলী যদি নথিগুলি বাইরের উত্স থেকে আসে।
একবার আপনি সত্য বুদ্ধিসম্পন্ন নথিগুলি সনাক্ত করার পরে, সেগুলি রাখার জন্য আপনার একটি জায়গা প্রয়োজন। দুর্ভাগ্যক্রমে, তারা তাদের আসল অবস্থানে থাকতে পারে না। শেয়ারপয়েন্ট, কনফ্লুয়েন্স, এবং নেটওয়ার্ক ফাইল শেয়ার হল এমন সরঞ্জাম যা প্রশিক্ষণ এবং অনুমানের জন্য দ্রুত নথি পরিবেশনের জন্য ডিজাইন করা হয়নি। এখানেই MinIO খেলায় আসে। আপনি আপনার নথিগুলিকে এমন একটি স্টোরেজ সমাধানে সঞ্চয় করতে চাইবেন যাতে আপনি ব্যবহার করছেন এমন সমস্ত ক্ষমতা রয়েছে: আপনার প্রয়োজন অনুসারে স্কেল , স্কেলে পারফরম্যান্স , নির্ভরযোগ্য , ত্রুটি সহনশীল , এবং একটি ক্লাউড নেটিভ ইন্টারফেস । নীচের লাইনটি হল আপনাকে একটি ডেটা পাইপলাইন তৈরি করতে হবে যা একাধিক উত্স থেকে কাঁচা ডেটা একত্রিত করে এবং তারপর এটিকে এলএলএম দ্বারা ব্যবহারের জন্য রূপান্তরিত করে। নীচের চিত্রটি একটি সংস্থার মধ্যে বিদ্যমান বিভিন্ন উত্স এবং উচ্চ-স্তরের পরীক্ষাগুলি দেখায় যা ঘটতে হবে৷
কাঁচা ডেটাকে মানসম্পন্ন ডেটাতে রূপান্তর করার জন্য প্রয়োজনীয় নিরাপত্তা এবং গুণমান যাচাইয়ের মাধ্যমে ডেটা পাইপলাইনটি ঘনিষ্ঠভাবে দেখে নেওয়া যাক।
সংস্থাগুলি সমস্ত নথির উত্সগুলির একটি তালিকা গ্রহণ করে শুরু করা উচিত৷ প্রতিটি নথির উত্সের জন্য, পাওয়া সমস্ত নথি তালিকাভুক্ত করা উচিত। লাইসেন্সিং এবং নিরাপত্তা সংক্রান্ত নথিগুলি পর্যালোচনা করা উচিত। কিছু নথি আপনার সমাধান থেকে বাদ দেওয়া প্রয়োজন হতে পারে. এই প্রক্রিয়ার একটি গুরুত্বপূর্ণ অংশ হ'ল সীমাবদ্ধ ডেটা সনাক্ত করা যা আপনার জেনারেটিভ এআই সমাধানে অন্তর্ভুক্ত হওয়ার আগে সংশোধন করা দরকার।
একবার আপনি নিরাপত্তা এবং লাইসেন্সের জন্য আপনার নথিগুলি পর্যালোচনা করলে, গুণমান পরীক্ষা পরবর্তী। উদাহরণস্বরূপ, সত্যবাদিতা, বৈচিত্র্য (যদি তারা মানুষের সম্পর্কে হয়) এবং অপ্রয়োজনীয়তা। উচ্চ-মানের ডেটা ছাড়া সঠিক মডেল তৈরি করা যায় না। এটি প্রচলিত AI (তত্ত্বাবধানে শিক্ষা, আনসুপারভাইজড লার্নিং এবং রিইনফোর্সমেন্ট লার্নিং)-এর ক্ষেত্রে সত্য - এবং এটি বিশেষ করে জেনারেটিভ এআই-এর ক্ষেত্রে সত্য। নিম্নমানের নথি, অপ্রয়োজনীয় নথি এবং নথিতে ভুল তথ্য ধারণ করে এলএলএম থেকে প্রতিক্রিয়াগুলিকে পাতলা করবে বা এমনকি হ্যালুসিনেশন তৈরি করবে।
একটি আরো বিস্তারিত পাইপলাইনের একটি ভিজ্যুয়ালাইজেশন এই মত দেখায়:
স্টোরেজ সলিউশনের গুরুত্ব সম্পর্কে কিছু চিন্তাভাবনা: আপনার কোয়ালিটি ডকুমেন্টগুলি এমন একটি স্টোরেজ সলিউশনে থাকা দরকার যা ট্রেনিং, ফাইন-টিউনিং এবং ইনফারেন্সের জন্য আপনার ডেটা দ্রুত পরিবেশন করতে পারে। আপনার প্রকৌশলীরা যত বেশি পরীক্ষা চালাতে পারবেন, আপনার মডেলগুলি শেষ পর্যন্ত তত ভাল পারফর্ম করবে। আপনি পরীক্ষা-নিরীক্ষার ট্র্যাক রাখতে, প্রক্রিয়াকৃত ডেটা সংরক্ষণ করতে এবং আপনার মডেলগুলির সংস্করণ করতে চাইবেন। এই তথ্যটি সরাসরি MinIO-তে সংরক্ষণ করে বা আপনার পছন্দের MLOP টুল ব্যবহার করে ম্যানুয়ালি করা যেতে পারে। অনেক MLOP টুল হুডের নিচে অবজেক্ট স্টোরেজ ব্যবহার করে। উদাহরণস্বরূপ, DataBricks থেকে MLFlow এবং Google থেকে KubeFlow উভয়ই MinIO ব্যবহার করে। উপরন্তু, উপরের চিত্রে চিত্রিত MinIO-এর উদাহরণ একটি আধুনিক ডেটা লেকের বাস্তবায়ন থেকে আসা উচিত। একটি আধুনিক ডেটা লেক হল একটি সিস্টেম আর্কিটেকচারের কেন্দ্র যা এআই সমর্থন করতে পারে।
চলুন এগিয়ে চলুন এবং আলোচনা করা যাক কিভাবে এলএলএম আপনার মানসম্পন্ন নথি সম্বলিত অবজেক্ট স্টোর ব্যবহার করতে পারে।
এই বিভাগে, আমরা ডোমেন-নির্দিষ্ট বিষয়বস্তু তৈরি করতে ওপেন-সোর্স এলএলএম এবং আপনার মানসম্পন্ন নথি ব্যবহারের দুটি উপায় দেখব। এই দুটি কৌশল হল ফাইন-টিউনিং এবং রিট্রিভাল অগমেন্টেড জেনারেশন (RAG)।
যখন আমরা একটি মডেল ফাইন-টিউন করি, তখন আমরা কাস্টম তথ্যের সাথে এটিকে আরও একটু প্রশিক্ষিত করি। এটি একটি ডোমেন-নির্দিষ্ট এলএলএম পাওয়ার একটি ভাল উপায় হতে পারে। যদিও এই বিকল্পটির জন্য আপনার কাস্টম কর্পাসের বিরুদ্ধে সূক্ষ্ম-টিউনিং সম্পাদন করার জন্য গণনার প্রয়োজন হয়, এটি স্ক্র্যাচ থেকে একটি মডেলকে প্রশিক্ষণ দেওয়ার মতো নিবিড় নয় এবং একটি পরিমিত সময় ফ্রেমে সম্পন্ন করা যেতে পারে।
যদি আপনার ডোমেনে এমন শর্ত থাকে যা দৈনন্দিন ব্যবহারে পাওয়া যায় না, তাহলে সূক্ষ্ম টিউনিং এলএলএম-এর প্রতিক্রিয়াগুলির গুণমানকে উন্নত করবে। উদাহরণস্বরূপ, যে প্রকল্পগুলি চিকিৎসা গবেষণা, পরিবেশগত গবেষণা এবং প্রাকৃতিক বিজ্ঞানের সাথে সম্পর্কিত যেকোন কিছুর নথি ব্যবহার করবে সেগুলি ফাইন-টিউনিং থেকে উপকৃত হবে। ফাইন-টিউনিং আপনার নথিতে পাওয়া অত্যন্ত নির্দিষ্ট আঞ্চলিক ভাষা নেয় এবং সেগুলিকে মডেলের প্যারামেট্রিক প্যারামিটারে বেক করে।
অসুবিধা
ফাইন-টিউনিংয়ের জন্য গণনা সংস্থানগুলির প্রয়োজন হবে।
ব্যাখ্যা করা সম্ভব নয়।
আপনার কর্পাস বিকশিত হওয়ার সাথে সাথে আপনাকে পর্যায়ক্রমে নতুন ডেটার সাথে পুনরায় সূক্ষ্ম-টিউন করতে হবে।
হ্যালুসিনেশন একটি উদ্বেগের বিষয়।
সুবিধাদি
এলএলএম আপনার কাস্টম কর্পাস থেকে ফাইন-টিউনিংয়ের মাধ্যমে জ্ঞান রাখে।
RAG-এর তুলনায় মূল্যের জন্য ভাল সময়।
যদিও ফাইন-টিউনিং হল আপনার ব্যবসার ভাষা সম্পর্কে LLM শেখানোর একটি ভাল উপায়, এটি ডেটা কমিয়ে দেয় কারণ বেশিরভাগ LLM-এ বিলিয়ন প্যারামিটার থাকে এবং আপনার ডেটা এই সমস্ত প্যারামিটার জুড়ে ছড়িয়ে পড়ে৷
আসুন এমন একটি কৌশল দেখি যা অনুমানের সময়ে আপনার কাস্টম ডেটা এবং প্যারামেট্রিক ডেটাকে একত্রিত করে।
পুনরুদ্ধার অগমেন্টেড জেনারেশন (RAG) হল এমন একটি কৌশল যা প্রশ্ন জিজ্ঞাসা করা থেকে শুরু হয় - এটিকে অতিরিক্ত ডেটা দিয়ে বিয়ে করে, এবং তারপর প্রশ্ন এবং ডেটা একটি LLM এবং সামগ্রী তৈরির জন্য একটি ভেক্টর ডাটাবেসে পাস করে৷ RAG-এর সাথে, কোনো প্রশিক্ষণের প্রয়োজন নেই কারণ আমরা আমাদের মানসম্পন্ন নথির কর্পাস থেকে প্রাসঙ্গিক পাঠ্য স্নিপেট পাঠিয়ে এলএলএমকে শিক্ষিত করি।
এটি একটি প্রশ্ন-উত্তর টাস্ক ব্যবহার করে এই মত কাজ করে: একজন ব্যবহারকারী আপনার অ্যাপ্লিকেশনের ব্যবহারকারী ইন্টারফেসে একটি প্রশ্ন জিজ্ঞাসা করে। আপনার অ্যাপ্লিকেশনটি প্রশ্নটি নেবে - বিশেষ করে এর মধ্যে থাকা শব্দগুলি - এবং, একটি ভেক্টর ডাটাবেস ব্যবহার করে, প্রাসঙ্গিকভাবে প্রাসঙ্গিক পাঠ্য স্নিপেটের জন্য আপনার গুণমানের নথির সংগ্রহ অনুসন্ধান করুন৷ এই স্নিপেটগুলি, মূল প্রশ্নের সাথে, এলএলএম-এ পাঠানো হয়। এই সম্পূর্ণ প্যাকেজ - প্রশ্ন প্লাস স্নিপেট (প্রসঙ্গ) একটি প্রম্পট হিসাবে পরিচিত। LLM আপনার উত্তর তৈরি করতে এই তথ্য ব্যবহার করবে। এটি একটি মূর্খ জিনিস মনে হতে পারে - আপনি যদি ইতিমধ্যেই উত্তর (স্নিপেট) জানেন তবে কেন এলএলএম নিয়ে বিরক্ত করবেন? ভাল - মনে রাখবেন - এটি রিয়েল-টাইমে ঘটছে এবং লক্ষ্যটি তৈরি করা পাঠ্য - এমন কিছু যা আপনি আপনার গবেষণায় অনুলিপি এবং পেস্ট করতে পারেন৷ আপনার কাস্টম কর্পাস থেকে তথ্য একত্রিত করে এমন পাঠ্য তৈরি করতে আপনার LLM প্রয়োজন।
এটি ফাইন-টিউনিংয়ের চেয়ে আরও জটিল। আপনি ভেক্টর ডাটাবেস সম্পর্কে শুনে থাকতে পারেন - একটি প্রশ্নের জন্য সর্বোত্তম প্রসঙ্গ খোঁজার সময় তারা একটি মূল উপাদান। ভেক্টর ডাটাবেস সেট আপ করা কঠিন হতে পারে। আপনার যদি একটি সাধারণ অন্তর্বর্তী সমাধানের প্রয়োজন হয়, আপনি ইলাস্টিক অনুসন্ধানের মতো একটি পাঠ্য অনুসন্ধান সরঞ্জাম ব্যবহার করতে পারেন। যাইহোক, ভেক্টর ডেটাবেসগুলি আরও ভাল কারণ তারা শব্দের শব্দার্থিক অর্থ শিখতে পারে এবং একই বা একই অর্থ সহ বিভিন্ন শব্দ ব্যবহার করে এমন একটি প্রসঙ্গে টানতে পারে।
অসুবিধা
একটি ভেক্টর ডাটাবেস প্রয়োজন.
সূক্ষ্ম-টিউনিংয়ের তুলনায় মূল্যের জন্য দীর্ঘ সময়। (ভেক্টর ডাটাবেস এবং এলএলএম-এর কাছে অনুরোধ পাঠানোর আগে প্রয়োজনীয় প্রাক-প্রক্রিয়াকরণের কারণে।)
সুবিধাদি
জেনারেটিভ এআই-এর সফল বাস্তবায়ন যথাযথভাবে পরিকল্পনা করতে ইচ্ছুক যেকোনো উদ্যোগের নাগালের মধ্যে।
সমস্ত জিনিসের মত এআই - জেনারেটিভ এআই ডেটা দিয়ে শুরু হয়। বৃহৎ ভাষার মডেলগুলির জন্য প্রয়োজনীয় ডেটা যা পাওয়ার জেনারেটিভ AI হল কাস্টম কর্পাস যা আপনার ফায়ারওয়ালের মধ্যে অনন্য জ্ঞানকে সংজ্ঞায়িত করে। পাঠ্য-ভিত্তিক নথিতে নিজেকে সীমাবদ্ধ করবেন না। অডিও এবং ভিডিও উভয় ফর্ম্যাটে প্রশিক্ষণের ভিডিও, রেকর্ড করা মিটিং এবং রেকর্ড করা ইভেন্ট ব্যবহার করা যেতে পারে। একটি ডেটা পাইপলাইন তৈরি করা সহজ হবে না, একই সাথে গুণমান নিশ্চিত করার সাথে সাথে সুরক্ষা এবং লাইসেন্সিং সংরক্ষণের যত্ন নেওয়া উচিত।
ওপেন-সোর্স মডেলগুলি ডিজাইনিং মডেলগুলির জটিলতাকে সরিয়ে দেয় এবং যেহেতু বেশিরভাগই প্রশিক্ষিত, তাই তারা প্রাথমিক প্রশিক্ষণের উচ্চ খরচও সরিয়ে দেয়। এটি উত্পন্ন সামগ্রীর গুণমান উন্নত করে কিনা তা দেখার জন্য সংস্থাগুলিকে ফাইন-টিউনিং দিয়ে পরীক্ষা করা উচিত।
অবশেষে, পুনরুদ্ধার অগমেন্টেড জেনারেশন (RAG) হল একটি শক্তিশালী কৌশল যা আপনার প্রতিষ্ঠানের নথির কাস্টম কর্পাসের জ্ঞানকে একটি এলএলএম-এর প্যারামেট্রিক জ্ঞানের সাথে একত্রিত করতে ব্যবহার করা যেতে পারে। ফাইন-টিউনিংয়ের বিপরীতে, আপনার কর্পাস থেকে পাওয়া তথ্য মডেলের প্যারামেট্রিক প্যারামিটারে প্রশিক্ষিত নয়। বরং, প্রাসঙ্গিক স্নিপেটগুলি অনুমানের সময়ে অবস্থিত এবং প্রসঙ্গ হিসাবে মডেলে প্রেরণ করা হয়।
জেনারেটিভ এআই একটি নতুন প্রযুক্তি এবং নতুন প্রযুক্তির জন্য অবকাঠামোগত আপডেট প্রয়োজন। জেনারেটিভ AI সম্পর্কে গুরুতর সংস্থাগুলির জন্য, পরবর্তী পদক্ষেপ হল একটি সিস্টেম আর্কিটেকচার তৈরি করা যাতে একটি AI/ML পাইপলাইন, একটি ডেটা পাইপলাইন, একটি আধুনিক ডেটা লেক এবং একটি ভেক্টর ডেটাবেস (যদি RAG ব্যবহার করা হয়) অন্তর্ভুক্ত থাকে। এই পোস্টে, আমি এই প্রযুক্তিগুলিকে উচ্চ স্তরে কভার করেছি।
জেনারেটিভ এআই সিস্টেম আর্কিটেকচারের আরও বিস্তারিত ব্যাখ্যার জন্য এই ব্লগের সাথে থাকুন। আপনার যদি কোন প্রশ্ন থাকে, আমাদেরকে [email protected] এ পিং করুন বা স্ল্যাক সম্প্রদায়ে যোগ দিন।
এছাড়াও এখানে উপস্থিত হয়.