ডাটাবেসের সাথে ইন্টারঅ্যাক্ট করার জন্য প্রায়ই প্রযুক্তিগত দক্ষতার একটি স্তরের প্রয়োজন হয় যা অনেক লোকের সহজ নাগালের বাইরে ডেটা রাখতে পারে। একজন ফাইন্যান্স এক্সিকিউটিভকে বিবেচনা করুন যাকে কোম্পানির আর্থিক সংখ্যা এবং প্রবণতা বুঝতে হবে। ঐতিহ্যগতভাবে, এই নির্বাহীকে ডাটাবেস থেকে প্রয়োজনীয় ডেটা বের করার জন্য SQL বিশ্লেষকদের উপর নির্ভর করতে হবে। এই নির্ভরতা বিলম্ব এবং যোগাযোগের ফাঁকের কারণ হতে পারে, বিশেষ করে যদি এক্সিকিউটিভকে পছন্দসই অন্তর্দৃষ্টি পেতে তাদের প্রশ্নগুলি একাধিকবার পরিমার্জন করতে হয়।
কিন্তু text2SQL, এমন একটি ক্ষমতা যা প্রাকৃতিক ভাষাকে কাঠামোগত ক্যোয়ারী ল্যাঙ্গুয়েজ স্টেটমেন্টে রূপান্তর করে, গেমটিকে পরিবর্তন করেছে। টেক্সট2এসকিউএল-এর মাধ্যমে, ফিনান্স এক্সিকিউটিভ প্রাকৃতিক ভাষা ব্যবহার করে ডাটাবেসের সাথে সরাসরি যোগাযোগ করতে পারে। উদাহরণস্বরূপ, একজন ব্যবহারকারী একটি ব্যবসা-মুখী প্রশ্ন ইনপুট করতে পারেন যেমন "গত মাসে প্রতিটি গ্রাহকের জন্য গড় অর্ডার মান কত ছিল?"
টেক্সট-টু-এসকিউএল এআই ইঞ্জিন প্রশ্নটি প্রক্রিয়া করবে এবং সংশ্লিষ্ট SQL কোয়েরি তৈরি করবে:
Select customer_id, AVG(order_value) AS average_order_value FROM orders WHERE order_date >= DATE_SUB(CURRDATE(), INTERVAL 1 MONTH) GROUP BY customer_id;
তারপর ডাটাবেসের বিরুদ্ধে এটি চালান এবং ব্যবহারকারীর কাছে ফলাফল প্রদর্শন করুন।
এই প্রবন্ধে, আমরা text2SQL-এ LLM-এর ভূমিকা ব্যাখ্যা করব, এই ক্ষমতার অন্তর্নিহিত চ্যালেঞ্জগুলি নিয়ে আলোচনা করব এবং SherloQ অন্বেষণ করব, স্কাইপয়েন্ট টিম দ্বারা তৈরি একটি অত্যন্ত নির্ভুল এবং মজবুত text2SQL ইঞ্জিন৷
বড় ভাষা মডেল (LLMs) এর সাহায্যে text2SQL রূপান্তর করার ক্ষমতা উল্লেখযোগ্যভাবে উন্নত হয়েছে। এই মডেলগুলি মানুষের মতো টেক্সট বুঝতে এবং তৈরি করতে প্রচুর পরিমাণে ডেটা এবং শক্তিশালী নিউরাল নেটওয়ার্ক আর্কিটেকচার ব্যবহার করে। বিভিন্ন ডেটাসেটের উপর প্রশিক্ষণের মাধ্যমে, এলএলএমগুলি এসকিউএল কোয়েরিতে প্রাকৃতিক ভাষার অনুবাদ সহ বিভিন্ন কাজ জুড়ে সাধারণীকরণ করতে পারে।
উদাহরণ স্বরূপ, " ভাষা মডেলগুলি কিছু-শট লার্নার্স " কাগজটি দেখায় যে কীভাবে এলএলএমগুলি ন্যূনতম উদাহরণ সহ কাজগুলি সম্পাদন করতে পারে, সীমিত ডেটা সহ নতুন কাজের সাথে খাপ খাইয়ে নেওয়ার তাদের ক্ষমতা তুলে ধরে। এই পদ্ধতিটি ব্যাপকভাবে টাস্ক-নির্দিষ্ট ডেটার প্রয়োজনীয়তাকে উল্লেখযোগ্যভাবে হ্রাস করে, যা বিভিন্ন অ্যাপ্লিকেশনে এলএলএম স্থাপন করা সহজ করে তোলে।
" স্পাইডার: কমপ্লেক্স এবং ক্রস-ডোমেন শব্দার্থিক পার্সিং এবং টেক্সট-টু-এসকিউএল টাস্কের জন্য একটি বড়-স্কেল মানব-লেবেলযুক্ত ডেটাসেট " বিভিন্ন ডোমেন জুড়ে জটিল SQL কোয়েরির মডেলের প্রশিক্ষণ এবং মূল্যায়নের জন্য একটি ব্যাপক ডেটাসেট প্রদান করে। এই ডেটাসেটটি মডেল পারফরম্যান্সের জন্য একটি শক্তিশালী বেঞ্চমার্ক প্রদান করে টেক্সট2এসকিউএল-এ অত্যাধুনিক অগ্রগতির ক্ষেত্রে অগ্রণী ভূমিকা পালন করেছে।
উপরন্তু, " PALM: Scaling Language Modeling with Pathways ," কিভাবে উন্নত প্রশিক্ষণ কৌশল, যেমন মডেলের আকার স্কেল করা এবং প্রশিক্ষণের পথ অপ্টিমাইজ করা, টেক্সট2এসকিউএল সহ বিভিন্ন অ্যাপ্লিকেশনে মডেলের কর্মক্ষমতা বাড়াতে পারে তা অন্বেষণ করে।
যদিও এই এলএলএমগুলি নিয়ন্ত্রিত পরিবেশে অত্যন্ত কার্যকর, তারা প্রায়শই উত্পাদন সেটিংসে চ্যালেঞ্জের মুখোমুখি হয়। এর মধ্যে রয়েছে অস্পষ্ট প্রম্পট পরিচালনা, জটিল ডাটাবেস স্কিমা পরিচালনা এবং রিয়েল-টাইম কর্মক্ষমতা নিশ্চিত করা। উপরন্তু, বিদ্যমান সিস্টেমে এই মডেলগুলিকে একীভূত করার জন্য ডেটা এবং ব্যবহারকারীর প্রয়োজনীয়তার পরিবর্তনের সাথে খাপ খাইয়ে নেওয়ার জন্য উল্লেখযোগ্য প্রচেষ্টা এবং চলমান রক্ষণাবেক্ষণ প্রয়োজন। এখানে তিনটি এলএলএম রয়েছে যা এই কাজের জন্য ভাল কাজ করে:
এসকিউএলকোডারের মূল উদ্দেশ্য হল প্রাকৃতিক ভাষা ইনপুটকে এসকিউএল কোয়েরিতে রূপান্তর করা। অন্যান্য সাধারণ-উদ্দেশ্য মডেলের বিপরীতে, SQLCoderকে SQL-এর জন্য নির্দিষ্ট ডেটাতে পরিমার্জিত করা হয়েছে, তাই এটি SQL কোয়েরি বোঝার এবং তৈরি করার ক্ষেত্রে বিশেষভাবে কার্যকর। SQLCoder স্পাইডার ডেটাসেটে একটি উল্লেখযোগ্য কর্মক্ষমতা প্রদর্শন করে, একটি জটিল, এবং text2SQL সিস্টেমের জন্য ক্রস-ডোমেন বেঞ্চমার্ক।
SQLCoder 64.6% নির্ভুলতার সাথে প্রশিক্ষণে দেখা যায় না এমন অভিনব স্কিমাগুলির জন্য সঠিক SQL কোয়েরি তৈরি করে। এটি GPT-3.5-টার্বো এবং টেক্সট-ডেভিন্সি-003-কে ছাড়িয়ে যায়, যেগুলি তার আকারের 10x বেশি মডেল। এটি বিভিন্ন এবং জটিল SQL কোয়েরি পরিচালনা করার জন্য SQLCoder এর ক্ষমতা হাইলাইট করে, যা উৎপাদন পরিবেশের জন্য গুরুত্বপূর্ণ।
GPT-3.5 এবং GPT-4 (জেনারেটিভ প্রাক-প্রশিক্ষিত ট্রান্সফরমার) হল সবচেয়ে উন্নত এবং কার্যকর সাধারণ-উদ্দেশ্য ভাষার মডেলগুলির মধ্যে কয়েকটি। উভয় মডেলই অল্প-শট শেখার ক্ষেত্রে দক্ষতা অর্জন করে, দ্রুত ন্যূনতম উদাহরণ সহ নতুন কাজের সাথে খাপ খাইয়ে নেয়, যা সীমিত ইনপুট থেকে SQL কোয়েরি তৈরির জন্য আদর্শ।
উদাহরণ স্বরূপ, যখন স্পাইডার ডেটাসেটে মূল্যায়ন করা হয়, GPT-3.5-টার্বোতে 60.6% প্রশিক্ষণে দেখা যায় নি, যেখানে GPT-4-এর 74.3% অর্জন করা হয়।
এই মডেলগুলি দৃঢ় কর্মক্ষমতা প্রদর্শন করে, বিশেষ করে প্রেক্ষাপট বোঝা এবং জটিল প্রাকৃতিক ভাষা ইনপুট থেকে সঠিক SQL কোয়েরি তৈরি করে। যাইহোক, তাদের সাধারণ-উদ্দেশ্য ডিজাইনের জন্য কখনও কখনও এসকিউএল জেনারেশনের মতো বিশেষ অ্যাপ্লিকেশনগুলিতে সর্বোত্তম ফলাফলের জন্য অতিরিক্ত সূক্ষ্ম টিউনিংয়ের প্রয়োজন হয়।
PaLM (পাথওয়েস ল্যাঙ্গুয়েজ মডেল) এসকিউএল হল গুগলের তৈরি আরেকটি শক্তিশালী মডেল। PaLM SQL-এর উন্নত ক্ষমতা এবং স্থাপত্য এটিকে SQL কোয়েরিতে প্রাকৃতিক ভাষা অনুবাদ করতে এবং জটিল এবং বিভিন্ন ডাটাবেস স্কিমাগুলিকে আরও নির্ভুলতার সাথে পরিচালনা করতে অত্যন্ত দক্ষ করে তোলে।
এলএলএম-এর অগ্রগতি সত্ত্বেও, উৎপাদনে টেক্সট2এসকিউএল-এর জন্য একটি একক এলএলএম-এর উপর নির্ভর করা সমস্যাযুক্ত হতে পারে। একটি একক মডেল বিভিন্ন ধরণের প্রশ্ন, ডাটাবেস স্কিমা এবং একটি এন্টারপ্রাইজ ডেটা পরিবেশের রিয়েল-টাইম লেটেন্সি প্রয়োজনীয়তাগুলি কার্যকরভাবে পরিচালনা করতে সক্ষম হবে না।
উত্পাদনের পরিবেশগুলি দৃঢ়তা, অভিযোজনযোগ্যতা এবং বাস্তব-বিশ্বের ব্যবসায়িক ব্যবহারকারীদের কাছ থেকে অস্পষ্ট প্রম্পটগুলি মোকাবেলা করার ক্ষমতার দাবি করে। অতএব, একটি টেক্সট2এসকিউএল ইঞ্জিনের তিনটি বৈশিষ্ট্য প্রদর্শন করা উচিত যা উৎপাদন-গ্রেড হিসাবে বিবেচিত হবে:
বিভিন্ন ক্যোয়ারী ফর্মুলেশন বোঝার ক্ষমতা - সিনট্যাক্টিক্যালি ভিন্ন ইউজার প্রম্পট একই SQL ক্যোয়ারীতে কমানো যেতে পারে; একটি ভাল টেক্সট2এসকিউএল ইঞ্জিন ব্যবহারকারীর প্রম্পটের পিছনে অনুপ্রেরণা বুঝতে সক্ষম হওয়া উচিত, ডেটা মডেলের প্রসঙ্গটি মাথায় রেখে, এবং সেই অনুযায়ী এসকিউএল কোয়েরি তৈরি করা উচিত।
অস্পষ্ট ডাটাবেস স্কিমা এবং ডেটা মডেলগুলির সাথে কাজ করার ক্ষমতা - প্রোডাকশন ডেটা মডেলগুলি একটি সংস্থার মধ্যে একাধিক ভিন্ন দলের সাথে বিশৃঙ্খল হওয়ার প্রবণতা রয়েছে যা তাদের অবদান রাখে এবং তার জীবনচক্র জুড়ে একাধিকবার ডেটা মালিকানা পরিবর্তন করে।
একটি ভাল টেক্সট2এসকিউএল ইঞ্জিনের ব্যবহারকারীর জন্য ডেটা মডেলকে দ্ব্যর্থতা নিরসনে এবং গোলমাল এবং অস্পষ্টতা হ্যালুসিনেশনের দিকে পরিচালিত না করে তা নিশ্চিত করার ক্ষমতা থাকা উচিত, বর্তমান এলএলএম-এর একটি বৈশিষ্ট্য যা প্রচুর উৎপাদন ব্যবহারকারীকে বাধা দেয়।
এটি নিশ্চিত করা উচিত যে ইঞ্জিনের কাজগুলি কোয়েরি সম্পাদনে উল্লেখযোগ্য দেরি না যোগ করে - একজন ব্যবহারকারী রিয়েল-টাইমে যে উত্তরগুলি আশা করে তা রিয়েল-টাইমে ফিরে আসা উচিত। এর মানে হল যে ইঞ্জিনটিকে সর্বাধিক প্রথম তিনটি চেষ্টার মধ্যে সর্বোত্তম প্রশ্ন তৈরি করা উচিত।
SherloQ হল Skypoint-এর text2SQL ইঞ্জিন যা স্বাভাবিক ভাষা থেকে SQL-এ প্রশ্ন অনুবাদ করে। একটি কাস্টম ইন-হাউস (ক্যোয়ারী জেনারেশনের জন্য LLM এর আর্কিটেকচারের একটি উল্লেখযোগ্য অংশ), SherloQ এর কার্যকারিতা ডেটা কোয়েরি করার ক্ষমতা বাড়ানোর জন্য ডিজাইন করা উন্নত উপাদানগুলির সংমিশ্রণ থেকে আসে৷ SherloQ ক্যোয়ারী অনুবাদে উচ্চ নির্ভুলতা, শক্তিশালী ত্রুটি পরিচালনা এবং নির্বিঘ্নে গর্বিত উত্পাদন ডাটাবেস সিস্টেমের সাথে একীকরণ, এটিকে বড় আকারের ডেটা পরিবেশের জন্য উপযুক্ত করে তোলে।
পরের কয়েকটি বিভাগে, আমরা SherloQ-এর অভ্যন্তরীণ স্থাপত্যের বিশদ বিবরণ নিয়ে আলোচনা করব এবং উৎপাদন সেটিংসে এটি ব্যবহার করে আমরা যে ফলাফল অর্জন করেছি তার কিছু শেয়ার করব।
SherloQ এর আর্কিটেকচারে একাধিক চলমান টুকরা রয়েছে যা প্রতিটি সিস্টেমের নির্ভুলতা, নির্ভরযোগ্যতা এবং লেটেন্সি উন্নত করতে কাজ করে। এখানে স্থাপত্যের একটি ওভারভিউ:
ব্যবহারকারীর ইনপুট - ব্যবহারকারীর ইনপুট একটি প্রাকৃতিক ভাষা প্রশ্ন।
স্টেট এজেন্ট Eeecutor- আমাদের একটি LangChain ইন্টারফেসের বাস্তবায়ন যা কার্যকরী প্রক্রিয়া জুড়ে রাষ্ট্রকে ট্র্যাক করে। এটি কার্যকর করার সময় যুক্তি এবং স্মৃতির অবস্থা ট্র্যাক করতে Redis এবং DataStax Astra DB ব্যবহার করে। নির্বাহক বিভিন্ন মডিউলের মধ্যে সমন্বয় সাধন করে অপারেশনের প্রবাহ পরিচালনা করে।
এটি নিশ্চিত করে যে ব্যবহারকারীর ইনপুটগুলি সঠিকভাবে পার্স করা হয়েছে, প্রক্রিয়া করা হয়েছে এবং পরবর্তী উপাদানগুলিতে ফরোয়ার্ড করা হয়েছে, ইনপুট থেকে SQL ক্যোয়ারী জেনারেশনে একটি প্রবাহ বজায় রাখে।
স্টেট টুল - ল্যাংচেইন বেস টুলের একটি বর্ধিত ক্লাস যার একটি স্টেট ভেরিয়েবল আছে এবং সেই স্টেটটিকে সংশ্লিষ্ট টুলে পাস করে। একটি স্টেট ভেরিয়েবল বজায় রাখার মাধ্যমে, স্টেট টুল প্রয়োজনীয় ডেটার ট্র্যাক রাখে যা সংশ্লিষ্ট টুলগুলিতে ফরোয়ার্ড করা দরকার। এটি ডেটা প্রবাহে ধারাবাহিকতা নিশ্চিত করে, এজেন্টদের মধ্যে স্থানান্তরের সময় তথ্যের কোনো ক্ষতি রোধ করে।
SherloQ এর রাষ্ট্রীয় সরঞ্জাম :
SherloQ-এর কর্মক্ষমতা বাড়াতে, আমরা বিভিন্ন কৌশল নিযুক্ত করি এবং মডেলটিকে গুরুত্বপূর্ণ ডেটা ইনপুট প্রদান করি। এর মধ্যে রয়েছে কাঠামোগত পচন, কয়েকটি শট উদাহরণ, ডেটা মডেল প্রসঙ্গ পুনরুদ্ধার, প্রতিফলন, এবং একটি পুনরায় চেষ্টা করার পদ্ধতি। প্রাকৃতিক ভাষা ইনপুট থেকে সুনির্দিষ্ট এবং প্রাসঙ্গিক SQL কোয়েরি তৈরি করার মডেলের ক্ষমতা উন্নত করার জন্য প্রতিটি অংশ অপরিহার্য।
কাঠামোগত পচনশীলতায়, ব্যবহারকারীর প্রম্পটকে তার মৌলিক অংশে বিভক্ত করা হয়। কোয়েরির প্রয়োজনীয় উপাদানগুলির উপর ফোকাস করা এবং চিহ্নিত করা মডেলটিকে সঠিক SQL তৈরি করতে সাহায্য করে। যেমন:
ইনপুট: XYZ Corp দ্বারা সরবরাহ করা সমস্ত আইটেমের জন্য বর্তমান পরিমাণ কত?
আউটপুট: ["বর্তমান পরিমাণ উপলব্ধ", "সমস্ত আইটেম", "XYZ কর্প দ্বারা সরবরাহ করা"]
মডেলটিকে কয়েকটি শট এসকিউএল উদাহরণ আকারে রেফারেন্স প্রশ্ন দেওয়া হয়েছে, যা এটিকে অনুরূপ প্যাটার্নের উপর ভিত্তি করে এসকিউএল কোয়েরি তৈরি করতে সহায়তা করে। এই উদাহরণগুলি বিভিন্ন প্রম্পটের জন্য সঠিকভাবে নতুন SQL কোয়েরি তৈরি করার মডেলের ক্ষমতাকে উন্নত করে যাতে এটি উদ্দেশ্যযুক্ত প্রশ্নের গঠন এবং বিন্যাস চিনতে সহায়তা করে। এখানে কয়েকটি উদাহরণ দেওয়া হল:
উদাহরণ 1
ইনপুট: উপলব্ধ 20 ইউনিটের কম পরিমাণ সহ আইটেম দেখান।
আউটপুট: স্টক থেকে নির্বাচন করুন যেখানে পরিমাণ_উপলব্ধ < 20;
উদাহরণ 2
ইনপুট: $100 এর উপরে দামের আইটেম সহ বিক্রেতাদের তালিকা করুন।
আউটপুট: নির্বাচন করুন * বিক্রেতাদের থেকে WHERE Vendor_ID IN (যেখানে ইউনিট_মূল্য > 100 আইটেম থেকে ভেন্ডর_আইডি নির্বাচন করুন);
আমরা গতিশীলভাবে Astra DB থেকে শব্দার্থগত মিল ব্যবহার করে সবচেয়ে অনুরূপ কয়েকটি শট উদাহরণ নির্বাচন করি যা আমাদের ভেক্টর ডাটাবেস। ভেক্টর ডাটাবেস আমাদেরকে নতুন ইনপুট কোয়েরির কাঠামো এবং বিষয়বস্তুতে সবচেয়ে কাছের উদাহরণগুলি খুঁজে বের করার অনুমতি দেয়, নিশ্চিত করে যে মডেলটি সঠিক SQL কোয়েরি তৈরি করতে সবচেয়ে প্রাসঙ্গিক নিদর্শনগুলি ব্যবহার করতে পারে।
আমাদের উৎপাদন পরিবেশে, আমরা প্রতি ক্যোয়ারীতে গড়ে প্রায় দুটি কয়েক শট উদাহরণ করি। আমাদের অভিজ্ঞতায়, নির্ভুলতা উন্নত করতে আরও কয়েকটি-শট উদাহরণ যোগ করা একটি মাপযোগ্য অনুশীলন নয়।
ডেটা মডেল প্রসঙ্গে ডোমেন-নির্দিষ্ট বিবরণ রয়েছে যা একটি SQL কোয়েরি তৈরি করতে কার্যকর হতে পারে। উদাহরণস্বরূপ, একটি হাসপাতালের নেটওয়ার্কের জন্য আর্থিক তথ্যের পরিপ্রেক্ষিতে, এগুলি ফিনান্স মেট্রিক কোড এবং তাদের বিবরণের মতো জিনিস হতে পারে। এই প্রসঙ্গটি মডেল দ্বারা ব্যবহৃত হয় তা নিশ্চিত করতে যে SQL কোয়েরিগুলি তৈরি করা হয়েছে ডোমেনের ডেটা কাঠামোর সাথে মেলে। ডেটা মডেল প্রসঙ্গ অন্তর্ভুক্ত করা ঐচ্ছিক এবং শুধুমাত্র যখন টেবিলটি জটিল হয় এবং একটি SQL ক্যোয়ারী তৈরি করার জন্য ডোমেন জ্ঞানের প্রয়োজন হয় তখনই এটি প্রয়োজনীয়।
যেমন:
মেট্রিক কোড: " MGMTFEE " -> বর্ণনা: "সম্পত্তি পরিচালনার জন্য ফি সংগৃহীত - ব্যবস্থাপনা ফি"
SQL DB স্কিমা হল উপলব্ধ ডেটার কাঠামোগত উপস্থাপনা। টেবিল এবং এর কলাম উভয় টীকা দিয়ে স্কিমা সমৃদ্ধ করা হয়। এটি কলাম, তাদের বিবরণ এবং ডেটা প্রকার সহ টেবিলের নাম এবং বিবরণ অন্তর্ভুক্ত করে।
স্কিমা প্রদান করা মডেলটিকে ডাটাবেস গঠন এবং প্রতিটি টেবিল এবং কলামের সাথে সম্পর্কিত অর্থ বুঝতে সাহায্য করে, এটি নিশ্চিত করে যে তৈরি করা SQL কোয়েরিগুলি সিনট্যাক্টিকভাবে সঠিক এবং সঠিক ডাটাবেস উপাদানগুলি ব্যবহার করে।
প্রতিফলন বলতে মডেলের নিজস্ব অতীত প্রতিক্রিয়া, আচরণ বা উত্পন্ন বিষয়বস্তু মূল্যায়ন ও মূল্যায়ন করার ক্ষমতা বোঝায়। এটি মডেলটিকে ত্রুটি বা দুর্বলতা সনাক্ত এবং সংশোধন করে তার প্রতিক্রিয়াগুলিকে পরিমার্জিত করার অনুমতি দেয়। প্রক্রিয়াটির মধ্যে ক্যোয়ারী জেনারেশন পর্বের সময় প্রতিক্রিয়া সহ Sherloq ইঞ্জিন দ্বারা পূর্বে দেখা প্রশ্নগুলি বিবেচনা করা অন্তর্ভুক্ত।
এই পরিস্থিতিগুলি মডেলটিকে সাফল্যের প্রতিলিপি করতে বা অতীতে দেখা অনুরূপ প্রশ্নের ব্যর্থতা এড়াতে সহায়তা করে। এই পদক্ষেপটি বর্তমানের সাথে সবচেয়ে শব্দার্থগতভাবে অনুরূপ প্রশ্নগুলি খুঁজে পেতে Astra DB-কেও ব্যবহার করে।
SherloQ ডাটাবেস থেকে প্রাপ্ত ত্রুটিগুলি ব্যবহার করে একটি পুনঃপ্রচেষ্টা প্রক্রিয়া অন্তর্ভুক্ত করে। যখন একটি জেনারেট করা SQL ক্যোয়ারী একটি ত্রুটি দেখা দেয়, তখন ইঞ্জিন ক্যোয়ারী সংশোধন করতে একটি পূর্বনির্ধারিত টেমপ্লেট সহ একটি এজেন্ট ব্যবহার করে:
"""
আপনার কাজ হল ANSI SQL এর সাথে সামঞ্জস্যপূর্ণ করার জন্য একটি প্রশ্ন থেকে জেনারেট করা একটি ভুল SQL কোয়েরি ঠিক করা। এই নির্দেশিকাগুলি অনুসরণ করুন: সঠিক উত্তরগুলি নিশ্চিত করতে প্রশ্ন, ডাটাবেস স্কিমা এবং প্রাপ্ত ত্রুটি বার্তাটি যত্ন সহকারে বিশ্লেষণ করুন। বিভ্রান্তি এড়াতে টেবিল উপনাম ব্যবহার করুন।
উদাহরণস্বরূপ, SELECT t1.col1, t2.col1 FROM table1 AS t1 JOIN table2 AS t2 ON t1.id = t2.id
.
রেশন গণনা করার সময়, সর্বদা লবটিকে একটি ফ্লোটে রূপান্তর করুন। নীচের বিন্যাস ব্যবহার করুন:
[প্রশ্ন] {user_input}
[/QUESTION] প্রশ্নের সমাধান করার জন্য একটি SQL ক্যোয়ারী তৈরি করুন: {sql_query} শেষ সম্পাদনের সময় প্রাপ্ত ত্রুটির বার্তাটি হল: {error_message}
উপরের ইনপুটগুলির উপর ভিত্তি করে, এখানে সংশোধন করা SQL কোয়েরি রয়েছে: {response_sql} """
উন্নত এলএলএম এবং একটি সু-পরিকল্পিত সিস্টেম ব্যবহার করে, SherloQ এসকিউএল কোয়েরি তৈরি করে যা আরও সুনির্দিষ্ট এবং প্রসঙ্গের সাথে প্রাসঙ্গিক। এখানে, আমরা লেটেন্সি এবং নির্ভুলতার মেট্রিক্স ব্যবহার করে SherloQ এর আগে এবং পরে ব্যবহারকারীর প্রম্পটের ফলাফল তুলনা করি।
এখানে, আমরা আমাদের প্রোডাকশন গ্রাহকদের একজনকে দেখি, একজন সুপরিচিত সিনিয়র লিভিং অপারেটর। তাদের ব্যবহারের ক্ষেত্রে একটি হল তাদের ফাইন্যান্স টিম স্কাইপয়েন্টের প্ল্যাটফর্ম ব্যবহার করে তাদের বিভিন্ন সিনিয়র লিভিং সুবিধার একত্রিত আর্থিক মেট্রিক্স বোঝার জন্য এবং যুক্তি দেখাতে।
ব্যবহারকারীর প্রম্পট: "2022 জুড়ে সিএম সুবিধার জন্য হাউসকিপিং খরচের ত্রৈমাসিক প্রবণতা নির্ধারণ করুন।"
SherloQ এর আগে
জেনারেট করা প্রশ্ন
SUM(Total_Amount_Numerator) / SUM(Total_Amount_Denominator) skypoint_metric_fact_denormalized_vw থেকে হাউসকিপিং_ব্যয় হিসাবে নির্বাচন করুন যেখানে সুবিধা_নাম = 'CM' এবং বছর = 2022 এবং মেট্রিক_একটি গ্রুপের নাম = 'বিনাম_পরিমাণ'
সমস্যা চিহ্নিত করা হয়েছে
Quarter_Number দ্বারা কোয়েরি গোষ্ঠী কিন্তু এটি নির্বাচন করে না, যা অসম্পূর্ণ ফলাফলের কারণ হতে পারে।
Metric_Code এর মত আরো নির্দিষ্ট শনাক্তকারীর পরিবর্তে Metric_Name ব্যবহার করুন।
শূন্য দ্বারা সম্ভাব্য বিভাজন SUM(Total_Amount_Denominator) এ পরিচালিত হয় না।
গড় বিলম্ব: 29 সেকেন্ড
আগে-শের্লোকিউ সেটআপে প্রম্পট ইঞ্জিনিয়ারিং সহ GPT-3.5 এর সংমিশ্রণ এবং প্রতি ব্যবহারকারীর প্রম্পটে 5+ কয়েকটি শট কোয়েরি ব্যবহার করা হয়েছিল।
SherloQ এর সাথে
নির্বাচন করুন বছর, ত্রৈমাসিক_সংখ্যা, SUM(মোট_পরিমাণ_সংখ্যা) / COALESCE(SUM(NULLIF(Total_Amount_Denominator,0)),1) skypoint_metric_fact_denormalized_vwWHERE = 'পরিমাণ_পরিমাণ 2022 গ্রুপ ত্রৈমাসিক_সংখ্যা অনুসারে, বছর ক্রম অনুসারে ত্রৈমাসিক_সংখ্যা ASC;
প্রোডাকশন ওয়ার্কলোডের বেঞ্চমার্কের উপর ভিত্তি করে, নীচের ফলাফলগুলি আমরা SherloQ এর আগে এবং এর সাথে নির্ভুলতা এবং নির্ভরযোগ্যতার বিষয়ে রিপোর্ট করি:
নির্ভুলতা: 65%
নির্ভরযোগ্যতা: 60%
নির্ভুলতা: 92%
নির্ভরযোগ্যতা: 90%
উপরের ফলাফলগুলি একটি অভ্যন্তরীণ বেঞ্চমার্ক স্যুট থেকে আঁকা হয়েছে যা ক্যাশিংয়ের প্রভাবগুলিকে (আমাদের অভ্যন্তরীণ সিস্টেমের পাশাপাশি মডেলগুলিতে) অস্বীকার করার জন্য পৃথক শনাক্তকারীর সাথে প্রতিটি প্রম্পট 100 বার কার্যকর করে। স্যুটটি কত ঘন ঘন একই রকম প্রতিক্রিয়া দেবে তা পরিমাপ করে একটি বেঞ্চমার্ক প্রতিক্রিয়া এবং নির্ভরযোগ্যতার সাথে প্রত্যাবর্তিত প্রতিক্রিয়ার তুলনা করে নির্ভুলতা পরিমাপ করে।
তুলনাটি স্পষ্টভাবে বর্ণনা করে যে SherloQ-এর সুবিধাগুলি প্রাকৃতিক ভাষার প্রশ্নগুলিকে সঠিক SQL কোয়েরিতে রূপান্তরিত করে৷ SherloQ এর পরে সামগ্রিক কর্মক্ষমতা 30% উন্নত হয়েছে। পূর্বে উত্পন্ন প্রশ্নগুলি অসম্পূর্ণ ফলাফল এবং ত্রুটি পরিচালনার অভাবের মতো সমস্যায় ভুগছিল, যা নির্ভুলতা এবং নির্ভরযোগ্যতা উভয়কেই প্রভাবিত করে।
SherloQ-এর সাহায্যে, জেনারেট করা প্রশ্নগুলি আরও সুনির্দিষ্ট, দক্ষ এবং দৃঢ়, লেটেন্সি, নির্ভুলতা এবং নির্ভরযোগ্যতার উল্লেখযোগ্য উন্নতি সহ। এই বর্ধিতকরণটি নির্ভরযোগ্য ডেটা পুনরুদ্ধার প্রদানের জন্য SherloQ এর ক্ষমতা দেখায়, এটি তাদের ডেটা অনুসন্ধান প্রক্রিয়াগুলিকে অপ্টিমাইজ করতে চাওয়া সংস্থাগুলির জন্য একটি মূল্যবান হাতিয়ার করে তোলে৷
স্কাইপয়েন্ট প্ল্যাটফর্মের অন্যান্য অংশগুলি অন্বেষণ করতে বা স্কাইপয়েন্ট এআই-এর একটি ডেমো বুক করতে, স্কাইপয়েন্ট ওয়েবসাইটে যান।
লিখেছেন অলোক রাজ, লিড এআই ইঞ্জিনিয়ার, স্কাইপয়েন্ট, এবং সায়নদীপ সরকার, হেড অফ ইঞ্জিনিয়ারিং, স্কাইপয়েন্ট