অনুসন্ধান সংস্থাগুলি কীভাবে অনুসন্ধান এবং এআই কাজ করে তা ব্যাখ্যা করা শুনতে বিভ্রান্তিকর হতে পারে। বিং চ্যাটজিপিটি যুক্ত করেছে যা বড় ভাষা মডেল (এলএলএম) ব্যবহার করে, তবে তার আগেও তাদের গভীর শিক্ষার ক্ষমতা ছিল। গুগল সম্প্রতি নতুন ছবি অনুসন্ধান ক্ষমতা এবং নিজস্ব এলএলএম পরিষেবা ঘোষণা করেছে। অ্যালগোলিয়াতে, আমরা আমাদের নিজস্ব AI-চালিত প্রযুক্তিও চালু করতে যাচ্ছি যা যেকোনো অ্যাপ্লিকেশনের জন্য বুদ্ধিমান অনুসন্ধানের স্কেল করতে নিউরাল হ্যাশিং ব্যবহার করে। এই শর্তাবলী সব বিভ্রান্তিকর হতে পারে.
আসুন অনুসন্ধানের সাথে জড়িত প্রযুক্তিগুলি ভেঙে দিয়ে এটি ঠিক করি।
কীওয়ার্ড সার্চ ইঞ্জিন কয়েক দশক ধরে আছে। Apache Lucene প্রজেক্ট হল অন্যতম সুপরিচিত ওপেন সোর্স সার্চ ইঞ্জিন যা কীওয়ার্ড সার্চ কার্যকারিতা প্রদান করে। এই ধরনের সার্চ ইঞ্জিন পরিসংখ্যানগত কৌশল ব্যবহার করে সূচকের আইটেমগুলির সাথে প্রশ্নগুলিকে মেলানোর জন্য। তারা বইয়ের পিছনের সূচীর মতো কাজ করে বইয়ের সমস্ত জায়গা যেখানে তথ্য রয়েছে তা নির্দেশ করে। টাইপো সহনশীলতা, শব্দ বিভাজন এবং স্টেমিং-এর মতো ক্যোয়ারী প্রসেসিং প্রযুক্তিগুলিও সার্চ ইঞ্জিনগুলিকে হজম করতে এবং বানান এবং ক্যোয়ারী বোঝার অনুভূতি তৈরি করতে ব্যবহার করা হয়।
মূলশব্দ অনুসন্ধান খুব দ্রুত হতে থাকে, এবং সঠিক ক্যোয়ারী-কীওয়ার্ড মিলের জন্য ভাল কাজ করে। যাইহোক, তারা প্রায়শই লং টেইল কোয়েরি, ধারণা অনুসন্ধান, প্রশ্ন-শৈলী অনুসন্ধান, প্রতিশব্দ এবং অন্যান্য বাক্যাংশগুলির সাথে লড়াই করে যেখানে ক্যোয়ারীটি সূচকের বিষয়বস্তুর সাথে ঠিক মেলে না। এই কারণে, অনেক কোম্পানি সাহায্য করার জন্য এআই প্রতিশব্দ প্রজন্মের মতো অতিরিক্ত বৈশিষ্ট্য যুক্ত করেছে।
শব্দার্থিক অনুসন্ধান একটি অনুসন্ধান ক্যোয়ারীতে শব্দ এবং বাক্যাংশের অর্থ বোঝা এবং শব্দার্থকভাবে কোয়েরির সাথে সম্পর্কিত ফলাফলগুলি ফেরত দেয়। শব্দার্থক অনুসন্ধান ইঞ্জিনগুলি শব্দ এবং বাক্যাংশগুলির অর্থ বোঝার জন্য এবং অনুসন্ধান ক্যোয়ারির সাথে প্রাসঙ্গিক হতে পারে এমন সম্পর্কিত ধারণা, প্রতিশব্দ এবং অন্যান্য সম্পর্কিত তথ্য খুঁজে পেতে প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (NLP) কৌশলগুলি ব্যবহার করে।
এআই সার্চ হল একটি সাধারণ এবং বিস্তৃত শব্দ যা সার্চ ফলাফল প্রদানের জন্য শব্দার্থিক অনুসন্ধানের পাশাপাশি অন্যান্য মেশিন লার্নিং কৌশল অন্তর্ভুক্ত করে। এআই অনুসন্ধানে সাধারণত ক্যোয়ারী প্রসেসিং, পুনরুদ্ধার এবং র্যাঙ্কিং সহ বেশ কয়েকটি ধাপ জড়িত থাকে।
ক্যোয়ারী প্রসেসিং : এই ধাপে ব্যবহারকারীর ক্যোয়ারী এর উদ্দেশ্য, সুযোগ এবং সীমাবদ্ধতা বোঝার জন্য বিশ্লেষণ করা জড়িত। ক্যোয়ারী প্রসেসিং এর মধ্যে ক্যোয়ারীটিকে এর উপাদান অংশে পার্স করা, কীওয়ার্ড এবং শব্দগুচ্ছের শব্দার্থিক বোঝাপড়া, একটি স্ট্যান্ডার্ড ফরম্যাটে ক্যোয়ারীকে স্বাভাবিক করা এবং আরও অনেক কিছু অন্তর্ভুক্ত থাকতে পারে।
পুনরুদ্ধার : একবার ক্যোয়ারী প্রক্রিয়া হয়ে গেলে, সিস্টেমটি নথি বা ডেটা আইটেমগুলির একটি সেট পুনরুদ্ধার করে যা প্রশ্নের মানদণ্ডের সাথে মেলে। AI সার্চ সাধারণত মেশিন লার্নিং অ্যালগরিদম ব্যবহার করে সাদৃশ্য নির্ধারণ করতে এবং প্রাসঙ্গিক ফলাফল প্রদানের জন্য পদগুলির মধ্যে সম্পর্কিততা পরিমাপ করে ।
র্যাঙ্কিং : নথি বা ডেটা আইটেমগুলি পুনরুদ্ধার করার পরে, সিস্টেম ব্যবহারকারীর প্রশ্নের সাথে তাদের প্রাসঙ্গিকতা এবং গুরুত্বের ভিত্তিতে তাদের র্যাঙ্ক করে। রিইনফোর্সমেন্ট লার্নিং -এর মতো শেখার-টু-র্যাঙ্ক মডেলগুলি ক্রমাগত ফলাফল অপ্টিমাইজ করতে ব্যবহার করা হয়।
OpenAI এর ChatGPT, Google এর Bard, Midjourney এবং অন্যান্য অনুরূপ AI প্রযুক্তিকে জেনারেটিভ AI বলা হয়। এই সাধারণ উদ্দেশ্য সমাধানগুলি ইনপুটের উপর ভিত্তি করে ফলাফলের পূর্বাভাস দেওয়ার চেষ্টা করে এবং প্রকৃতপক্ষে একটি নতুন প্রতিক্রিয়া তৈরি করবে। তারা নতুন কিছু তৈরি করতে পূর্ব-বিদ্যমান পাঠ্য এবং ভিজ্যুয়াল সামগ্রী ব্যবহার করে।
অন্যদিকে, সার্চ ইঞ্জিন সার্চ ফলাফল উন্নত করতে AI ব্যবহার করতে পারে। জেনারেটিভ AI এর মতই, সার্চ AI ব্যবহার করা যেতে পারে প্রাকৃতিক ভাষা ইনপুট বোঝার জন্য। জেনারেটিভ এআই থেকে ভিন্ন, সার্চ ইঞ্জিন কোনো নতুন, অভিনব বিষয়বস্তু তৈরি করছে না। উভয় প্রযুক্তি একসাথে বা স্বাধীনভাবে ব্যবহার করা যেতে পারে। জেনারেটিভ এআই প্রযুক্তিগুলি সৃজনশীল আউটপুট সহ সাহায্য করার জন্য ব্যবহার করা যেতে পারে, এবং অনুসন্ধানগুলি ফিল্টার এবং ক্রম ক্রম ফলাফলের জন্য ব্যবহার করা হয়। নতুন ফ্যাশন ধারণা খুঁজছেন কেউ একটি চ্যাট বট সাম্প্রতিক প্রবণতা কি জিজ্ঞাসা করতে পারেন, ফলাফল পান, এবং তারপর ফলাফল খুঁজে পেতে অনুসন্ধান ব্যবহার করুন. অথবা, আপনি পণ্যগুলি খুঁজে পেতে অনুসন্ধান ব্যবহার করতে পারেন এবং তারপর প্রতিটি ফলাফলের সুবিধা এবং অসুবিধাগুলি ব্যাখ্যা করতে চ্যাটকে জিজ্ঞাসা করতে পারেন।
জেনারেটিভ চ্যাট এআই এবং সার্চ এআই উভয়ই প্রায়শই প্রাকৃতিক ভাষা বোঝার মাধ্যমে আরও ভাল ব্যবহারকারীর অভিজ্ঞতা প্রদান করে।
বৃহৎ ভাষা মডেল (LLMs) এখন কিছু সময়ের জন্য প্রায় আছে, কিন্তু GPT সেগুলিকে স্পটলাইটে রেখেছে। LLM হল কৃত্রিম বুদ্ধিমত্তার মডেল যেগুলোকে প্রাকৃতিক ভাষা টেক্সট প্রসেস এবং তৈরি করতে প্রশিক্ষিত করা হয়। এই মডেলগুলি সাধারণত গভীর শিক্ষার কৌশল ব্যবহার করে তৈরি করা হয় এবং প্রশিক্ষণের জন্য প্রচুর পরিমাণে ডেটা এবং গণনামূলক সংস্থানগুলির প্রয়োজন হয়। আলগোলিয়াতে, আমরাও এলএলএম ব্যবহার করি, কিন্তু মেশিন বোঝার ক্ষেত্রে সাহায্য করার জন্য। আমরা ভেক্টর তৈরি করতে LLM ব্যবহার করি যা আমরা ফলাফলের সাথে প্রশ্নের তুলনা করতে ব্যবহার করতে পারি।
ভেক্টরাইজেশন হল শব্দগুলিকে ভেক্টরে (সংখ্যা) রূপান্তর করার প্রক্রিয়া যা তাদের অর্থকে এনকোড করা এবং গাণিতিকভাবে প্রক্রিয়াকরণের অনুমতি দেয়। আপনি ভেক্টরকে সংখ্যার গোষ্ঠী হিসাবে ভাবতে পারেন যা কিছু প্রতিনিধিত্ব করে। অনুশীলনে, ভেক্টরগুলি স্বয়ংক্রিয় প্রতিশব্দ, ক্লাস্টারিং ডকুমেন্ট, কোয়েরির নির্দিষ্ট অর্থ এবং অভিপ্রায় সনাক্তকরণ এবং ফলাফল র্যাঙ্ক করার জন্য ব্যবহৃত হয়। এমবেডিংগুলি খুব বহুমুখী এবং অন্যান্য অবজেক্ট - যেমন সম্পূর্ণ নথি, ছবি, ভিডিও, অডিও এবং আরও অনেক কিছু - এম্বেড করা যেতে পারে।
ভেক্টর সার্চ হল ওয়ার্ড এম্বেডিং (বা ছবি, ভিডিও, ডকুমেন্ট ইত্যাদি) ব্যবহার করার একটি উপায় যা মেশিন লার্নিং মডেল ব্যবহার করে একই ধরনের বৈশিষ্ট্যযুক্ত বস্তুগুলি খুঁজে বের করার জন্য যা একটি সূচকের বস্তুর মধ্যে শব্দার্থিক সম্পর্ক সনাক্ত করে।
ভেক্টর সাদৃশ্য গণনা করার জন্য বিভিন্ন আনুমানিক নিকটতম প্রতিবেশী (ANN) অ্যালগরিদম রয়েছে। টেকনিক যেমন HNSW (Hierarchical Navigable Small World), IVF (Inverted File), অথবা PQ (পণ্য কোয়ান্টাইজেশন, একটি ভেক্টরের মাত্রা কমানোর একটি কৌশল) হল ভেক্টরের মধ্যে মিল খুঁজে পাওয়ার জন্য কিছু জনপ্রিয় ANN পদ্ধতি। প্রতিটি কৌশল একটি নির্দিষ্ট পারফরম্যান্স বৈশিষ্ট্যের উন্নতিতে ফোকাস করে, যেমন PQ এর সাথে মেমরি হ্রাস বা HNSW এবং IVF এর সাথে দ্রুত কিন্তু সঠিক অনুসন্ধানের সময়। প্রদত্ত ব্যবহারের ক্ষেত্রে সর্বোত্তম কার্যক্ষমতা অর্জনের জন্য একটি 'যৌগিক' সূচক তৈরি করতে বেশ কয়েকটি উপাদান মিশ্রিত করা সাধারণ অভ্যাস।
ভেক্টরগুলির সাথে কাজ করার জন্য একটি চ্যালেঞ্জ হল তাদের আকার। এগুলি খুব বড় স্ট্রিং হতে থাকে যার জন্য বিশেষ ডেটাবেস এবং GPU পরিচালনার প্রয়োজন হয়। নিউরাল হ্যাশিং হল একটি নতুন প্রক্রিয়া যা ভেক্টরগুলিকে সংকুচিত করার জন্য নিউরাল নেটওয়ার্ক ব্যবহার করে যাতে সেগুলি স্ট্যান্ডার্ড ভেক্টর গণনার চেয়ে 500 গুণ বেশি দ্রুত প্রক্রিয়া করা যায় এবং কমোডিটি হার্ডওয়্যারে চালানো যায়।
হাইব্রিড অনুসন্ধান হল কীওয়ার্ড অনুসন্ধানের সাথে ভেক্টর অনুসন্ধানের সংমিশ্রণ। ভেক্টর অনুসন্ধান অস্পষ্ট বা বিস্তৃত অনুসন্ধানের জন্য দুর্দান্ত, তবে কীওয়ার্ড অনুসন্ধান এখনও সুনির্দিষ্ট প্রশ্নের জন্য নিয়ম করে। উদাহরণস্বরূপ, যখন আপনি একটি কীওয়ার্ড ইঞ্জিনে "Adidas" এর জন্য অনুসন্ধান করেন, ডিফল্টরূপে আপনি শুধুমাত্র Adidas ব্র্যান্ড দেখতে পাবেন। একটি ভেক্টর ইঞ্জিনে ডিফল্ট আচরণ হল একই রকম ফলাফল দেওয়া — নাইকি, পুমা, অ্যাডিডাস, ইত্যাদি, কারণ তারা সব একই ধারণাগত জায়গায় রয়েছে। কীওয়ার্ড অনুসন্ধান এখনও নির্দিষ্ট অভিপ্রায় সহ ছোট প্রশ্নের জন্য আরও ভাল ফলাফল প্রদান করে।
হাইব্রিড অনুসন্ধান সঠিক মিল এবং সহজ বাক্যাংশগুলির জন্য গতি এবং নির্ভুলতা প্রদান করে উভয় শব্দের মধ্যে সেরা অফার করে, যখন ভেক্টর দীর্ঘ টেইল প্রশ্নগুলিকে উন্নত করে এবং নতুন অনুসন্ধান সমাধানের দরজা খুলে দেয়। আলগোলিয়ায়, আমাদের হাইব্রিড AI সমাধান — Algolia NeuralSearch — শীঘ্রই আসছে৷ আরও জানুন
এছাড়াও এখানে প্রকাশিত.