আমরা যে অনেক সংস্থার সাথে কথা বলেছি তারা AI-চালিত ব্যক্তিগতকরণ, সুপারিশ, শব্দার্থিক অনুসন্ধান এবং অসঙ্গতি সনাক্তকরণের জন্য ব্যবহার করার অন্বেষণের পর্যায়ে রয়েছে। BERT এবং OpenAI সহ বৃহৎ ভাষা মডেলের (LLMs) যথার্থতা এবং অ্যাক্সেসযোগ্যতার সাম্প্রতিক এবং জ্যোতির্বিদ্যাগত উন্নতিগুলি সংস্থাগুলিকে কীভাবে প্রাসঙ্গিক অনুসন্ধান এবং বিশ্লেষণ অভিজ্ঞতা তৈরি করতে হয় তা পুনর্বিবেচনা করতে বাধ্য করেছে৷ ভেক্টর অনুসন্ধান এই ব্লগে, আমরা ভেক্টর অনুসন্ধানের 5 জন প্রাথমিক গ্রহণকারী- Pinterest, Spotify, eBay, Airbnb এবং Doordash- যারা তাদের অ্যাপ্লিকেশনগুলিতে AI সংহত করেছে তাদের থেকে ইঞ্জিনিয়ারিং গল্পগুলি ক্যাপচার করি৷ আমরা আশা করি যে এই গল্পগুলি ইঞ্জিনিয়ারিং দলগুলির জন্য সহায়ক হবে যারা ভেক্টর অনুসন্ধানের সম্পূর্ণ জীবনচক্রের মাধ্যমে এম্বেডিং তৈরি করা থেকে উত্পাদন স্থাপনা পর্যন্ত চিন্তা করছে৷ ভেক্টর অনুসন্ধান কি? ভেক্টর অনুসন্ধান একটি উচ্চ-মাত্রিক স্থানের ডেটা উপস্থাপনের উপর ভিত্তি করে একটি বৃহৎ ডেটাসেট থেকে অনুরূপ আইটেমগুলিকে দক্ষতার সাথে অনুসন্ধান এবং পুনরুদ্ধার করার একটি পদ্ধতি। এই প্রসঙ্গে, আইটেমগুলি যেকোনও হতে পারে, যেমন নথি, ছবি বা শব্দ, এবং ভেক্টর এম্বেডিং হিসাবে উপস্থাপন করা হয়। আইটেমগুলির মধ্যে মিল দূরত্বের মেট্রিক্স ব্যবহার করে গণনা করা হয়, যেমন বা , যা দুটি ভেক্টর এমবেডিংয়ের ঘনিষ্ঠতা পরিমাপ করে। কোসাইন সাদৃশ্য ইউক্লিডীয় দূরত্ব ভেক্টর অনুসন্ধান প্রক্রিয়া সাধারণত জড়িত: : যেখানে , বা মতো মডেল ব্যবহার করে ভেক্টর উপস্থাপনা তৈরি করতে কাঁচা ডেটা থেকে প্রাসঙ্গিক বৈশিষ্ট্যগুলি বের করা হয় এমবেডিং তৈরি করা word2vec BERT ইউনিভার্সাল সেন্টেন্স এনকোডারের : ভেক্টর এমবেডিংগুলি একটি ডেটা কাঠামোতে সংগঠিত হয় যা বা এর মতো অ্যালগরিদম ব্যবহার করে দক্ষ অনুসন্ধান সক্ষম করে ইন্ডেক্সিং FAISS HNSW : যেখানে কোসাইন সাদৃশ্য বা ইউক্লিডীয় দূরত্বের মতো নির্বাচিত দূরত্ব মেট্রিকের উপর ভিত্তি করে একটি প্রদত্ত কোয়েরি ভেক্টরের সাথে সর্বাধিক অনুরূপ আইটেমগুলি পুনরুদ্ধার করা হয় ভেক্টর অনুসন্ধান ভেক্টর অনুসন্ধানকে আরও ভালভাবে কল্পনা করতে, আমরা একটি 3D স্থান কল্পনা করতে পারি যেখানে প্রতিটি অক্ষ একটি বৈশিষ্ট্যের সাথে মিলে যায়। স্থানের একটি বিন্দুর সময় এবং অবস্থান এই বৈশিষ্ট্যগুলির মান দ্বারা নির্ধারিত হয়। এই স্থানটিতে, অনুরূপ আইটেমগুলি কাছাকাছি অবস্থিত এবং ভিন্ন আইটেমগুলি আরও দূরে অবস্থিত। গিথাব জুলি-মিলস ^ | x Item 1 | / | / | /x Item 2 | / | / | /x Item 3 | / | / | / +-------------------> একটি ক্যোয়ারী দেওয়া হলে, আমরা ডেটাসেটে সবচেয়ে অনুরূপ আইটেমগুলি খুঁজে পেতে পারি। ক্যোয়ারীটি আইটেম এম্বেডিংয়ের মতো একই জায়গায় ভেক্টর এম্বেডিং হিসাবে উপস্থাপন করা হয় এবং ক্যোয়ারী এম্বেডিং এবং প্রতিটি আইটেম এম্বেডিংয়ের মধ্যে দূরত্ব গণনা করা হয়। ক্যোয়ারী এমবেডিং থেকে স্বল্পতম দূরত্ব সহ আইটেম এম্বেডিংগুলিকে সবচেয়ে অনুরূপ বলে মনে করা হয়৷ Query item: x | ^ | | x Item 1| | / | | / | | /x Item 2 | | / | | / | | /x Item 3 | | / | | / | | / | +-------------------> এটি স্পষ্টতই একটি সরলীকৃত ভিজ্যুয়ালাইজেশন কারণ ভেক্টর অনুসন্ধান উচ্চ-মাত্রিক স্থানগুলিতে কাজ করে। পরবর্তী বিভাগগুলিতে, আমরা ভেক্টর অনুসন্ধানে 5 টি প্রকৌশল ব্লগের সংক্ষিপ্তসার করব এবং মূল বাস্তবায়ন বিবেচনাগুলি হাইলাইট করব। সম্পূর্ণ ইঞ্জিনিয়ারিং ব্লগগুলি নীচে পাওয়া যাবে: PinText: Pinterest-এ জিনফেং ঝুয়াং দ্বারা Pinterest-এ একটি মাল্টিটাস্ক টেক্সট এম্বেডিং সিস্টেম স্পটিফাই-এ আলেকজান্ডার ট্যাম্বোরিনোর পডকাস্ট পর্বের জন্য প্রাকৃতিক ভাষা অনুসন্ধানের পরিচয় ইবে-তে সেন্থিলকুমার গোপাল, শুভাঙ্গী ট্যান্ডন, ক্রিস্টোফার মিলার, দীপিকা শ্রীনিবাসন, রুই কং, সেলকুক কোপ্রু এবং শ্রীনিবাস ভগবথুলা দ্বারা উইন্ডো শপিং দ্বারা ইবে-এর নতুন অনুসন্ধান বৈশিষ্ট্য কীভাবে অনুপ্রাণিত হয়েছিল AirBnb-এ Mihajlo Grbovic-এর সার্চ র্যাঙ্কিং-এ এমবেডিং তালিকা করা দূরদশে মিচেল কোচ, আমির মানসাওয়ালা, রাঘব রমেশের ভেক্টর এম্বেডিংয়ের সাথে ব্যক্তিগতকৃত স্টোর ফিড Pinterest: আগ্রহের অনুসন্ধান এবং আবিষ্কার Pinterest তার প্ল্যাটফর্মের একাধিক ক্ষেত্র জুড়ে চিত্র অনুসন্ধান এবং আবিষ্কারের জন্য ব্যবহার করে, যার মধ্যে হোম ফিডে প্রস্তাবিত বিষয়বস্তু, সম্পর্কিত পিন এবং একটি মাল্টিটাস্ক শেখার মডেল ব্যবহার করে অনুসন্ধান। ভেক্টর অনুসন্ধান একটি মাল্টি-টাস্ক মডেলকে একযোগে একাধিক কাজ করার জন্য প্রশিক্ষিত করা হয়, প্রায়শই অন্তর্নিহিত উপস্থাপনা বা বৈশিষ্ট্যগুলি ভাগ করে নেওয়া হয়, যা সম্পর্কিত কাজগুলিতে সাধারণীকরণ এবং দক্ষতা উন্নত করতে পারে। Pinterest-এর ক্ষেত্রে, টিম হোমফিড, সম্পর্কিত পিন এবং অনুসন্ধানে প্রস্তাবিত সামগ্রী চালানোর জন্য একই মডেলকে প্রশিক্ষিত এবং ব্যবহার করেছে। Pinterest একটি ব্যবহারকারীর অনুসন্ধান ক্যোয়ারী (q) তাদের ক্লিক করা সামগ্রীর সাথে বা তাদের সংরক্ষিত পিনগুলির সাথে যুক্ত করে মডেলটিকে প্রশিক্ষণ দেয় (p)৷ এখানে কিভাবে Pinterest প্রতিটি কাজের জন্য (q,p) জোড়া তৈরি করেছে: : শব্দ এমবেডিংগুলি নির্বাচিত বিষয় (q) থেকে নেওয়া হয়েছে এবং ব্যবহারকারী (p) দ্বারা ক্লিক করা বা সংরক্ষণ করা পিন থেকে। সম্পর্কিত পিন : শব্দ এমবেডিংগুলি অনুসন্ধান ক্যোয়ারী পাঠ্য (q) এবং ব্যবহারকারী (p) দ্বারা ক্লিক করা বা সংরক্ষণ করা পিন থেকে তৈরি করা হয়। অনুসন্ধান : ব্যবহারকারীর আগ্রহের (q) এবং ব্যবহারকারী (p) দ্বারা ক্লিক করা বা সংরক্ষণ করা পিনের উপর ভিত্তি করে শব্দ এম্বেডিং তৈরি করা হয়। হোমফিড একটি সামগ্রিক সত্তা এম্বেডিং পেতে, Pinterest সম্পর্কিত পিন, অনুসন্ধান এবং হোমফিডের জন্য সম্পর্কিত শব্দ এম্বেডিংয়ের গড় করে। Pinterest তার নিজস্ব তত্ত্বাবধানে থাকা Pintext-MTL (মাল্টি-টাস্ক লার্নিং) তৈরি এবং মূল্যায়ন করেছে যার মধ্যে GloVe, word2vec এর পাশাপাশি একটি একক-টাস্ক লার্নিং মডেল, PinText-SR নির্ভুলতা সহ অ-তত্ত্বাবধানহীন শেখার মডেল রয়েছে। PinText-MTL-এর অন্যান্য এম্বেডিং মডেলের তুলনায় উচ্চতর নির্ভুলতা ছিল, যার অর্থ হল সমস্ত ইতিবাচক ভবিষ্যদ্বাণীগুলির মধ্যে সত্য ইতিবাচক ভবিষ্যদ্বাণীগুলির উচ্চ অনুপাত ছিল৷ Pinterest এও দেখেছে যে মাল্টি-টাস্ক লার্নিং মডেলগুলিতে উচ্চতর রিকল, বা মডেল দ্বারা সঠিকভাবে চিহ্নিত প্রাসঙ্গিক দৃষ্টান্তগুলির উচ্চ অনুপাত রয়েছে, যা তাদের অনুসন্ধান এবং আবিষ্কারের জন্য আরও উপযুক্ত করে তুলেছে। এই সবগুলিকে উৎপাদনে একত্রিত করতে, Pinterest-এর একটি মাল্টিটাস্ক মডেল রয়েছে যা হোমফিড, অনুসন্ধান এবং সম্পর্কিত পিনগুলি থেকে ডেটা স্ট্রিমিং সম্পর্কে প্রশিক্ষিত। একবার সেই মডেলটি প্রশিক্ষিত হয়ে গেলে, কুবারনেটস+ডকার বা ম্যাপ-রিডুস সিস্টেম ব্যবহার করে একটি বড় ব্যাচের কাজে ভেক্টর এম্বেডিং তৈরি করা হয়। প্ল্যাটফর্মটি ভেক্টর এম্বেডিংয়ের একটি অনুসন্ধান সূচক তৈরি করে এবং ব্যবহারকারীদের জন্য সবচেয়ে প্রাসঙ্গিক বিষয়বস্তু খুঁজে পেতে একটি K- নিকটতম প্রতিবেশী (KNN) অনুসন্ধান চালায়। Pinterest প্ল্যাটফর্মের কর্মক্ষমতা প্রয়োজনীয়তা পূরণ করার জন্য ফলাফল ক্যাশে করা হয়। Spotify: পডকাস্ট অনুসন্ধান Spotify ব্যবহারকারীদের জন্য প্রাসঙ্গিক পডকাস্ট পর্বের ফলাফল পুনরুদ্ধার করতে কীওয়ার্ড এবং একত্রিত করে। একটি উদাহরণ হিসাবে, দলটি "ইলেকট্রিক গাড়ির জলবায়ু প্রভাব" প্রশ্নের জন্য কীওয়ার্ড অনুসন্ধানের সীমাবদ্ধতাগুলি হাইলাইট করেছে, একটি প্রশ্ন যা 0 ফলাফল দিয়েছে যদিও প্রাসঙ্গিক পডকাস্ট পর্বগুলি স্পটিফাই লাইব্রেরিতে বিদ্যমান। প্রত্যাহার উন্নত করতে, Spotify টিম দ্রুত, প্রাসঙ্গিক পডকাস্ট অনুসন্ধানের জন্য আনুমানিক নিকটতম প্রতিবেশী (ANN) ব্যবহার করেছে। শব্দার্থিক অনুসন্ধানকে দলটি ব্যবহার করে ভেক্টর এম্বেডিং তৈরি করে কারণ এটি বহুভাষিক, পডকাস্টের একটি গ্লোবাল লাইব্রেরি সমর্থন করে এবং উচ্চ-মানের ভেক্টর এম্বেডিং তৈরি করে। সহ অন্যান্য মডেলগুলিও মূল্যায়ন করা হয়েছিল, একটি মডেল যা টেক্সট ডেটার একটি বড় কর্পাসের উপর প্রশিক্ষিত ছিল, কিন্তু দেখা গেছে যে BERT বাক্য এমবেডিংয়ের চেয়ে শব্দ এম্বেডিংয়ের জন্য আরও উপযুক্ত এবং শুধুমাত্র ইংরেজিতে প্রাক-প্রশিক্ষিত ছিল। ইউনিভার্সাল সেন্টেন্স এনকোডার CMLM মডেল BERT Spotify কোয়েরি টেক্সটটি ইনপুট এম্বেডিং এবং পডকাস্ট পর্ব এম্বেডিংয়ের জন্য শিরোনাম এবং বিবরণ সহ পাঠ্য মেটাডেটা ক্ষেত্রগুলির সংমিশ্রণ সহ ভেক্টর এম্বেডিং তৈরি করে। সাদৃশ্য নির্ধারণ করতে, স্পটিফাই ক্যোয়ারী এবং এপিসোড এম্বেডিংয়ের মধ্যে কোসাইন দূরত্ব পরিমাপ করেছে। বেস ইউনিভার্সাল সেন্টেন্স এনকোডার CMLM মডেলকে প্রশিক্ষণ দিতে, Spotify সফল পডকাস্ট অনুসন্ধান এবং পর্বগুলির ইতিবাচক জোড়া ব্যবহার করেছে। তারা ইন-ব্যাচ নেতিবাচক অন্তর্ভুক্ত করেছে, একটি কৌশল যা কাগজপত্রে হাইলাইট করা হয়েছে যার মধ্যে রয়েছে এবং , এলোমেলো নেতিবাচক জোড়া তৈরি করতে। সিন্থেটিক কোয়েরি এবং ম্যানুয়ালি লিখিত প্রশ্ন ব্যবহার করেও পরীক্ষা করা হয়েছিল। ওপেন-ডোমেন প্রশ্ন উত্তরের জন্য ঘন উত্তরণ পুনরুদ্ধার (DPR) Que2Search: দ্রুত এবং সঠিক ক্যোয়ারী এবং Facebook-এ অনুসন্ধানের জন্য নথি বোঝা প্রোডাকশনে পডকাস্ট সুপারিশ পরিবেশন করার জন্য ভেক্টর অনুসন্ধানকে অন্তর্ভুক্ত করতে, Spotify নিম্নলিখিত পদক্ষেপ এবং প্রযুক্তি ব্যবহার করেছে: : Spotify এএনএন এর জন্য নেটিভ সাপোর্ট সহ একটি সার্চ ইঞ্জিন ব্যবহার করে ব্যাচে অফলাইনে পর্ব ভেক্টর সূচী করে। Vespa বেছে নেওয়ার একটি কারণ হল এটি পর্বের জনপ্রিয়তার মতো বৈশিষ্ট্যগুলিতে পোস্ট-সার্চ মেটাডেটা ফিল্টারিংও অন্তর্ভুক্ত করতে পারে। ইনডেক্স এপিসোড ভেক্টর Vespa : Spotify একটি ক্যোয়ারী ভেক্টর তৈরি করতে ব্যবহার করে। Vertex AI-কে GPU অনুমানের জন্য এর সমর্থনের জন্য বেছে নেওয়া হয়েছিল, যেটি এম্বেডিং তৈরি করতে এবং এর ক্যোয়ারী ক্যাশের জন্য বড় ট্রান্সফরমার মডেল ব্যবহার করার সময় আরও সাশ্রয়ী। ক্যোয়ারী ভেক্টর এম্বেডিং তৈরি হওয়ার পরে, এটি Vespa থেকে শীর্ষ 30টি পডকাস্ট পর্ব পুনরুদ্ধার করতে ব্যবহৃত হয়। অনলাইন অনুমান Google Cloud Vertex AI শব্দার্থিক অনুসন্ধান প্রাসঙ্গিক পডকাস্ট পর্বগুলির সনাক্তকরণে অবদান রাখে, তবুও এটি কীওয়ার্ড অনুসন্ধানকে সম্পূর্ণরূপে প্রতিস্থাপন করতে অক্ষম। ব্যবহারকারীরা যখন একটি সঠিক পর্ব বা পডকাস্টের নাম অনুসন্ধান করেন তখন শব্দার্থগত অনুসন্ধানটি সঠিক শব্দের মিলের কম হয়। স্পটিফাই একটি হাইব্রিড অনুসন্ধান পদ্ধতি ব্যবহার করে, কীওয়ার্ড অনুসন্ধানের সাথে ভেস্পাতে শব্দার্থিক অনুসন্ধানকে একীভূত করে, ব্যবহারকারীদের কাছে প্রদর্শিত পর্বগুলি স্থাপন করার জন্য একটি চূড়ান্ত পুনঃর্যাঙ্কিং পর্যায় অনুসরণ করে। ইলাস্টিকসার্চে ইবে: চিত্র অনুসন্ধান ঐতিহ্যগতভাবে, সার্চ ইঞ্জিনগুলি আইটেম বা নথির পাঠ্য বিবরণের সাথে অনুসন্ধান ক্যোয়ারী পাঠ্য সারিবদ্ধ করে ফলাফল প্রদর্শন করে। এই পদ্ধতিটি পছন্দগুলি অনুমান করার জন্য ভাষার উপর ব্যাপকভাবে নির্ভর করে এবং শৈলী বা নন্দনতত্ত্বের উপাদানগুলি ক্যাপচার করার ক্ষেত্রে এটি ততটা কার্যকর নয়। eBay ব্যবহারকারীদের প্রাসঙ্গিক, অনুরূপ আইটেমগুলি খুঁজে পেতে সাহায্য করার জন্য প্রবর্তন করে যা তারা যে শৈলীটি খুঁজছেন তা পূরণ করে৷ চিত্র অনুসন্ধান eBay একটি মাল্টি-মোডাল মডেল ব্যবহার করে যা ভবিষ্যদ্বাণী করতে বা কার্য সম্পাদন করার জন্য একাধিক পদ্ধতি বা ইনপুট প্রকার, যেমন পাঠ্য, চিত্র, অডিও বা ভিডিও থেকে ডেটা প্রক্রিয়া এবং সংহত করার জন্য ডিজাইন করা হয়েছে। eBay তার মডেলে টেক্সট এবং ইমেজ উভয়ই অন্তর্ভুক্ত করে, একটি কনভোল্যুশনাল নিউরাল নেটওয়ার্ক (CNN) মডেল ব্যবহার করে ইমেজ এম্বেডিং তৈরি করে, বিশেষ করে , এবং টেক্সট-ভিত্তিক মডেল যেমন ব্যবহার করে শিরোনাম এম্বেডিং। প্রতিটি তালিকা একটি ভেক্টর এমবেডিং দ্বারা প্রতিনিধিত্ব করা হয় যা ইমেজ এবং শিরোনাম এম্বেডিং উভয়কে একত্রিত করে। Resnet-50 BERT একবার মাল্টি-মডেল মডেলটিকে ইমেজ-টাইটেল তালিকা জোড়ার একটি বড় ডেটাসেট এবং সম্প্রতি বিক্রি হওয়া তালিকাগুলি ব্যবহার করে প্রশিক্ষণ দেওয়া হলে, এটি সাইট অনুসন্ধানের অভিজ্ঞতায় উৎপাদনে রাখার সময়। ইবে-এ বিপুল সংখ্যক তালিকার কারণে, HDFS, eBay-এর ডেটা গুদামে ডেটা ব্যাচে লোড করা হয়। ইবে অ্যাপাচি স্পার্ক ব্যবহার করে ইমেজ পুনরুদ্ধার এবং সংরক্ষণ করতে এবং তালিকার আরও প্রক্রিয়াকরণের জন্য প্রয়োজনীয় প্রাসঙ্গিক ক্ষেত্রগুলি, তালিকার এম্বেডিং তৈরি করা সহ। তালিকা এম্বেডিংগুলি একটি কলামার স্টোরে প্রকাশিত হয় যেমন HBase যা বৃহৎ-স্কেল ডেটা একত্রিত করতে ভাল। HBase থেকে, তালিকা এম্বেডিং সূচিত করা হয় এবং ইবেতে তৈরি একটি সার্চ ইঞ্জিন ক্যাসিনিতে পরিবেশন করা হয়। পাইপলাইনটি অ্যাপাচি এয়ারফ্লো ব্যবহার করে পরিচালিত হয়, যা উচ্চ পরিমাণে এবং কাজের জটিলতা থাকলেও স্কেলিং করতে সক্ষম। এটি স্পার্ক, হ্যাডুপ এবং পাইথনের জন্য সহায়তা প্রদান করে, যা মেশিন লার্নিং টিমের পক্ষে গ্রহণ এবং ব্যবহার করা সুবিধাজনক করে তোলে। ভিজ্যুয়াল অনুসন্ধান ব্যবহারকারীদের আসবাবপত্র এবং বাড়ির সাজসজ্জার বিভাগে অনুরূপ শৈলী এবং পছন্দগুলি খুঁজে পেতে অনুমতি দেয়, যেখানে শৈলী এবং নান্দনিকতা কেনার সিদ্ধান্তের চাবিকাঠি। ভবিষ্যতে, eBay সমস্ত বিভাগ জুড়ে ভিজ্যুয়াল অনুসন্ধান প্রসারিত করার পরিকল্পনা করেছে এবং ব্যবহারকারীদের সম্পর্কিত আইটেমগুলি আবিষ্কার করতে সহায়তা করবে যাতে তারা তাদের বাড়িতে একই চেহারা এবং অনুভূতি স্থাপন করতে পারে। AirBnb: রিয়েল-টাইম ব্যক্তিগতকৃত তালিকা অনুসন্ধান এবং অনুরূপ তালিকা বৈশিষ্ট্যগুলি AirBnb সাইটে 99% বুকিং চালায়। AirBnb অনুরূপ তালিকা সুপারিশ উন্নত করতে এবং অনুসন্ধান র্যাঙ্কিংয়ে রিয়েল-টাইম ব্যক্তিগতকরণ প্রদানের জন্য একটি তৈরি করেছে। তালিকা এম্বেডিং কৌশল AirBnb প্রথম দিকে বুঝতে পেরেছিল যে তারা কেবলমাত্র শব্দ উপস্থাপনের বাইরে এম্বেডিংয়ের প্রয়োগকে প্রসারিত করতে পারে, ক্লিক এবং বুকিং সহ ব্যবহারকারীর আচরণকেও অন্তর্ভুক্ত করে। এমবেডিং মডেলগুলিকে প্রশিক্ষিত করার জন্য, AirBnb 4.5M সক্রিয় তালিকা এবং 800 মিলিয়ন অনুসন্ধান সেশন অন্তর্ভুক্ত করেছে যাতে কোন ব্যবহারকারী কোন সেশনে ক্লিক করে এবং এড়িয়ে যায় তার উপর ভিত্তি করে সাদৃশ্য নির্ধারণ করে। একটি সেশনে একই ব্যবহারকারীর দ্বারা ক্লিক করা তালিকাগুলিকে একসাথে ঠেলে দেওয়া হয়; ব্যবহারকারীর দ্বারা এড়িয়ে যাওয়া তালিকাগুলি আরও দূরে ঠেলে দেওয়া হয়। অনলাইন পরিবেশনের জন্য প্রয়োজনীয় অফলাইন পারফরম্যান্স এবং মেমরির মধ্যে ট্রেডঅফের পরিপ্রেক্ষিতে দলটি d=32-এর একটি তালিকা এমবেডিংয়ের মাত্রিকতার উপর স্থির হয়েছে। https://youtu.be/aWjsUEX7B1I?si=GREROVrWxWqtqL-m&embedable=true AirBnb খুঁজে পেয়েছে যে নির্দিষ্ট তালিকার বৈশিষ্ট্যগুলির জন্য শেখার প্রয়োজন নেই, কারণ সেগুলি সরাসরি মেটাডেটা থেকে পাওয়া যেতে পারে, যেমন দাম। যাইহোক, স্থাপত্য, শৈলী এবং পরিবেশের মতো বৈশিষ্ট্যগুলি মেটাডেটা থেকে প্রাপ্ত করা যথেষ্ট চ্যালেঞ্জিং। প্রোডাকশনে যাওয়ার আগে, AirBnb তাদের মডেল যাচাই করে যাচাই করে যে মডেলটি কতটা ভালো তালিকার সুপারিশ করেছে যা একজন ব্যবহারকারী আসলে বুক করেছেন। দলটি ভেক্টর এম্বেডিং-ভিত্তিক অ্যালগরিদমের সাথে বিদ্যমান তালিকার অ্যালগরিদমের তুলনা করে একটি A/B পরীক্ষাও চালায়। তারা দেখেছে যে ভেক্টর এম্বেডিং সহ অ্যালগরিদমের ফলে CTR তে 21% বৃদ্ধি এবং ব্যবহারকারীরা তাদের বুক করা একটি তালিকা আবিষ্কার করে 4.9% বৃদ্ধি পেয়েছে। দলটি আরও বুঝতে পেরেছিল যে অনুসন্ধানে রিয়েল-টাইম ব্যক্তিগতকরণের জন্য মডেলের অংশ হিসাবে ভেক্টর এম্বেডিং ব্যবহার করা যেতে পারে। প্রতিটি ব্যবহারকারীর জন্য, তারা কাফকা ব্যবহার করে রিয়েল টাইমে সংগৃহীত এবং রক্ষণাবেক্ষণ করেছে, গত দুই সপ্তাহে ব্যবহারকারীর ক্লিক এবং এড়িয়ে যাওয়ার একটি স্বল্পমেয়াদী ইতিহাস। ব্যবহারকারীর দ্বারা পরিচালিত প্রতিটি অনুসন্ধানের জন্য, তারা দুটি মিল অনুসন্ধান চালায়: ভৌগলিক বাজারের উপর ভিত্তি করে যা সম্প্রতি অনুসন্ধান করা হয়েছিল এবং তারপরে প্রার্থী তালিকা এবং ব্যবহারকারীর ক্লিক/এড়িয়ে যাওয়ার মধ্যে মিল এমবেডিংগুলি অফলাইন এবং অনলাইন পরীক্ষায় মূল্যায়ন করা হয়েছিল এবং রিয়েল-টাইম ব্যক্তিগতকরণ বৈশিষ্ট্যের অংশ হয়ে উঠেছে। Doordash: ব্যক্তিগতকৃত স্টোর ফিড Doordash-এর বিভিন্ন ধরণের স্টোর রয়েছে যেগুলি থেকে ব্যবহারকারীরা অর্ডার করতে বেছে নিতে পারেন এবং ব্যক্তিগতকৃত পছন্দগুলি ব্যবহার করে সবচেয়ে প্রাসঙ্গিক স্টোরগুলিকে দেখাতে সক্ষম হওয়া অনুসন্ধান এবং আবিষ্কারকে উন্নত করে৷ Doordash ভেক্টর এম্বেডিং ব্যবহার করে তার স্টোর ফিড অ্যালগরিদমে প্রয়োগ করতে চেয়েছিল। এটি Doordash-কে সেই দোকানগুলির মধ্যে মিল উন্মোচন করতে সক্ষম করবে যেগুলি ভালভাবে নথিভুক্ত ছিল না, যেমন একটি দোকানে মিষ্টি আইটেম আছে কিনা, ট্রেন্ডি হিসাবে বিবেচিত হয় বা নিরামিষ বিকল্পগুলি বৈশিষ্ট্যযুক্ত। সুপ্ত তথ্য Doordash word2vec-এর একটি ডেরিভেটিভ ব্যবহার করেছে, প্রাকৃতিক ভাষা প্রক্রিয়াকরণে ব্যবহৃত একটি এমবেডিং মডেল, স্টোর2vec নামে পরিচিত যা বিদ্যমান ডেটার উপর ভিত্তি করে অভিযোজিত হয়েছে। দলটি প্রতিটি স্টোরকে একটি শব্দ হিসাবে বিবেচনা করে এবং একটি একক ব্যবহারকারীর সেশনের সময় দেখা স্টোরের তালিকা ব্যবহার করে বাক্য গঠন করে, প্রতি বাক্যে সর্বোচ্চ 5টি স্টোর। ব্যবহারকারীর ভেক্টর এম্বেডিং তৈরি করতে, Doordash সেই স্টোরের ভেক্টরগুলিকে যোগ করেছে যেখান থেকে ব্যবহারকারীরা গত 6 মাসে বা 100টি অর্ডার পর্যন্ত অর্ডার দিয়েছে। উদাহরণ হিসেবে, Doordash সান ফ্রান্সিসকোতে জনপ্রিয়, ট্রেন্ডি জয়েন্ট 4505 Burgers এবং New Nagano Sushi-এ তাদের সাম্প্রতিক কেনাকাটার উপর ভিত্তি করে একজন ব্যবহারকারীর জন্য অনুরূপ রেস্তোরাঁ খুঁজতে ভেক্টর অনুসন্ধান ব্যবহার করেছে। Doordash অনুরূপ রেস্তোরাঁর একটি তালিকা তৈরি করেছে যা ব্যবহারকারীর এম্বেডিং থেকে কোসাইন দূরত্ব পরিমাপ করে এলাকায় এম্বেডিং সঞ্চয় করে। আপনি দেখতে পাচ্ছেন যে কোসাইন দূরত্বে সবচেয়ে কাছের দোকানগুলির মধ্যে রয়েছে কেজার পাব এবং কাঠের চারকোল কোরিয়ান ভিলেজ BBQ। Doordash তার বৃহত্তর সুপারিশ এবং ব্যক্তিগতকরণ মডেলের বৈশিষ্ট্যগুলির মধ্যে একটি হিসাবে store2vec দূরত্ব বৈশিষ্ট্যকে অন্তর্ভুক্ত করেছে। ভেক্টর অনুসন্ধানের মাধ্যমে, Doordash ক্লিক-থ্রু-রেট 5% বৃদ্ধি দেখতে সক্ষম হয়েছে। দলটি নতুন মডেলগুলি যেমন , মডেল অপ্টিমাইজেশান এবং ব্যবহারকারীদের কাছ থেকে রিয়েল-টাইম অনসাইট কার্যকলাপ ডেটা অন্তর্ভুক্ত করে পরীক্ষা করছে৷ seq2seq ভেক্টর অনুসন্ধানের জন্য মূল বিবেচনা Pinterest, Spotify, eBay, Airbnb এবং Doordash ভেক্টর অনুসন্ধানের সাথে আরও ভাল অনুসন্ধান এবং আবিষ্কারের অভিজ্ঞতা তৈরি করে। এই দলগুলির মধ্যে অনেকগুলি পাঠ্য অনুসন্ধান ব্যবহার করে শুরু করেছে এবং অস্পষ্ট অনুসন্ধান বা নির্দিষ্ট শৈলী বা নান্দনিকতার অনুসন্ধানের সাথে সীমাবদ্ধতা খুঁজে পেয়েছে। এই পরিস্থিতিতে, অভিজ্ঞতায় ভেক্টর অনুসন্ধান যোগ করা প্রাসঙ্গিক, এবং প্রায়শই ব্যক্তিগতকৃত, পডকাস্ট, বালিশ, ভাড়া, পিন এবং খাবারের জায়গাগুলিকে সহজ করে তুলেছে। ভেক্টর অনুসন্ধান বাস্তবায়নের সময় এই কোম্পানিগুলি যে কয়েকটি সিদ্ধান্ত নিয়েছে তা বলা উচিত: : অনেকেই একটি অফ-দ্য-শেল্ফ মডেল ব্যবহার করে শুরু করেন এবং তারপরে তাদের নিজস্ব ডেটাতে প্রশিক্ষণ দেন। তারা আরও স্বীকার করেছে যে word2vec-এর মতো ভাষার মডেলগুলি সম্প্রতি ক্লিক করা আইটেম এবং অনুরূপ আইটেমগুলির সাথে শব্দ এবং তাদের বিবরণ অদলবদল করে ব্যবহার করা যেতে পারে। AirBnb-এর মতো দলগুলি দেখতে পেয়েছে যে চিত্র মডেলের পরিবর্তে ভাষার মডেলগুলির ডেরিভেটিভগুলি ব্যবহার করা এখনও দৃশ্যমান মিল এবং পার্থক্যগুলি ক্যাপচার করার জন্য ভাল কাজ করতে পারে। এমবেডিং মডেল : এই কোম্পানিগুলির মধ্যে অনেকগুলি তাদের মডেলগুলিকে অতীতের কেনাকাটার বিষয়ে প্রশিক্ষণ দেওয়া এবং ডেটার মাধ্যমে ক্লিক করার জন্য, বিদ্যমান বৃহৎ-স্কেল ডেটাসেটগুলি ব্যবহার করে। প্রশিক্ষণ : অনেক কোম্পানি ANN সার্চ গ্রহণ করলেও, আমরা দেখেছি যে Pinterest মেটাডেটা ফিল্টারিংকে KNN সার্চের সাথে একত্রিত করতে সক্ষম হয়েছে দক্ষতার জন্য। ইন্ডেক্সিং : ভেক্টর অনুসন্ধান খুব কমই পাঠ্য অনুসন্ধানকে প্রতিস্থাপন করে। অনেক সময়, যেমন Spotify-এর উদাহরণে, ভেক্টর অনুসন্ধান বা পাঠ্য অনুসন্ধান সবচেয়ে প্রাসঙ্গিক ফলাফল তৈরি করেছে কিনা তা নির্ধারণ করতে একটি চূড়ান্ত র্যাঙ্কিং অ্যালগরিদম ব্যবহার করা হয়। হাইব্রিড অনুসন্ধান : আমরা দেখছি যে অনেক দল ভেক্টর এম্বেডিং তৈরি করতে ব্যাচ-ভিত্তিক সিস্টেম ব্যবহার করে, এই এমবেডিংগুলি খুব কমই আপডেট করা হয়। তারা একটি ভিন্ন সিস্টেম নিয়োগ করে, প্রায়শই ইলাস্টিকসার্চ, কোয়েরি ভেক্টর এম্বেডিং লাইভ গণনা করতে এবং তাদের অনুসন্ধানে রিয়েল-টাইম মেটাডেটা অন্তর্ভুক্ত করে। প্রোডাকশনাইজিং রকসেট, একটি রিয়েল-টাইম অনুসন্ধান এবং বিশ্লেষণ ডেটাবেস, সম্প্রতি জন্য সমর্থন যোগ করেছে। আজই $300 ক্রেডিট সহ একটি শুরু করে রিয়েল-টাইম ব্যক্তিগতকরণ, সুপারিশ, অসঙ্গতি সনাক্তকরণ এবং আরও অনেক কিছুর জন্য Rockset-এ ভেক্টর অনুসন্ধান করুন৷ ভেক্টর অনুসন্ধানের বিনামূল্যের ট্রায়াল