আমরা যে অনেক সংস্থার সাথে কথা বলেছি তারা AI-চালিত ব্যক্তিগতকরণ, সুপারিশ, শব্দার্থিক অনুসন্ধান এবং অসঙ্গতি সনাক্তকরণের জন্য ভেক্টর অনুসন্ধান ব্যবহার করার অন্বেষণের পর্যায়ে রয়েছে। BERT এবং OpenAI সহ বৃহৎ ভাষা মডেলের (LLMs) যথার্থতা এবং অ্যাক্সেসযোগ্যতার সাম্প্রতিক এবং জ্যোতির্বিদ্যাগত উন্নতিগুলি সংস্থাগুলিকে কীভাবে প্রাসঙ্গিক অনুসন্ধান এবং বিশ্লেষণ অভিজ্ঞতা তৈরি করতে হয় তা পুনর্বিবেচনা করতে বাধ্য করেছে৷
এই ব্লগে, আমরা ভেক্টর অনুসন্ধানের 5 জন প্রাথমিক গ্রহণকারী- Pinterest, Spotify, eBay, Airbnb এবং Doordash- যারা তাদের অ্যাপ্লিকেশনগুলিতে AI সংহত করেছে তাদের থেকে ইঞ্জিনিয়ারিং গল্পগুলি ক্যাপচার করি৷ আমরা আশা করি যে এই গল্পগুলি ইঞ্জিনিয়ারিং দলগুলির জন্য সহায়ক হবে যারা ভেক্টর অনুসন্ধানের সম্পূর্ণ জীবনচক্রের মাধ্যমে এম্বেডিং তৈরি করা থেকে উত্পাদন স্থাপনা পর্যন্ত চিন্তা করছে৷
ভেক্টর অনুসন্ধান একটি উচ্চ-মাত্রিক স্থানের ডেটা উপস্থাপনের উপর ভিত্তি করে একটি বৃহৎ ডেটাসেট থেকে অনুরূপ আইটেমগুলিকে দক্ষতার সাথে অনুসন্ধান এবং পুনরুদ্ধার করার একটি পদ্ধতি। এই প্রসঙ্গে, আইটেমগুলি যেকোনও হতে পারে, যেমন নথি, ছবি বা শব্দ, এবং ভেক্টর এম্বেডিং হিসাবে উপস্থাপন করা হয়। আইটেমগুলির মধ্যে মিল দূরত্বের মেট্রিক্স ব্যবহার করে গণনা করা হয়, যেমন কোসাইন সাদৃশ্য বা ইউক্লিডীয় দূরত্ব , যা দুটি ভেক্টর এমবেডিংয়ের ঘনিষ্ঠতা পরিমাপ করে।
ভেক্টর অনুসন্ধান প্রক্রিয়া সাধারণত জড়িত:
ভেক্টর অনুসন্ধানকে আরও ভালভাবে কল্পনা করতে, আমরা একটি 3D স্থান কল্পনা করতে পারি যেখানে প্রতিটি অক্ষ একটি বৈশিষ্ট্যের সাথে মিলে যায়। স্থানের একটি বিন্দুর সময় এবং অবস্থান এই বৈশিষ্ট্যগুলির মান দ্বারা নির্ধারিত হয়। এই স্থানটিতে, অনুরূপ আইটেমগুলি কাছাকাছি অবস্থিত এবং ভিন্ন আইটেমগুলি আরও দূরে অবস্থিত।
^ | x Item 1 | / | / | /x Item 2 | / | / | /x Item 3 | / | / | / +------------------->
একটি ক্যোয়ারী দেওয়া হলে, আমরা ডেটাসেটে সবচেয়ে অনুরূপ আইটেমগুলি খুঁজে পেতে পারি। ক্যোয়ারীটি আইটেম এম্বেডিংয়ের মতো একই জায়গায় ভেক্টর এম্বেডিং হিসাবে উপস্থাপন করা হয় এবং ক্যোয়ারী এম্বেডিং এবং প্রতিটি আইটেম এম্বেডিংয়ের মধ্যে দূরত্ব গণনা করা হয়। ক্যোয়ারী এমবেডিং থেকে স্বল্পতম দূরত্ব সহ আইটেম এম্বেডিংগুলিকে সবচেয়ে অনুরূপ বলে মনে করা হয়৷
Query item: x | ^ | | x Item 1| | / | | / | | /x Item 2 | | / | | / | | /x Item 3 | | / | | / | | / | +------------------->
এটি স্পষ্টতই একটি সরলীকৃত ভিজ্যুয়ালাইজেশন কারণ ভেক্টর অনুসন্ধান উচ্চ-মাত্রিক স্থানগুলিতে কাজ করে।
পরবর্তী বিভাগগুলিতে, আমরা ভেক্টর অনুসন্ধানে 5 টি প্রকৌশল ব্লগের সংক্ষিপ্তসার করব এবং মূল বাস্তবায়ন বিবেচনাগুলি হাইলাইট করব। সম্পূর্ণ ইঞ্জিনিয়ারিং ব্লগগুলি নীচে পাওয়া যাবে:
Pinterest তার প্ল্যাটফর্মের একাধিক ক্ষেত্র জুড়ে চিত্র অনুসন্ধান এবং আবিষ্কারের জন্য ভেক্টর অনুসন্ধান ব্যবহার করে, যার মধ্যে হোম ফিডে প্রস্তাবিত বিষয়বস্তু, সম্পর্কিত পিন এবং একটি মাল্টিটাস্ক শেখার মডেল ব্যবহার করে অনুসন্ধান।
একটি মাল্টি-টাস্ক মডেলকে একযোগে একাধিক কাজ করার জন্য প্রশিক্ষিত করা হয়, প্রায়শই অন্তর্নিহিত উপস্থাপনা বা বৈশিষ্ট্যগুলি ভাগ করে নেওয়া হয়, যা সম্পর্কিত কাজগুলিতে সাধারণীকরণ এবং দক্ষতা উন্নত করতে পারে। Pinterest-এর ক্ষেত্রে, টিম হোমফিড, সম্পর্কিত পিন এবং অনুসন্ধানে প্রস্তাবিত সামগ্রী চালানোর জন্য একই মডেলকে প্রশিক্ষিত এবং ব্যবহার করেছে।
Pinterest একটি ব্যবহারকারীর অনুসন্ধান ক্যোয়ারী (q) তাদের ক্লিক করা সামগ্রীর সাথে বা তাদের সংরক্ষিত পিনগুলির সাথে যুক্ত করে মডেলটিকে প্রশিক্ষণ দেয় (p)৷ এখানে কিভাবে Pinterest প্রতিটি কাজের জন্য (q,p) জোড়া তৈরি করেছে:
সম্পর্কিত পিন : শব্দ এমবেডিংগুলি নির্বাচিত বিষয় (q) থেকে নেওয়া হয়েছে এবং ব্যবহারকারী (p) দ্বারা ক্লিক করা বা সংরক্ষণ করা পিন থেকে।
অনুসন্ধান : শব্দ এমবেডিংগুলি অনুসন্ধান ক্যোয়ারী পাঠ্য (q) এবং ব্যবহারকারী (p) দ্বারা ক্লিক করা বা সংরক্ষণ করা পিন থেকে তৈরি করা হয়।
হোমফিড : ব্যবহারকারীর আগ্রহের (q) এবং ব্যবহারকারী (p) দ্বারা ক্লিক করা বা সংরক্ষণ করা পিনের উপর ভিত্তি করে শব্দ এম্বেডিং তৈরি করা হয়।
একটি সামগ্রিক সত্তা এম্বেডিং পেতে, Pinterest সম্পর্কিত পিন, অনুসন্ধান এবং হোমফিডের জন্য সম্পর্কিত শব্দ এম্বেডিংয়ের গড় করে।
Pinterest তার নিজস্ব তত্ত্বাবধানে থাকা Pintext-MTL (মাল্টি-টাস্ক লার্নিং) তৈরি এবং মূল্যায়ন করেছে যার মধ্যে GloVe, word2vec এর পাশাপাশি একটি একক-টাস্ক লার্নিং মডেল, PinText-SR নির্ভুলতা সহ অ-তত্ত্বাবধানহীন শেখার মডেল রয়েছে। PinText-MTL-এর অন্যান্য এম্বেডিং মডেলের তুলনায় উচ্চতর নির্ভুলতা ছিল, যার অর্থ হল সমস্ত ইতিবাচক ভবিষ্যদ্বাণীগুলির মধ্যে সত্য ইতিবাচক ভবিষ্যদ্বাণীগুলির উচ্চ অনুপাত ছিল৷
Pinterest এও দেখেছে যে মাল্টি-টাস্ক লার্নিং মডেলগুলিতে উচ্চতর রিকল, বা মডেল দ্বারা সঠিকভাবে চিহ্নিত প্রাসঙ্গিক দৃষ্টান্তগুলির উচ্চ অনুপাত রয়েছে, যা তাদের অনুসন্ধান এবং আবিষ্কারের জন্য আরও উপযুক্ত করে তুলেছে।
এই সবগুলিকে উৎপাদনে একত্রিত করতে, Pinterest-এর একটি মাল্টিটাস্ক মডেল রয়েছে যা হোমফিড, অনুসন্ধান এবং সম্পর্কিত পিনগুলি থেকে ডেটা স্ট্রিমিং সম্পর্কে প্রশিক্ষিত। একবার সেই মডেলটি প্রশিক্ষিত হয়ে গেলে, কুবারনেটস+ডকার বা ম্যাপ-রিডুস সিস্টেম ব্যবহার করে একটি বড় ব্যাচের কাজে ভেক্টর এম্বেডিং তৈরি করা হয়। প্ল্যাটফর্মটি ভেক্টর এম্বেডিংয়ের একটি অনুসন্ধান সূচক তৈরি করে এবং ব্যবহারকারীদের জন্য সবচেয়ে প্রাসঙ্গিক বিষয়বস্তু খুঁজে পেতে একটি K- নিকটতম প্রতিবেশী (KNN) অনুসন্ধান চালায়। Pinterest প্ল্যাটফর্মের কর্মক্ষমতা প্রয়োজনীয়তা পূরণ করার জন্য ফলাফল ক্যাশে করা হয়।
Spotify ব্যবহারকারীদের জন্য প্রাসঙ্গিক পডকাস্ট পর্বের ফলাফল পুনরুদ্ধার করতে কীওয়ার্ড এবং শব্দার্থিক অনুসন্ধানকে একত্রিত করে। একটি উদাহরণ হিসাবে, দলটি "ইলেকট্রিক গাড়ির জলবায়ু প্রভাব" প্রশ্নের জন্য কীওয়ার্ড অনুসন্ধানের সীমাবদ্ধতাগুলি হাইলাইট করেছে, একটি প্রশ্ন যা 0 ফলাফল দিয়েছে যদিও প্রাসঙ্গিক পডকাস্ট পর্বগুলি স্পটিফাই লাইব্রেরিতে বিদ্যমান। প্রত্যাহার উন্নত করতে, Spotify টিম দ্রুত, প্রাসঙ্গিক পডকাস্ট অনুসন্ধানের জন্য আনুমানিক নিকটতম প্রতিবেশী (ANN) ব্যবহার করেছে।
দলটি ইউনিভার্সাল সেন্টেন্স এনকোডার CMLM মডেল ব্যবহার করে ভেক্টর এম্বেডিং তৈরি করে কারণ এটি বহুভাষিক, পডকাস্টের একটি গ্লোবাল লাইব্রেরি সমর্থন করে এবং উচ্চ-মানের ভেক্টর এম্বেডিং তৈরি করে। BERT সহ অন্যান্য মডেলগুলিও মূল্যায়ন করা হয়েছিল, একটি মডেল যা টেক্সট ডেটার একটি বড় কর্পাসের উপর প্রশিক্ষিত ছিল, কিন্তু দেখা গেছে যে BERT বাক্য এমবেডিংয়ের চেয়ে শব্দ এম্বেডিংয়ের জন্য আরও উপযুক্ত এবং শুধুমাত্র ইংরেজিতে প্রাক-প্রশিক্ষিত ছিল।
Spotify কোয়েরি টেক্সটটি ইনপুট এম্বেডিং এবং পডকাস্ট পর্ব এম্বেডিংয়ের জন্য শিরোনাম এবং বিবরণ সহ পাঠ্য মেটাডেটা ক্ষেত্রগুলির সংমিশ্রণ সহ ভেক্টর এম্বেডিং তৈরি করে। সাদৃশ্য নির্ধারণ করতে, স্পটিফাই ক্যোয়ারী এবং এপিসোড এম্বেডিংয়ের মধ্যে কোসাইন দূরত্ব পরিমাপ করেছে।
বেস ইউনিভার্সাল সেন্টেন্স এনকোডার CMLM মডেলকে প্রশিক্ষণ দিতে, Spotify সফল পডকাস্ট অনুসন্ধান এবং পর্বগুলির ইতিবাচক জোড়া ব্যবহার করেছে। তারা ইন-ব্যাচ নেতিবাচক অন্তর্ভুক্ত করেছে, একটি কৌশল যা কাগজপত্রে হাইলাইট করা হয়েছে যার মধ্যে রয়েছে ওপেন-ডোমেন প্রশ্ন উত্তরের জন্য ঘন উত্তরণ পুনরুদ্ধার (DPR) এবং Que2Search: দ্রুত এবং সঠিক ক্যোয়ারী এবং Facebook-এ অনুসন্ধানের জন্য নথি বোঝা , এলোমেলো নেতিবাচক জোড়া তৈরি করতে। সিন্থেটিক কোয়েরি এবং ম্যানুয়ালি লিখিত প্রশ্ন ব্যবহার করেও পরীক্ষা করা হয়েছিল।
প্রোডাকশনে পডকাস্ট সুপারিশ পরিবেশন করার জন্য ভেক্টর অনুসন্ধানকে অন্তর্ভুক্ত করতে, Spotify নিম্নলিখিত পদক্ষেপ এবং প্রযুক্তি ব্যবহার করেছে:
ইনডেক্স এপিসোড ভেক্টর : Spotify এএনএন এর জন্য নেটিভ সাপোর্ট সহ একটি সার্চ ইঞ্জিন Vespa ব্যবহার করে ব্যাচে অফলাইনে পর্ব ভেক্টর সূচী করে। Vespa বেছে নেওয়ার একটি কারণ হল এটি পর্বের জনপ্রিয়তার মতো বৈশিষ্ট্যগুলিতে পোস্ট-সার্চ মেটাডেটা ফিল্টারিংও অন্তর্ভুক্ত করতে পারে।
অনলাইন অনুমান : Spotify একটি ক্যোয়ারী ভেক্টর তৈরি করতে Google Cloud Vertex AI ব্যবহার করে। Vertex AI-কে GPU অনুমানের জন্য এর সমর্থনের জন্য বেছে নেওয়া হয়েছিল, যেটি এম্বেডিং তৈরি করতে এবং এর ক্যোয়ারী ক্যাশের জন্য বড় ট্রান্সফরমার মডেল ব্যবহার করার সময় আরও সাশ্রয়ী। ক্যোয়ারী ভেক্টর এম্বেডিং তৈরি হওয়ার পরে, এটি Vespa থেকে শীর্ষ 30টি পডকাস্ট পর্ব পুনরুদ্ধার করতে ব্যবহৃত হয়।
শব্দার্থিক অনুসন্ধান প্রাসঙ্গিক পডকাস্ট পর্বগুলির সনাক্তকরণে অবদান রাখে, তবুও এটি কীওয়ার্ড অনুসন্ধানকে সম্পূর্ণরূপে প্রতিস্থাপন করতে অক্ষম। ব্যবহারকারীরা যখন একটি সঠিক পর্ব বা পডকাস্টের নাম অনুসন্ধান করেন তখন শব্দার্থগত অনুসন্ধানটি সঠিক শব্দের মিলের কম হয়। স্পটিফাই একটি হাইব্রিড অনুসন্ধান পদ্ধতি ব্যবহার করে, ইলাস্টিকসার্চে কীওয়ার্ড অনুসন্ধানের সাথে ভেস্পাতে শব্দার্থিক অনুসন্ধানকে একীভূত করে, ব্যবহারকারীদের কাছে প্রদর্শিত পর্বগুলি স্থাপন করার জন্য একটি চূড়ান্ত পুনঃর্যাঙ্কিং পর্যায় অনুসরণ করে।
ঐতিহ্যগতভাবে, সার্চ ইঞ্জিনগুলি আইটেম বা নথির পাঠ্য বিবরণের সাথে অনুসন্ধান ক্যোয়ারী পাঠ্য সারিবদ্ধ করে ফলাফল প্রদর্শন করে। এই পদ্ধতিটি পছন্দগুলি অনুমান করার জন্য ভাষার উপর ব্যাপকভাবে নির্ভর করে এবং শৈলী বা নন্দনতত্ত্বের উপাদানগুলি ক্যাপচার করার ক্ষেত্রে এটি ততটা কার্যকর নয়। eBay ব্যবহারকারীদের প্রাসঙ্গিক, অনুরূপ আইটেমগুলি খুঁজে পেতে সাহায্য করার জন্য চিত্র অনুসন্ধান প্রবর্তন করে যা তারা যে শৈলীটি খুঁজছেন তা পূরণ করে৷
eBay একটি মাল্টি-মোডাল মডেল ব্যবহার করে যা ভবিষ্যদ্বাণী করতে বা কার্য সম্পাদন করার জন্য একাধিক পদ্ধতি বা ইনপুট প্রকার, যেমন পাঠ্য, চিত্র, অডিও বা ভিডিও থেকে ডেটা প্রক্রিয়া এবং সংহত করার জন্য ডিজাইন করা হয়েছে। eBay তার মডেলে টেক্সট এবং ইমেজ উভয়ই অন্তর্ভুক্ত করে, একটি কনভোল্যুশনাল নিউরাল নেটওয়ার্ক (CNN) মডেল ব্যবহার করে ইমেজ এম্বেডিং তৈরি করে, বিশেষ করে Resnet-50 , এবং টেক্সট-ভিত্তিক মডেল যেমন BERT ব্যবহার করে শিরোনাম এম্বেডিং। প্রতিটি তালিকা একটি ভেক্টর এমবেডিং দ্বারা প্রতিনিধিত্ব করা হয় যা ইমেজ এবং শিরোনাম এম্বেডিং উভয়কে একত্রিত করে।
একবার মাল্টি-মডেল মডেলটিকে ইমেজ-টাইটেল তালিকা জোড়ার একটি বড় ডেটাসেট এবং সম্প্রতি বিক্রি হওয়া তালিকাগুলি ব্যবহার করে প্রশিক্ষণ দেওয়া হলে, এটি সাইট অনুসন্ধানের অভিজ্ঞতায় উৎপাদনে রাখার সময়। ইবে-এ বিপুল সংখ্যক তালিকার কারণে, HDFS, eBay-এর ডেটা গুদামে ডেটা ব্যাচে লোড করা হয়। ইবে অ্যাপাচি স্পার্ক ব্যবহার করে ইমেজ পুনরুদ্ধার এবং সংরক্ষণ করতে এবং তালিকার আরও প্রক্রিয়াকরণের জন্য প্রয়োজনীয় প্রাসঙ্গিক ক্ষেত্রগুলি, তালিকার এম্বেডিং তৈরি করা সহ। তালিকা এম্বেডিংগুলি একটি কলামার স্টোরে প্রকাশিত হয় যেমন HBase যা বৃহৎ-স্কেল ডেটা একত্রিত করতে ভাল। HBase থেকে, তালিকা এম্বেডিং সূচিত করা হয় এবং ইবেতে তৈরি একটি সার্চ ইঞ্জিন ক্যাসিনিতে পরিবেশন করা হয়।
পাইপলাইনটি অ্যাপাচি এয়ারফ্লো ব্যবহার করে পরিচালিত হয়, যা উচ্চ পরিমাণে এবং কাজের জটিলতা থাকলেও স্কেলিং করতে সক্ষম। এটি স্পার্ক, হ্যাডুপ এবং পাইথনের জন্য সহায়তা প্রদান করে, যা মেশিন লার্নিং টিমের পক্ষে গ্রহণ এবং ব্যবহার করা সুবিধাজনক করে তোলে।
ভিজ্যুয়াল অনুসন্ধান ব্যবহারকারীদের আসবাবপত্র এবং বাড়ির সাজসজ্জার বিভাগে অনুরূপ শৈলী এবং পছন্দগুলি খুঁজে পেতে অনুমতি দেয়, যেখানে শৈলী এবং নান্দনিকতা কেনার সিদ্ধান্তের চাবিকাঠি। ভবিষ্যতে, eBay সমস্ত বিভাগ জুড়ে ভিজ্যুয়াল অনুসন্ধান প্রসারিত করার পরিকল্পনা করেছে এবং ব্যবহারকারীদের সম্পর্কিত আইটেমগুলি আবিষ্কার করতে সহায়তা করবে যাতে তারা তাদের বাড়িতে একই চেহারা এবং অনুভূতি স্থাপন করতে পারে।
অনুসন্ধান এবং অনুরূপ তালিকা বৈশিষ্ট্যগুলি AirBnb সাইটে 99% বুকিং চালায়। AirBnb অনুরূপ তালিকা সুপারিশ উন্নত করতে এবং অনুসন্ধান র্যাঙ্কিংয়ে রিয়েল-টাইম ব্যক্তিগতকরণ প্রদানের জন্য একটি তালিকা এম্বেডিং কৌশল তৈরি করেছে।
AirBnb প্রথম দিকে বুঝতে পেরেছিল যে তারা কেবলমাত্র শব্দ উপস্থাপনের বাইরে এম্বেডিংয়ের প্রয়োগকে প্রসারিত করতে পারে, ক্লিক এবং বুকিং সহ ব্যবহারকারীর আচরণকেও অন্তর্ভুক্ত করে।
এমবেডিং মডেলগুলিকে প্রশিক্ষিত করার জন্য, AirBnb 4.5M সক্রিয় তালিকা এবং 800 মিলিয়ন অনুসন্ধান সেশন অন্তর্ভুক্ত করেছে যাতে কোন ব্যবহারকারী কোন সেশনে ক্লিক করে এবং এড়িয়ে যায় তার উপর ভিত্তি করে সাদৃশ্য নির্ধারণ করে। একটি সেশনে একই ব্যবহারকারীর দ্বারা ক্লিক করা তালিকাগুলিকে একসাথে ঠেলে দেওয়া হয়; ব্যবহারকারীর দ্বারা এড়িয়ে যাওয়া তালিকাগুলি আরও দূরে ঠেলে দেওয়া হয়। অনলাইন পরিবেশনের জন্য প্রয়োজনীয় অফলাইন পারফরম্যান্স এবং মেমরির মধ্যে ট্রেডঅফের পরিপ্রেক্ষিতে দলটি d=32-এর একটি তালিকা এমবেডিংয়ের মাত্রিকতার উপর স্থির হয়েছে।
AirBnb খুঁজে পেয়েছে যে নির্দিষ্ট তালিকার বৈশিষ্ট্যগুলির জন্য শেখার প্রয়োজন নেই, কারণ সেগুলি সরাসরি মেটাডেটা থেকে পাওয়া যেতে পারে, যেমন দাম। যাইহোক, স্থাপত্য, শৈলী এবং পরিবেশের মতো বৈশিষ্ট্যগুলি মেটাডেটা থেকে প্রাপ্ত করা যথেষ্ট চ্যালেঞ্জিং।
প্রোডাকশনে যাওয়ার আগে, AirBnb তাদের মডেল যাচাই করে যাচাই করে যে মডেলটি কতটা ভালো তালিকার সুপারিশ করেছে যা একজন ব্যবহারকারী আসলে বুক করেছেন। দলটি ভেক্টর এম্বেডিং-ভিত্তিক অ্যালগরিদমের সাথে বিদ্যমান তালিকার অ্যালগরিদমের তুলনা করে একটি A/B পরীক্ষাও চালায়। তারা দেখেছে যে ভেক্টর এম্বেডিং সহ অ্যালগরিদমের ফলে CTR তে 21% বৃদ্ধি এবং ব্যবহারকারীরা তাদের বুক করা একটি তালিকা আবিষ্কার করে 4.9% বৃদ্ধি পেয়েছে।
দলটি আরও বুঝতে পেরেছিল যে অনুসন্ধানে রিয়েল-টাইম ব্যক্তিগতকরণের জন্য মডেলের অংশ হিসাবে ভেক্টর এম্বেডিং ব্যবহার করা যেতে পারে। প্রতিটি ব্যবহারকারীর জন্য, তারা কাফকা ব্যবহার করে রিয়েল টাইমে সংগৃহীত এবং রক্ষণাবেক্ষণ করেছে, গত দুই সপ্তাহে ব্যবহারকারীর ক্লিক এবং এড়িয়ে যাওয়ার একটি স্বল্পমেয়াদী ইতিহাস। ব্যবহারকারীর দ্বারা পরিচালিত প্রতিটি অনুসন্ধানের জন্য, তারা দুটি মিল অনুসন্ধান চালায়:
ভৌগলিক বাজারের উপর ভিত্তি করে যা সম্প্রতি অনুসন্ধান করা হয়েছিল এবং তারপরে
প্রার্থী তালিকা এবং ব্যবহারকারীর ক্লিক/এড়িয়ে যাওয়ার মধ্যে মিল
এমবেডিংগুলি অফলাইন এবং অনলাইন পরীক্ষায় মূল্যায়ন করা হয়েছিল এবং রিয়েল-টাইম ব্যক্তিগতকরণ বৈশিষ্ট্যের অংশ হয়ে উঠেছে।
Doordash-এর বিভিন্ন ধরণের স্টোর রয়েছে যেগুলি থেকে ব্যবহারকারীরা অর্ডার করতে বেছে নিতে পারেন এবং ব্যক্তিগতকৃত পছন্দগুলি ব্যবহার করে সবচেয়ে প্রাসঙ্গিক স্টোরগুলিকে দেখাতে সক্ষম হওয়া অনুসন্ধান এবং আবিষ্কারকে উন্নত করে৷
Doordash ভেক্টর এম্বেডিং ব্যবহার করে তার স্টোর ফিড অ্যালগরিদমে সুপ্ত তথ্য প্রয়োগ করতে চেয়েছিল। এটি Doordash-কে সেই দোকানগুলির মধ্যে মিল উন্মোচন করতে সক্ষম করবে যেগুলি ভালভাবে নথিভুক্ত ছিল না, যেমন একটি দোকানে মিষ্টি আইটেম আছে কিনা, ট্রেন্ডি হিসাবে বিবেচিত হয় বা নিরামিষ বিকল্পগুলি বৈশিষ্ট্যযুক্ত।
Doordash word2vec-এর একটি ডেরিভেটিভ ব্যবহার করেছে, প্রাকৃতিক ভাষা প্রক্রিয়াকরণে ব্যবহৃত একটি এমবেডিং মডেল, স্টোর2vec নামে পরিচিত যা বিদ্যমান ডেটার উপর ভিত্তি করে অভিযোজিত হয়েছে। দলটি প্রতিটি স্টোরকে একটি শব্দ হিসাবে বিবেচনা করে এবং একটি একক ব্যবহারকারীর সেশনের সময় দেখা স্টোরের তালিকা ব্যবহার করে বাক্য গঠন করে, প্রতি বাক্যে সর্বোচ্চ 5টি স্টোর। ব্যবহারকারীর ভেক্টর এম্বেডিং তৈরি করতে, Doordash সেই স্টোরের ভেক্টরগুলিকে যোগ করেছে যেখান থেকে ব্যবহারকারীরা গত 6 মাসে বা 100টি অর্ডার পর্যন্ত অর্ডার দিয়েছে।
উদাহরণ হিসেবে, Doordash সান ফ্রান্সিসকোতে জনপ্রিয়, ট্রেন্ডি জয়েন্ট 4505 Burgers এবং New Nagano Sushi-এ তাদের সাম্প্রতিক কেনাকাটার উপর ভিত্তি করে একজন ব্যবহারকারীর জন্য অনুরূপ রেস্তোরাঁ খুঁজতে ভেক্টর অনুসন্ধান ব্যবহার করেছে। Doordash অনুরূপ রেস্তোরাঁর একটি তালিকা তৈরি করেছে যা ব্যবহারকারীর এম্বেডিং থেকে কোসাইন দূরত্ব পরিমাপ করে এলাকায় এম্বেডিং সঞ্চয় করে। আপনি দেখতে পাচ্ছেন যে কোসাইন দূরত্বে সবচেয়ে কাছের দোকানগুলির মধ্যে রয়েছে কেজার পাব এবং কাঠের চারকোল কোরিয়ান ভিলেজ BBQ।
Doordash তার বৃহত্তর সুপারিশ এবং ব্যক্তিগতকরণ মডেলের বৈশিষ্ট্যগুলির মধ্যে একটি হিসাবে store2vec দূরত্ব বৈশিষ্ট্যকে অন্তর্ভুক্ত করেছে। ভেক্টর অনুসন্ধানের মাধ্যমে, Doordash ক্লিক-থ্রু-রেট 5% বৃদ্ধি দেখতে সক্ষম হয়েছে। দলটি নতুন মডেলগুলি যেমন seq2seq , মডেল অপ্টিমাইজেশান এবং ব্যবহারকারীদের কাছ থেকে রিয়েল-টাইম অনসাইট কার্যকলাপ ডেটা অন্তর্ভুক্ত করে পরীক্ষা করছে৷
Pinterest, Spotify, eBay, Airbnb এবং Doordash ভেক্টর অনুসন্ধানের সাথে আরও ভাল অনুসন্ধান এবং আবিষ্কারের অভিজ্ঞতা তৈরি করে। এই দলগুলির মধ্যে অনেকগুলি পাঠ্য অনুসন্ধান ব্যবহার করে শুরু করেছে এবং অস্পষ্ট অনুসন্ধান বা নির্দিষ্ট শৈলী বা নান্দনিকতার অনুসন্ধানের সাথে সীমাবদ্ধতা খুঁজে পেয়েছে। এই পরিস্থিতিতে, অভিজ্ঞতায় ভেক্টর অনুসন্ধান যোগ করা প্রাসঙ্গিক, এবং প্রায়শই ব্যক্তিগতকৃত, পডকাস্ট, বালিশ, ভাড়া, পিন এবং খাবারের জায়গাগুলিকে সহজ করে তুলেছে।
ভেক্টর অনুসন্ধান বাস্তবায়নের সময় এই কোম্পানিগুলি যে কয়েকটি সিদ্ধান্ত নিয়েছে তা বলা উচিত:
রকসেট, একটি রিয়েল-টাইম অনুসন্ধান এবং বিশ্লেষণ ডেটাবেস, সম্প্রতি ভেক্টর অনুসন্ধানের জন্য সমর্থন যোগ করেছে। আজই $300 ক্রেডিট সহ একটি বিনামূল্যের ট্রায়াল শুরু করে রিয়েল-টাইম ব্যক্তিগতকরণ, সুপারিশ, অসঙ্গতি সনাক্তকরণ এবং আরও অনেক কিছুর জন্য Rockset-এ ভেক্টর অনুসন্ধান করুন৷