paint-brush
প্রধান প্রযুক্তি কোম্পানি থেকে ভেক্টর অনুসন্ধানের জন্য 5টি ব্যবহারের ক্ষেত্রে একটি নজর৷দ্বারা@rocksetcloud
7,165 পড়া
7,165 পড়া

প্রধান প্রযুক্তি কোম্পানি থেকে ভেক্টর অনুসন্ধানের জন্য 5টি ব্যবহারের ক্ষেত্রে একটি নজর৷

দ্বারা Rockset12m2024/05/03
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

ভেক্টর অনুসন্ধান-এর প্রথম দিকের 5টি গ্রহণকারীদের মধ্যে একটি গভীর ডুব- Pinterest, Spotify, eBay, Airbnb এবং Doordash- যারা তাদের অ্যাপ্লিকেশনগুলিতে AI সংহত করেছে।
featured image - প্রধান প্রযুক্তি কোম্পানি থেকে ভেক্টর অনুসন্ধানের জন্য 5টি ব্যবহারের ক্ষেত্রে একটি নজর৷
Rockset HackerNoon profile picture


আমরা যে অনেক সংস্থার সাথে কথা বলেছি তারা AI-চালিত ব্যক্তিগতকরণ, সুপারিশ, শব্দার্থিক অনুসন্ধান এবং অসঙ্গতি সনাক্তকরণের জন্য ভেক্টর অনুসন্ধান ব্যবহার করার অন্বেষণের পর্যায়ে রয়েছে। BERT এবং OpenAI সহ বৃহৎ ভাষা মডেলের (LLMs) যথার্থতা এবং অ্যাক্সেসযোগ্যতার সাম্প্রতিক এবং জ্যোতির্বিদ্যাগত উন্নতিগুলি সংস্থাগুলিকে কীভাবে প্রাসঙ্গিক অনুসন্ধান এবং বিশ্লেষণ অভিজ্ঞতা তৈরি করতে হয় তা পুনর্বিবেচনা করতে বাধ্য করেছে৷


এই ব্লগে, আমরা ভেক্টর অনুসন্ধানের 5 জন প্রাথমিক গ্রহণকারী- Pinterest, Spotify, eBay, Airbnb এবং Doordash- যারা তাদের অ্যাপ্লিকেশনগুলিতে AI সংহত করেছে তাদের থেকে ইঞ্জিনিয়ারিং গল্পগুলি ক্যাপচার করি৷ আমরা আশা করি যে এই গল্পগুলি ইঞ্জিনিয়ারিং দলগুলির জন্য সহায়ক হবে যারা ভেক্টর অনুসন্ধানের সম্পূর্ণ জীবনচক্রের মাধ্যমে এম্বেডিং তৈরি করা থেকে উত্পাদন স্থাপনা পর্যন্ত চিন্তা করছে৷

ভেক্টর অনুসন্ধান কি?

ভেক্টর অনুসন্ধান একটি উচ্চ-মাত্রিক স্থানের ডেটা উপস্থাপনের উপর ভিত্তি করে একটি বৃহৎ ডেটাসেট থেকে অনুরূপ আইটেমগুলিকে দক্ষতার সাথে অনুসন্ধান এবং পুনরুদ্ধার করার একটি পদ্ধতি। এই প্রসঙ্গে, আইটেমগুলি যেকোনও হতে পারে, যেমন নথি, ছবি বা শব্দ, এবং ভেক্টর এম্বেডিং হিসাবে উপস্থাপন করা হয়। আইটেমগুলির মধ্যে মিল দূরত্বের মেট্রিক্স ব্যবহার করে গণনা করা হয়, যেমন কোসাইন সাদৃশ্য বা ইউক্লিডীয় দূরত্ব , যা দুটি ভেক্টর এমবেডিংয়ের ঘনিষ্ঠতা পরিমাপ করে।


ভেক্টর অনুসন্ধান প্রক্রিয়া সাধারণত জড়িত:


  • এমবেডিং তৈরি করা : যেখানে word2vec , BERT বা ইউনিভার্সাল সেন্টেন্স এনকোডারের মতো মডেল ব্যবহার করে ভেক্টর উপস্থাপনা তৈরি করতে কাঁচা ডেটা থেকে প্রাসঙ্গিক বৈশিষ্ট্যগুলি বের করা হয়
  • ইন্ডেক্সিং : ভেক্টর এমবেডিংগুলি একটি ডেটা কাঠামোতে সংগঠিত হয় যা FAISS বা HNSW এর মতো অ্যালগরিদম ব্যবহার করে দক্ষ অনুসন্ধান সক্ষম করে
  • ভেক্টর অনুসন্ধান : যেখানে কোসাইন সাদৃশ্য বা ইউক্লিডীয় দূরত্বের মতো নির্বাচিত দূরত্ব মেট্রিকের উপর ভিত্তি করে একটি প্রদত্ত কোয়েরি ভেক্টরের সাথে সর্বাধিক অনুরূপ আইটেমগুলি পুনরুদ্ধার করা হয়


ভেক্টর অনুসন্ধানকে আরও ভালভাবে কল্পনা করতে, আমরা একটি 3D স্থান কল্পনা করতে পারি যেখানে প্রতিটি অক্ষ একটি বৈশিষ্ট্যের সাথে মিলে যায়। স্থানের একটি বিন্দুর সময় এবং অবস্থান এই বৈশিষ্ট্যগুলির মান দ্বারা নির্ধারিত হয়। এই স্থানটিতে, অনুরূপ আইটেমগুলি কাছাকাছি অবস্থিত এবং ভিন্ন আইটেমগুলি আরও দূরে অবস্থিত।


গিথাব জুলি-মিলস

 ^ | x Item 1 | / | / | /x Item 2 | / | / | /x Item 3 | / | / | / +------------------->


একটি ক্যোয়ারী দেওয়া হলে, আমরা ডেটাসেটে সবচেয়ে অনুরূপ আইটেমগুলি খুঁজে পেতে পারি। ক্যোয়ারীটি আইটেম এম্বেডিংয়ের মতো একই জায়গায় ভেক্টর এম্বেডিং হিসাবে উপস্থাপন করা হয় এবং ক্যোয়ারী এম্বেডিং এবং প্রতিটি আইটেম এম্বেডিংয়ের মধ্যে দূরত্ব গণনা করা হয়। ক্যোয়ারী এমবেডিং থেকে স্বল্পতম দূরত্ব সহ আইটেম এম্বেডিংগুলিকে সবচেয়ে অনুরূপ বলে মনে করা হয়৷


 Query item: x | ^ | | x Item 1| | / | | / | | /x Item 2 | | / | | / | | /x Item 3 | | / | | / | | / | +------------------->


এটি স্পষ্টতই একটি সরলীকৃত ভিজ্যুয়ালাইজেশন কারণ ভেক্টর অনুসন্ধান উচ্চ-মাত্রিক স্থানগুলিতে কাজ করে।


পরবর্তী বিভাগগুলিতে, আমরা ভেক্টর অনুসন্ধানে 5 টি প্রকৌশল ব্লগের সংক্ষিপ্তসার করব এবং মূল বাস্তবায়ন বিবেচনাগুলি হাইলাইট করব। সম্পূর্ণ ইঞ্জিনিয়ারিং ব্লগগুলি নীচে পাওয়া যাবে:



Pinterest: আগ্রহের অনুসন্ধান এবং আবিষ্কার

Pinterest তার প্ল্যাটফর্মের একাধিক ক্ষেত্র জুড়ে চিত্র অনুসন্ধান এবং আবিষ্কারের জন্য ভেক্টর অনুসন্ধান ব্যবহার করে, যার মধ্যে হোম ফিডে প্রস্তাবিত বিষয়বস্তু, সম্পর্কিত পিন এবং একটি মাল্টিটাস্ক শেখার মডেল ব্যবহার করে অনুসন্ধান।


বিভিন্ন ব্যবহারকারীর মিথস্ক্রিয়া এবং ডেটা পয়েন্ট যা Pinterest এ ভেক্টর এম্বেডিং তৈরি করতে ব্যবহৃত হয়।


একটি মাল্টি-টাস্ক মডেলকে একযোগে একাধিক কাজ করার জন্য প্রশিক্ষিত করা হয়, প্রায়শই অন্তর্নিহিত উপস্থাপনা বা বৈশিষ্ট্যগুলি ভাগ করে নেওয়া হয়, যা সম্পর্কিত কাজগুলিতে সাধারণীকরণ এবং দক্ষতা উন্নত করতে পারে। Pinterest-এর ক্ষেত্রে, টিম হোমফিড, সম্পর্কিত পিন এবং অনুসন্ধানে প্রস্তাবিত সামগ্রী চালানোর জন্য একই মডেলকে প্রশিক্ষিত এবং ব্যবহার করেছে।


Pinterest একটি ব্যবহারকারীর অনুসন্ধান ক্যোয়ারী (q) তাদের ক্লিক করা সামগ্রীর সাথে বা তাদের সংরক্ষিত পিনগুলির সাথে যুক্ত করে মডেলটিকে প্রশিক্ষণ দেয় (p)৷ এখানে কিভাবে Pinterest প্রতিটি কাজের জন্য (q,p) জোড়া তৈরি করেছে:


  • সম্পর্কিত পিন : শব্দ এমবেডিংগুলি নির্বাচিত বিষয় (q) থেকে নেওয়া হয়েছে এবং ব্যবহারকারী (p) দ্বারা ক্লিক করা বা সংরক্ষণ করা পিন থেকে।

  • অনুসন্ধান : শব্দ এমবেডিংগুলি অনুসন্ধান ক্যোয়ারী পাঠ্য (q) এবং ব্যবহারকারী (p) দ্বারা ক্লিক করা বা সংরক্ষণ করা পিন থেকে তৈরি করা হয়।

  • হোমফিড : ব্যবহারকারীর আগ্রহের (q) এবং ব্যবহারকারী (p) দ্বারা ক্লিক করা বা সংরক্ষণ করা পিনের উপর ভিত্তি করে শব্দ এম্বেডিং তৈরি করা হয়।


একটি সামগ্রিক সত্তা এম্বেডিং পেতে, Pinterest সম্পর্কিত পিন, অনুসন্ধান এবং হোমফিডের জন্য সম্পর্কিত শব্দ এম্বেডিংয়ের গড় করে।


Pinterest তার নিজস্ব তত্ত্বাবধানে থাকা Pintext-MTL (মাল্টি-টাস্ক লার্নিং) তৈরি এবং মূল্যায়ন করেছে যার মধ্যে GloVe, word2vec এর পাশাপাশি একটি একক-টাস্ক লার্নিং মডেল, PinText-SR নির্ভুলতা সহ অ-তত্ত্বাবধানহীন শেখার মডেল রয়েছে। PinText-MTL-এর অন্যান্য এম্বেডিং মডেলের তুলনায় উচ্চতর নির্ভুলতা ছিল, যার অর্থ হল সমস্ত ইতিবাচক ভবিষ্যদ্বাণীগুলির মধ্যে সত্য ইতিবাচক ভবিষ্যদ্বাণীগুলির উচ্চ অনুপাত ছিল৷

Pinterest দ্বারা মূল্যায়ন করা বিভিন্ন এমবেডিং মডেলের নির্ভুলতা। এই ফলাফলের সারণীটি ব্লগ থেকে নেওয়া হয়েছে PinText: Pinterest-এ একটি মাল্টিটাস্ক টেক্সট এমবেডিং সিস্টেম।



Pinterest এও দেখেছে যে মাল্টি-টাস্ক লার্নিং মডেলগুলিতে উচ্চতর রিকল, বা মডেল দ্বারা সঠিকভাবে চিহ্নিত প্রাসঙ্গিক দৃষ্টান্তগুলির উচ্চ অনুপাত রয়েছে, যা তাদের অনুসন্ধান এবং আবিষ্কারের জন্য আরও উপযুক্ত করে তুলেছে।


এই সবগুলিকে উৎপাদনে একত্রিত করতে, Pinterest-এর একটি মাল্টিটাস্ক মডেল রয়েছে যা হোমফিড, অনুসন্ধান এবং সম্পর্কিত পিনগুলি থেকে ডেটা স্ট্রিমিং সম্পর্কে প্রশিক্ষিত। একবার সেই মডেলটি প্রশিক্ষিত হয়ে গেলে, কুবারনেটস+ডকার বা ম্যাপ-রিডুস সিস্টেম ব্যবহার করে একটি বড় ব্যাচের কাজে ভেক্টর এম্বেডিং তৈরি করা হয়। প্ল্যাটফর্মটি ভেক্টর এম্বেডিংয়ের একটি অনুসন্ধান সূচক তৈরি করে এবং ব্যবহারকারীদের জন্য সবচেয়ে প্রাসঙ্গিক বিষয়বস্তু খুঁজে পেতে একটি K- নিকটতম প্রতিবেশী (KNN) অনুসন্ধান চালায়। Pinterest প্ল্যাটফর্মের কর্মক্ষমতা প্রয়োজনীয়তা পূরণ করার জন্য ফলাফল ক্যাশে করা হয়।


Pinterest এ ভেক্টর অনুসন্ধানের জন্য ডেটা স্ট্যাক।



Spotify: পডকাস্ট অনুসন্ধান

Spotify ব্যবহারকারীদের জন্য প্রাসঙ্গিক পডকাস্ট পর্বের ফলাফল পুনরুদ্ধার করতে কীওয়ার্ড এবং শব্দার্থিক অনুসন্ধানকে একত্রিত করে। একটি উদাহরণ হিসাবে, দলটি "ইলেকট্রিক গাড়ির জলবায়ু প্রভাব" প্রশ্নের জন্য কীওয়ার্ড অনুসন্ধানের সীমাবদ্ধতাগুলি হাইলাইট করেছে, একটি প্রশ্ন যা 0 ফলাফল দিয়েছে যদিও প্রাসঙ্গিক পডকাস্ট পর্বগুলি স্পটিফাই লাইব্রেরিতে বিদ্যমান। প্রত্যাহার উন্নত করতে, Spotify টিম দ্রুত, প্রাসঙ্গিক পডকাস্ট অনুসন্ধানের জন্য আনুমানিক নিকটতম প্রতিবেশী (ANN) ব্যবহার করেছে।


Spotify-এ "বৈদ্যুতিক গাড়ির জলবায়ু প্রভাব" এর জন্য বর্তমান সময়ের অনুসন্ধান৷


দলটি ইউনিভার্সাল সেন্টেন্স এনকোডার CMLM মডেল ব্যবহার করে ভেক্টর এম্বেডিং তৈরি করে কারণ এটি বহুভাষিক, পডকাস্টের একটি গ্লোবাল লাইব্রেরি সমর্থন করে এবং উচ্চ-মানের ভেক্টর এম্বেডিং তৈরি করে। BERT সহ অন্যান্য মডেলগুলিও মূল্যায়ন করা হয়েছিল, একটি মডেল যা টেক্সট ডেটার একটি বড় কর্পাসের উপর প্রশিক্ষিত ছিল, কিন্তু দেখা গেছে যে BERT বাক্য এমবেডিংয়ের চেয়ে শব্দ এম্বেডিংয়ের জন্য আরও উপযুক্ত এবং শুধুমাত্র ইংরেজিতে প্রাক-প্রশিক্ষিত ছিল।


Spotify কোয়েরি টেক্সটটি ইনপুট এম্বেডিং এবং পডকাস্ট পর্ব এম্বেডিংয়ের জন্য শিরোনাম এবং বিবরণ সহ পাঠ্য মেটাডেটা ক্ষেত্রগুলির সংমিশ্রণ সহ ভেক্টর এম্বেডিং তৈরি করে। সাদৃশ্য নির্ধারণ করতে, স্পটিফাই ক্যোয়ারী এবং এপিসোড এম্বেডিংয়ের মধ্যে কোসাইন দূরত্ব পরিমাপ করেছে।


বেস ইউনিভার্সাল সেন্টেন্স এনকোডার CMLM মডেলকে প্রশিক্ষণ দিতে, Spotify সফল পডকাস্ট অনুসন্ধান এবং পর্বগুলির ইতিবাচক জোড়া ব্যবহার করেছে। তারা ইন-ব্যাচ নেতিবাচক অন্তর্ভুক্ত করেছে, একটি কৌশল যা কাগজপত্রে হাইলাইট করা হয়েছে যার মধ্যে রয়েছে ওপেন-ডোমেন প্রশ্ন উত্তরের জন্য ঘন উত্তরণ পুনরুদ্ধার (DPR) এবং Que2Search: দ্রুত এবং সঠিক ক্যোয়ারী এবং Facebook-এ অনুসন্ধানের জন্য নথি বোঝা , এলোমেলো নেতিবাচক জোড়া তৈরি করতে। সিন্থেটিক কোয়েরি এবং ম্যানুয়ালি লিখিত প্রশ্ন ব্যবহার করেও পরীক্ষা করা হয়েছিল।


প্রোডাকশনে পডকাস্ট সুপারিশ পরিবেশন করার জন্য ভেক্টর অনুসন্ধানকে অন্তর্ভুক্ত করতে, Spotify নিম্নলিখিত পদক্ষেপ এবং প্রযুক্তি ব্যবহার করেছে:


  • ইনডেক্স এপিসোড ভেক্টর : Spotify এএনএন এর জন্য নেটিভ সাপোর্ট সহ একটি সার্চ ইঞ্জিন Vespa ব্যবহার করে ব্যাচে অফলাইনে পর্ব ভেক্টর সূচী করে। Vespa বেছে নেওয়ার একটি কারণ হল এটি পর্বের জনপ্রিয়তার মতো বৈশিষ্ট্যগুলিতে পোস্ট-সার্চ মেটাডেটা ফিল্টারিংও অন্তর্ভুক্ত করতে পারে।

  • অনলাইন অনুমান : Spotify একটি ক্যোয়ারী ভেক্টর তৈরি করতে Google Cloud Vertex AI ব্যবহার করে। Vertex AI-কে GPU অনুমানের জন্য এর সমর্থনের জন্য বেছে নেওয়া হয়েছিল, যেটি এম্বেডিং তৈরি করতে এবং এর ক্যোয়ারী ক্যাশের জন্য বড় ট্রান্সফরমার মডেল ব্যবহার করার সময় আরও সাশ্রয়ী। ক্যোয়ারী ভেক্টর এম্বেডিং তৈরি হওয়ার পরে, এটি Vespa থেকে শীর্ষ 30টি পডকাস্ট পর্ব পুনরুদ্ধার করতে ব্যবহৃত হয়।


শব্দার্থিক অনুসন্ধান প্রাসঙ্গিক পডকাস্ট পর্বগুলির সনাক্তকরণে অবদান রাখে, তবুও এটি কীওয়ার্ড অনুসন্ধানকে সম্পূর্ণরূপে প্রতিস্থাপন করতে অক্ষম। ব্যবহারকারীরা যখন একটি সঠিক পর্ব বা পডকাস্টের নাম অনুসন্ধান করেন তখন শব্দার্থগত অনুসন্ধানটি সঠিক শব্দের মিলের কম হয়। স্পটিফাই একটি হাইব্রিড অনুসন্ধান পদ্ধতি ব্যবহার করে, ইলাস্টিকসার্চে কীওয়ার্ড অনুসন্ধানের সাথে ভেস্পাতে শব্দার্থিক অনুসন্ধানকে একীভূত করে, ব্যবহারকারীদের কাছে প্রদর্শিত পর্বগুলি স্থাপন করার জন্য একটি চূড়ান্ত পুনঃর্যাঙ্কিং পর্যায় অনুসরণ করে।


Spotify এ ভেক্টর অনুসন্ধানের জন্য কর্মপ্রবাহ।


ইবে: চিত্র অনুসন্ধান

ঐতিহ্যগতভাবে, সার্চ ইঞ্জিনগুলি আইটেম বা নথির পাঠ্য বিবরণের সাথে অনুসন্ধান ক্যোয়ারী পাঠ্য সারিবদ্ধ করে ফলাফল প্রদর্শন করে। এই পদ্ধতিটি পছন্দগুলি অনুমান করার জন্য ভাষার উপর ব্যাপকভাবে নির্ভর করে এবং শৈলী বা নন্দনতত্ত্বের উপাদানগুলি ক্যাপচার করার ক্ষেত্রে এটি ততটা কার্যকর নয়। eBay ব্যবহারকারীদের প্রাসঙ্গিক, অনুরূপ আইটেমগুলি খুঁজে পেতে সাহায্য করার জন্য চিত্র অনুসন্ধান প্রবর্তন করে যা তারা যে শৈলীটি খুঁজছেন তা পূরণ করে৷


eBay একটি মাল্টি-মোডাল মডেল ব্যবহার করে যা ভবিষ্যদ্বাণী করতে বা কার্য সম্পাদন করার জন্য একাধিক পদ্ধতি বা ইনপুট প্রকার, যেমন পাঠ্য, চিত্র, অডিও বা ভিডিও থেকে ডেটা প্রক্রিয়া এবং সংহত করার জন্য ডিজাইন করা হয়েছে। eBay তার মডেলে টেক্সট এবং ইমেজ উভয়ই অন্তর্ভুক্ত করে, একটি কনভোল্যুশনাল নিউরাল নেটওয়ার্ক (CNN) মডেল ব্যবহার করে ইমেজ এম্বেডিং তৈরি করে, বিশেষ করে Resnet-50 , এবং টেক্সট-ভিত্তিক মডেল যেমন BERT ব্যবহার করে শিরোনাম এম্বেডিং। প্রতিটি তালিকা একটি ভেক্টর এমবেডিং দ্বারা প্রতিনিধিত্ব করা হয় যা ইমেজ এবং শিরোনাম এম্বেডিং উভয়কে একত্রিত করে।


eBay এ ব্যবহৃত মাল্টি-মোডাল এমবেডিং মডেলের একটি উপস্থাপনা।



একবার মাল্টি-মডেল মডেলটিকে ইমেজ-টাইটেল তালিকা জোড়ার একটি বড় ডেটাসেট এবং সম্প্রতি বিক্রি হওয়া তালিকাগুলি ব্যবহার করে প্রশিক্ষণ দেওয়া হলে, এটি সাইট অনুসন্ধানের অভিজ্ঞতায় উৎপাদনে রাখার সময়। ইবে-এ বিপুল সংখ্যক তালিকার কারণে, HDFS, eBay-এর ডেটা গুদামে ডেটা ব্যাচে লোড করা হয়। ইবে অ্যাপাচি স্পার্ক ব্যবহার করে ইমেজ পুনরুদ্ধার এবং সংরক্ষণ করতে এবং তালিকার আরও প্রক্রিয়াকরণের জন্য প্রয়োজনীয় প্রাসঙ্গিক ক্ষেত্রগুলি, তালিকার এম্বেডিং তৈরি করা সহ। তালিকা এম্বেডিংগুলি একটি কলামার স্টোরে প্রকাশিত হয় যেমন HBase যা বৃহৎ-স্কেল ডেটা একত্রিত করতে ভাল। HBase থেকে, তালিকা এম্বেডিং সূচিত করা হয় এবং ইবেতে তৈরি একটি সার্চ ইঞ্জিন ক্যাসিনিতে পরিবেশন করা হয়।


ইবেতে ভেক্টর অনুসন্ধানের জন্য কর্মপ্রবাহ।


পাইপলাইনটি অ্যাপাচি এয়ারফ্লো ব্যবহার করে পরিচালিত হয়, যা উচ্চ পরিমাণে এবং কাজের জটিলতা থাকলেও স্কেলিং করতে সক্ষম। এটি স্পার্ক, হ্যাডুপ এবং পাইথনের জন্য সহায়তা প্রদান করে, যা মেশিন লার্নিং টিমের পক্ষে গ্রহণ এবং ব্যবহার করা সুবিধাজনক করে তোলে।


ভিজ্যুয়াল অনুসন্ধান ব্যবহারকারীদের আসবাবপত্র এবং বাড়ির সাজসজ্জার বিভাগে অনুরূপ শৈলী এবং পছন্দগুলি খুঁজে পেতে অনুমতি দেয়, যেখানে শৈলী এবং নান্দনিকতা কেনার সিদ্ধান্তের চাবিকাঠি। ভবিষ্যতে, eBay সমস্ত বিভাগ জুড়ে ভিজ্যুয়াল অনুসন্ধান প্রসারিত করার পরিকল্পনা করেছে এবং ব্যবহারকারীদের সম্পর্কিত আইটেমগুলি আবিষ্কার করতে সহায়তা করবে যাতে তারা তাদের বাড়িতে একই চেহারা এবং অনুভূতি স্থাপন করতে পারে।

AirBnb: রিয়েল-টাইম ব্যক্তিগতকৃত তালিকা

অনুসন্ধান এবং অনুরূপ তালিকা বৈশিষ্ট্যগুলি AirBnb সাইটে 99% বুকিং চালায়। AirBnb অনুরূপ তালিকা সুপারিশ উন্নত করতে এবং অনুসন্ধান র‌্যাঙ্কিংয়ে রিয়েল-টাইম ব্যক্তিগতকরণ প্রদানের জন্য একটি তালিকা এম্বেডিং কৌশল তৈরি করেছে।


AirBnb প্রথম দিকে বুঝতে পেরেছিল যে তারা কেবলমাত্র শব্দ উপস্থাপনের বাইরে এম্বেডিংয়ের প্রয়োগকে প্রসারিত করতে পারে, ক্লিক এবং বুকিং সহ ব্যবহারকারীর আচরণকেও অন্তর্ভুক্ত করে।


এমবেডিং মডেলগুলিকে প্রশিক্ষিত করার জন্য, AirBnb 4.5M সক্রিয় তালিকা এবং 800 মিলিয়ন অনুসন্ধান সেশন অন্তর্ভুক্ত করেছে যাতে কোন ব্যবহারকারী কোন সেশনে ক্লিক করে এবং এড়িয়ে যায় তার উপর ভিত্তি করে সাদৃশ্য নির্ধারণ করে। একটি সেশনে একই ব্যবহারকারীর দ্বারা ক্লিক করা তালিকাগুলিকে একসাথে ঠেলে দেওয়া হয়; ব্যবহারকারীর দ্বারা এড়িয়ে যাওয়া তালিকাগুলি আরও দূরে ঠেলে দেওয়া হয়। অনলাইন পরিবেশনের জন্য প্রয়োজনীয় অফলাইন পারফরম্যান্স এবং মেমরির মধ্যে ট্রেডঅফের পরিপ্রেক্ষিতে দলটি d=32-এর একটি তালিকা এমবেডিংয়ের মাত্রিকতার উপর স্থির হয়েছে।


AirBnb খুঁজে পেয়েছে যে নির্দিষ্ট তালিকার বৈশিষ্ট্যগুলির জন্য শেখার প্রয়োজন নেই, কারণ সেগুলি সরাসরি মেটাডেটা থেকে পাওয়া যেতে পারে, যেমন দাম। যাইহোক, স্থাপত্য, শৈলী এবং পরিবেশের মতো বৈশিষ্ট্যগুলি মেটাডেটা থেকে প্রাপ্ত করা যথেষ্ট চ্যালেঞ্জিং।


প্রোডাকশনে যাওয়ার আগে, AirBnb তাদের মডেল যাচাই করে যাচাই করে যে মডেলটি কতটা ভালো তালিকার সুপারিশ করেছে যা একজন ব্যবহারকারী আসলে বুক করেছেন। দলটি ভেক্টর এম্বেডিং-ভিত্তিক অ্যালগরিদমের সাথে বিদ্যমান তালিকার অ্যালগরিদমের তুলনা করে একটি A/B পরীক্ষাও চালায়। তারা দেখেছে যে ভেক্টর এম্বেডিং সহ অ্যালগরিদমের ফলে CTR তে 21% বৃদ্ধি এবং ব্যবহারকারীরা তাদের বুক করা একটি তালিকা আবিষ্কার করে 4.9% বৃদ্ধি পেয়েছে।


দলটি আরও বুঝতে পেরেছিল যে অনুসন্ধানে রিয়েল-টাইম ব্যক্তিগতকরণের জন্য মডেলের অংশ হিসাবে ভেক্টর এম্বেডিং ব্যবহার করা যেতে পারে। প্রতিটি ব্যবহারকারীর জন্য, তারা কাফকা ব্যবহার করে রিয়েল টাইমে সংগৃহীত এবং রক্ষণাবেক্ষণ করেছে, গত দুই সপ্তাহে ব্যবহারকারীর ক্লিক এবং এড়িয়ে যাওয়ার একটি স্বল্পমেয়াদী ইতিহাস। ব্যবহারকারীর দ্বারা পরিচালিত প্রতিটি অনুসন্ধানের জন্য, তারা দুটি মিল অনুসন্ধান চালায়:


  • ভৌগলিক বাজারের উপর ভিত্তি করে যা সম্প্রতি অনুসন্ধান করা হয়েছিল এবং তারপরে

  • প্রার্থী তালিকা এবং ব্যবহারকারীর ক্লিক/এড়িয়ে যাওয়ার মধ্যে মিল


এমবেডিংগুলি অফলাইন এবং অনলাইন পরীক্ষায় মূল্যায়ন করা হয়েছিল এবং রিয়েল-টাইম ব্যক্তিগতকরণ বৈশিষ্ট্যের অংশ হয়ে উঠেছে।


Doordash: ব্যক্তিগতকৃত স্টোর ফিড

Doordash-এর বিভিন্ন ধরণের স্টোর রয়েছে যেগুলি থেকে ব্যবহারকারীরা অর্ডার করতে বেছে নিতে পারেন এবং ব্যক্তিগতকৃত পছন্দগুলি ব্যবহার করে সবচেয়ে প্রাসঙ্গিক স্টোরগুলিকে দেখাতে সক্ষম হওয়া অনুসন্ধান এবং আবিষ্কারকে উন্নত করে৷


Doordash ভেক্টর এম্বেডিং ব্যবহার করে তার স্টোর ফিড অ্যালগরিদমে সুপ্ত তথ্য প্রয়োগ করতে চেয়েছিল। এটি Doordash-কে সেই দোকানগুলির মধ্যে মিল উন্মোচন করতে সক্ষম করবে যেগুলি ভালভাবে নথিভুক্ত ছিল না, যেমন একটি দোকানে মিষ্টি আইটেম আছে কিনা, ট্রেন্ডি হিসাবে বিবেচিত হয় বা নিরামিষ বিকল্পগুলি বৈশিষ্ট্যযুক্ত।


Doordash word2vec-এর একটি ডেরিভেটিভ ব্যবহার করেছে, প্রাকৃতিক ভাষা প্রক্রিয়াকরণে ব্যবহৃত একটি এমবেডিং মডেল, স্টোর2vec নামে পরিচিত যা বিদ্যমান ডেটার উপর ভিত্তি করে অভিযোজিত হয়েছে। দলটি প্রতিটি স্টোরকে একটি শব্দ হিসাবে বিবেচনা করে এবং একটি একক ব্যবহারকারীর সেশনের সময় দেখা স্টোরের তালিকা ব্যবহার করে বাক্য গঠন করে, প্রতি বাক্যে সর্বোচ্চ 5টি স্টোর। ব্যবহারকারীর ভেক্টর এম্বেডিং তৈরি করতে, Doordash সেই স্টোরের ভেক্টরগুলিকে যোগ করেছে যেখান থেকে ব্যবহারকারীরা গত 6 মাসে বা 100টি অর্ডার পর্যন্ত অর্ডার দিয়েছে।


উদাহরণ হিসেবে, Doordash সান ফ্রান্সিসকোতে জনপ্রিয়, ট্রেন্ডি জয়েন্ট 4505 Burgers এবং New Nagano Sushi-এ তাদের সাম্প্রতিক কেনাকাটার উপর ভিত্তি করে একজন ব্যবহারকারীর জন্য অনুরূপ রেস্তোরাঁ খুঁজতে ভেক্টর অনুসন্ধান ব্যবহার করেছে। Doordash অনুরূপ রেস্তোরাঁর একটি তালিকা তৈরি করেছে যা ব্যবহারকারীর এম্বেডিং থেকে কোসাইন দূরত্ব পরিমাপ করে এলাকায় এম্বেডিং সঞ্চয় করে। আপনি দেখতে পাচ্ছেন যে কোসাইন দূরত্বে সবচেয়ে কাছের দোকানগুলির মধ্যে রয়েছে কেজার পাব এবং কাঠের চারকোল কোরিয়ান ভিলেজ BBQ।


Doordash-এ ভেক্টর অনুসন্ধানের একটি উদাহরণ ভেক্টর এমবেডিংয়ের সাথে ব্যক্তিগতকৃত স্টোর ফিড ব্লগ থেকে নেওয়া।


Doordash তার বৃহত্তর সুপারিশ এবং ব্যক্তিগতকরণ মডেলের বৈশিষ্ট্যগুলির মধ্যে একটি হিসাবে store2vec দূরত্ব বৈশিষ্ট্যকে অন্তর্ভুক্ত করেছে। ভেক্টর অনুসন্ধানের মাধ্যমে, Doordash ক্লিক-থ্রু-রেট 5% বৃদ্ধি দেখতে সক্ষম হয়েছে। দলটি নতুন মডেলগুলি যেমন seq2seq , মডেল অপ্টিমাইজেশান এবং ব্যবহারকারীদের কাছ থেকে রিয়েল-টাইম অনসাইট কার্যকলাপ ডেটা অন্তর্ভুক্ত করে পরীক্ষা করছে৷


ভেক্টর অনুসন্ধানের জন্য মূল বিবেচনা

Pinterest, Spotify, eBay, Airbnb এবং Doordash ভেক্টর অনুসন্ধানের সাথে আরও ভাল অনুসন্ধান এবং আবিষ্কারের অভিজ্ঞতা তৈরি করে। এই দলগুলির মধ্যে অনেকগুলি পাঠ্য অনুসন্ধান ব্যবহার করে শুরু করেছে এবং অস্পষ্ট অনুসন্ধান বা নির্দিষ্ট শৈলী বা নান্দনিকতার অনুসন্ধানের সাথে সীমাবদ্ধতা খুঁজে পেয়েছে। এই পরিস্থিতিতে, অভিজ্ঞতায় ভেক্টর অনুসন্ধান যোগ করা প্রাসঙ্গিক, এবং প্রায়শই ব্যক্তিগতকৃত, পডকাস্ট, বালিশ, ভাড়া, পিন এবং খাবারের জায়গাগুলিকে সহজ করে তুলেছে।


ভেক্টর অনুসন্ধান বাস্তবায়নের সময় এই কোম্পানিগুলি যে কয়েকটি সিদ্ধান্ত নিয়েছে তা বলা উচিত:


  • এমবেডিং মডেল : অনেকেই একটি অফ-দ্য-শেল্ফ মডেল ব্যবহার করে শুরু করেন এবং তারপরে তাদের নিজস্ব ডেটাতে প্রশিক্ষণ দেন। তারা আরও স্বীকার করেছে যে word2vec-এর মতো ভাষার মডেলগুলি সম্প্রতি ক্লিক করা আইটেম এবং অনুরূপ আইটেমগুলির সাথে শব্দ এবং তাদের বিবরণ অদলবদল করে ব্যবহার করা যেতে পারে। AirBnb-এর মতো দলগুলি দেখতে পেয়েছে যে চিত্র মডেলের পরিবর্তে ভাষার মডেলগুলির ডেরিভেটিভগুলি ব্যবহার করা এখনও দৃশ্যমান মিল এবং পার্থক্যগুলি ক্যাপচার করার জন্য ভাল কাজ করতে পারে।
  • প্রশিক্ষণ : এই কোম্পানিগুলির মধ্যে অনেকগুলি তাদের মডেলগুলিকে অতীতের কেনাকাটার বিষয়ে প্রশিক্ষণ দেওয়া এবং ডেটার মাধ্যমে ক্লিক করার জন্য, বিদ্যমান বৃহৎ-স্কেল ডেটাসেটগুলি ব্যবহার করে।
  • ইন্ডেক্সিং : অনেক কোম্পানি ANN সার্চ গ্রহণ করলেও, আমরা দেখেছি যে Pinterest মেটাডেটা ফিল্টারিংকে KNN সার্চের সাথে একত্রিত করতে সক্ষম হয়েছে দক্ষতার জন্য।
  • হাইব্রিড অনুসন্ধান : ভেক্টর অনুসন্ধান খুব কমই পাঠ্য অনুসন্ধানকে প্রতিস্থাপন করে। অনেক সময়, যেমন Spotify-এর উদাহরণে, ভেক্টর অনুসন্ধান বা পাঠ্য অনুসন্ধান সবচেয়ে প্রাসঙ্গিক ফলাফল তৈরি করেছে কিনা তা নির্ধারণ করতে একটি চূড়ান্ত র‌্যাঙ্কিং অ্যালগরিদম ব্যবহার করা হয়।
  • প্রোডাকশনাইজিং : আমরা দেখছি যে অনেক দল ভেক্টর এম্বেডিং তৈরি করতে ব্যাচ-ভিত্তিক সিস্টেম ব্যবহার করে, এই এমবেডিংগুলি খুব কমই আপডেট করা হয়। তারা একটি ভিন্ন সিস্টেম নিয়োগ করে, প্রায়শই ইলাস্টিকসার্চ, কোয়েরি ভেক্টর এম্বেডিং লাইভ গণনা করতে এবং তাদের অনুসন্ধানে রিয়েল-টাইম মেটাডেটা অন্তর্ভুক্ত করে।


রকসেট, একটি রিয়েল-টাইম অনুসন্ধান এবং বিশ্লেষণ ডেটাবেস, সম্প্রতি ভেক্টর অনুসন্ধানের জন্য সমর্থন যোগ করেছে। আজই $300 ক্রেডিট সহ একটি বিনামূল্যের ট্রায়াল শুরু করে রিয়েল-টাইম ব্যক্তিগতকরণ, সুপারিশ, অসঙ্গতি সনাক্তকরণ এবং আরও অনেক কিছুর জন্য Rockset-এ ভেক্টর অনুসন্ধান করুন৷