প্রথম পক্ষের ডেটা ফিরে এসেছে... এর বন্ধুদের কাছ থেকে সামান্য সাহায্যে। কিভাবে ভেক্টর, RAG এবং LLAMA 3 একটি সমুদ্র পরিবর্তন চালাচ্ছে
গত পাঁচ বছরে, ডেটা পরিকাঠামোর আশেপাশের প্রভাবশালী আখ্যান কোম্পানিগুলিকে তাদের ডেটার মালিকানা এবং ব্যবহার করার গুরুত্বের উপর জোর দিয়েছে কারণ তারা তাদের ব্যবহারকারী এবং গ্রাহকদের সম্পর্কে যতটা সম্ভব তথ্য অর্জন করে। মাউন্টিং গোপনীয়তা প্রবিধানের কারণে, তাদের তৃতীয় পক্ষের ডেটা অপারেটর, যেমন বিজ্ঞাপন নেটওয়ার্ক বা Google, Meta এবং Amazon- এর মতো প্ল্যাটফর্মগুলির উপর নির্ভর না করে নিজেরাই ডেটা সংগ্রহ করতে হবে৷ কোম্পানিগুলি এই বর্ণনার সাথে সঙ্গতিপূর্ণ হয়েছে এবং পরিবর্তন করেছে।
কিন্তু, সেরা ডেটার যুদ্ধে, প্রথম পক্ষ কি সত্যিই ভাল? নিজে থেকে নয়, তবে এটি ভেক্টর, RAG-এর মতো ফ্রেমওয়ার্ক এবং Llama 3- এর মতো ওপেন-সোর্স ফাউন্ডেশন মডেলগুলির সামান্য সাহায্যে হতে পারে।
প্রথম-পক্ষের ডেটার জন্য যুক্তি সাধারণত এইরকম হয়: ডেটা গোপনীয়তার জন্য ক্রমবর্ধমান কলগুলির মধ্যে কোম্পানিগুলিকে ডেটা অধিগ্রহণ এবং পরিচালনার আরও ভাল স্টুয়ার্ড হতে হবে৷ ভোক্তারা ক্রমবর্ধমানভাবে জানতে চায় কে তাদের ব্যক্তিগত তথ্যে ঝুলছে, তারা কীভাবে এটি পেয়েছে, কেন তাদের কাছে আছে এবং এটি দিয়ে কী করা হচ্ছে- এবং তারা সাধারণত এই প্রশ্নের উত্তর পছন্দ করেন না।
তবে প্রথম-পক্ষে স্থানান্তর গোপনীয়তার বিষয়ে নয়। এমন ধারণাও রয়েছে যে তৃতীয় পক্ষের ডেটা মূল্য হারাবে কারণ আমরা প্রবাদের কুকিবিহীন ভবিষ্যতের দিকে এগিয়ে যাচ্ছি। কোম্পানীগুলি একই দানাদার বিবরণ পেতে পারে না যে তারা একবার পারত, তাহলে কেন তারা এমন একটি পরিষেবার জন্য বাজেট দেবে যা আগের চেয়ে কম সরবরাহ করে?
এবং তারপরে চিরস্থায়ী উদ্বেগ রয়েছে যে বড় প্ল্যাটফর্ম এবং বিজ্ঞাপন নেটওয়ার্কগুলি অপ্রত্যাশিত পরিবর্তন করবে। উদাহরণস্বরূপ, তারা তাদের অ্যালগরিদম পরিবর্তন করতে পারে, নির্দিষ্ট ধরণের ডেটাতে অ্যাক্সেস সীমিত করতে পারে, বা বিজ্ঞাপন নীতিগুলি এমনভাবে পরিবর্তন করতে পারে যা সামান্য বা কোন নোটিশ ছাড়াই ব্যবসার কার্যক্ষমতার ক্ষতি করতে পারে। অন্য কোম্পানির অনুশীলনের উপর নির্ভরশীল হওয়া একজনকে দুর্বল করে দেয়। কোম্পানিগুলি আটকে আছে কারণ তারা ইতিমধ্যে তাদের ডেটা কৌশলে অনেক সময়, অর্থ এবং সংস্থান বিনিয়োগ করেছে। এই আলোকে, ডেটার নিয়ন্ত্রণ ফিরিয়ে নেওয়ার ধাক্কা অপরিহার্য বলে মনে হয়। কিন্তু এটা কি ব্যবহারিক?
প্রথম পক্ষের ডেটার উপর জুয়া খেলা কোম্পানিগুলির প্রাথমিক ফলাফল প্রত্যাশা পূরণ করেনি। আমরা ভোক্তা সংস্থাগুলির ক্ষেত্রে কেস পর্যায় দেখছি যেগুলি শিফটের ভোগান্তি তৈরি করেছে।
তবুও, প্রথম পক্ষের ডেটার উপর বর্তমান নির্ভরতা- এবং সেই ডেটা বের করার অভ্যাস- বেশ কয়েকটি কোম্পানির মধ্যে একটি সাধারণতা যা আজ কঠিন সময়ের সম্মুখীন হচ্ছে। বিশ্লেষক, ভিসি এবং বিপণনকারীরা নিজেরাই প্রথম-পক্ষের ডেটাকে অগ্রাধিকার দেওয়া ভুল কিনা তা জিজ্ঞাসা করার জন্য এটি যথেষ্ট লক্ষণীয়।
ফার্স্ট-পার্টি ডেটার ডাউনসাইডগুলি, যেহেতু এটি বর্তমানে অর্জিত এবং লাভ করা হয়েছে, প্রায়শই ডিভাইস আইডি হারিয়ে যাওয়া, আইপি ঠিকানা পরিবর্তন করা, ভোক্তাদের ভুয়া ইমেল গ্রহণ এবং বিজ্ঞাপন ব্লকারকে অবমূল্যায়ন করা বলে মনে করা হয়। যদিও সত্য, আরও অনেক গুরুত্বপূর্ণ বিষয় খেলার মধ্যে রয়েছে।
প্রথমত, প্রতিভার বিশাল ব্যবধান রয়েছে। বিগ টেক এবং প্ল্যাটফর্ম কোম্পানিগুলি সেরাটি ছিনিয়ে নেয়। তাদের কাছে অফার করার জন্য সর্বাধিক রয়েছে, যা পরবর্তী এবং আগত ভোক্তা সংস্থাগুলির জন্য ডেটা বিজ্ঞানী এবং এমএল প্রতিভার জন্য প্রতিদ্বন্দ্বিতা করা কঠিন করে তোলে যা তথ্য সংগ্রহ ও বিশ্লেষণ করা হচ্ছে তা বোঝার জন্য প্রয়োজনীয়। সত্যিই ব্যতিক্রমী মানুষ ছাড়া, কোম্পানি সংগ্রাম করেছে.
একটি বাস্তব টুলিং সমস্যা আছে. কোম্পানিগুলির কাছে উপলব্ধ অফারগুলি বিগ টেক কোম্পানিগুলি অভ্যন্তরীণভাবে গর্ব করে এমন সরঞ্জামগুলির সমতুল্য কোথাও নেই (যা প্রতিভার ব্যবধানের একটি কারণ হতে পারে)৷ টুলিং একটি পার্থক্য করে, এবং বেশিরভাগ কোম্পানি এখনই প্রতিযোগিতা করতে পারে না।
অবশেষে, একটি ভলিউম চ্যালেঞ্জ আছে। বিগ টেক এবং বিজ্ঞাপন নেটওয়ার্কগুলিতে ডেটার পাহাড় রয়েছে, কারণ এই কোম্পানিগুলি তাদের মডেলগুলিকে কার্যকরভাবে চালানোর জন্য কয়েক বিলিয়ন ডেটা পয়েন্ট পুল এবং বেনামী করে৷ বিপরীতে, যদি একটি কোম্পানির সাথে কাজ করার জন্য শুধুমাত্র তার ডেটা থাকে, তবে প্রতিশ্রুতি অনুযায়ী কাজ করার জন্য ML-এর পক্ষে যথেষ্ট নয়।
যদিও এই সমস্যাগুলি গুরুতর বলে মনে হচ্ছে, এটি কি সম্ভাব্য- এবং প্রয়োজন- প্রথম-পক্ষের ডেটা ছেড়ে দেওয়ার সময়? কোনভাবেই না!
প্রথম পক্ষের ডেটাকে বাধা দেওয়ার সবচেয়ে বড় সমস্যা হল কোম্পানিগুলি কীভাবে এটি অ্যাক্সেস করার চেষ্টা করছে। এই বিন্দু পর্যন্ত, ব্যবসা একটি পুরানো বিশ্বের পদ্ধতি গ্রহণ করেছে. ব্যবসার জন্য প্রয়োজনীয় ডেটা থেকে মান বের করতে স্ক্র্যাচ থেকে মডেলগুলি তৈরি করতে হবে। এর জন্য সময়, অর্থ এবং সবথেকে বেশি প্রতিভা লাগে; এটা নির্ভর করে আপনার এমএল ইঞ্জিনিয়ার এবং ডেটা সায়েন্টিস্টরা কতটা ভালো তার উপর। যাইহোক, উপরে যেমন আলোচনা করা হয়েছে, তৃতীয় পক্ষের ডেটা ব্যবহার করার চেয়ে এই পদ্ধতিটিকে আরও ভালভাবে কাজ করার জন্য যথেষ্ট উপলব্ধ প্রতিভা নেই। প্রতিভার অভাব বাধা সৃষ্টি করে।
যাইহোক, এর অর্থ এই নয় যে আমাদের প্রথম পক্ষের ডেটা ছেড়ে দিতে হবে। আমাদের শুধু পরিবর্তন করতে হবে যেভাবে আমরা এটির সাথে যোগাযোগ করি। নতুন বিশ্বে যা আজ সম্ভব, ভেক্টর এবং ভেক্টর এম্বেডিং হল মূল। ভেক্টরগুলি হল সাধারণ গাণিতিক বস্তু যা ডেটা পয়েন্টের বৈশিষ্ট্য বা বৈশিষ্ট্যগুলিকে উপস্থাপন করতে পারে যখন মডেল এমবেড করার সময় ডেটা থেকে শেখা এই তথ্য-সমৃদ্ধ, অর্থপূর্ণ উপস্থাপনাগুলি তৈরি করতে ডেটাতে প্যাটার্ন বিশ্লেষণ করে; তারা শব্দার্থিক সম্পর্ক ক্যাপচার. ভেক্টর এমবেডিং হল এমন একটি বিন্যাস যা আপনি একজন ব্যবহারকারী বা গ্রাহক সম্পর্কে যা কিছু জানেন তা এনকোড করতে পারে এবং সেই তথ্যটিকে একটি বিশ্লেষণ সিস্টেমে অ্যাক্সেসযোগ্য করে তুলতে পারে, অথবা ব্যবহারকারীর অভিজ্ঞতাকে ব্যক্তিগতকৃত করতে, এমনকি জালিয়াতি ধরার জন্যও ব্যবহারযোগ্য করে তুলতে পারে। সেখানে অনেক সম্ভাবনা আছে। ভেক্টরগুলি একটি সমুদ্র পরিবর্তনের জন্য প্রস্তুত কারণ তারা মৌলিকভাবে ভিন্ন উপায়ে বিশ্লেষণকে শক্তি দিতে পারে।
পুনরুদ্ধার-অগমেন্টেড জেনারেশন (RAG) এই মুহূর্তে অনেক গুঞ্জন তৈরি করছে যা এটি সক্ষম করতে পারে, কিন্তু ভেক্টর এম্বেডিংগুলি RAG-কে উপযোগী করে তোলে। এগুলি কাঠামোর একটি কেন্দ্রীয় উপাদান যা প্রসঙ্গ, প্রতিক্রিয়া, পুনরুদ্ধারের একীকরণ এবং মডেলগুলির সূক্ষ্ম টিউনিংয়ের সাথে সহায়তা করে। উচ্চ-মানের ভেক্টর তৈরি করা এবং তাদের সঠিকভাবে অনুসন্ধান করা একটি গুরুত্বপূর্ণ কাজ যা যে কোনও RAG সিস্টেমকে বাস্তবে কাজ করতে সক্ষম করে। অন্যান্য ফ্রেমওয়ার্ক আছে, কিন্তু RAG বিশেষত প্রথম পক্ষের ডেটা বিপ্লবের জন্য উপযুক্ত।
শুনে ভালো লাগছে। আসুন আমরা সবাই জেনে নেই কিভাবে ভেক্টর এবং ভেক্টর এম্বেডিং ব্যবহার করতে হয়। এটি মোট উত্তর নয়। সীমিত ডেটা সেট এবং টুলিংয়ের মতো সমস্যাগুলি রয়ে গেছে। সবকিছু এখনও একটি সুন্দর ধনুকের মধ্যে মোড়ানো হয়নি, তবে আমি বিশ্বাস করি এটি শীঘ্রই হবে। কারণ ওপেন-সোর্স, মেটা'স লামা 2-এর মতো প্রাক-প্রশিক্ষিত ফাউন্ডেশন মডেল, যা জুলাইয়ে আরও শক্তিশালী লামা 3-কে পথ দেবে, খেলার ক্ষেত্রকে সমান করতে পারে। বিগটেকের তুলনায় পর্যাপ্ত ডেটা ভলিউম না থাকার সমস্যাটি প্রশমিত হয়। বড় এবং বৈচিত্র্যময় ডেটাসেটে প্রাক-প্রশিক্ষিত একটি ওপেন সোর্স মডেল ব্যবহার করে, সেই মডেলটিতে একটি নির্দিষ্ট স্তরের জ্ঞান এবং বোঝার অন্তর্নির্মিত রয়েছে। কোম্পানিগুলিকে কেবল তাদের নির্দিষ্ট ডোমেন বা কাজের সাথে লামা 2 (বা লামা 3) সূক্ষ্ম-টিউন করতে হবে। তথ্য এটি বাধা সহজ করে কারণ অনেক ক্ষেত্রে, আপনাকে আর স্ক্র্যাচ থেকে একটি মডেলকে প্রশিক্ষণ দিতে হবে না।
এটি একটি অত্যধিক সরলীকরণের মতো শোনাতে পারে, প্রদত্ত যে লামা সংস্থাগুলিকে পাঠ্যের সাথে মোকাবিলা করতে সহায়তা করে, তবে বেশিরভাগ ডেটা সংস্থাগুলি পাঠ্য নয়। স্ট্রাকচার্ড ডেটা কোম্পানিগুলিকে এই প্রক্রিয়ার সাথে একত্রিত করতে হবে। উদাহরণস্বরূপ, ব্যবহারকারীর আচরণগত ইভেন্টগুলি যা সাধারণত প্রথম পক্ষের ডেটার একটি বড় শতাংশ তৈরি করে, কোন LLM দ্বারা প্রক্রিয়া করার জন্য উপযুক্ত নয়। এটি পরিবর্তিত হচ্ছে তাই নতুন মাল্টিমডাল সমাধানের আবির্ভাব হওয়ার সাথে সাথে কোম্পানিগুলিকে প্রস্তুত হওয়া উচিত। একইভাবে, টুলিংয়ের এখনও অভাব রয়েছে, তবে স্থানের উপর অনেক মনোযোগ রয়েছে, তাই দুর্দান্ত পদক্ষেপ নেওয়া হচ্ছে। এটা বরাবর আসছে!
মৌলিকভাবে সমাধান করা সবচেয়ে বড় সমস্যাগুলির সাথে, প্রথম পক্ষের ডেটা হাইপ ফিরে এসেছে, বাবু! কোম্পানিগুলিকে তৃতীয় পক্ষের গোপনীয়তা লঙ্ঘন করার বিষয়ে চিন্তা করতে হবে না, বা তাদের গ্রাহকদের জানতে সাহায্য করার জন্য তাদের বিগ টেকের উপর নির্ভর করতে হবে না। এই বছর প্রথম-পক্ষের ডেটা বিস্ফোরিত হওয়ার আশা করুন কারণ কোম্পানিগুলি শেষ পর্যন্ত সম্পূর্ণ সুবিধা গ্রহণ করে- বিশেষ করে Llama 3 এর সাথে প্রস্তুত। এর সমস্ত প্রতিশ্রুতির জন্য, সম্ভবত Llama 3-এর জন্য সবচেয়ে বড় সম্ভাবনা হল প্রথম পক্ষের ডেটা সমস্যাটি একবার এবং সর্বদা সমাধান করা।