paint-brush
কিভাবে ভেক্টর, রাগ এবং লামা 3 প্রথম পক্ষের ডেটা পরিবর্তন করছেদ্বারা@danielsvonava
1,022 পড়া
1,022 পড়া

কিভাবে ভেক্টর, রাগ এবং লামা 3 প্রথম পক্ষের ডেটা পরিবর্তন করছে

দ্বারা Daniel Svonava6m2024/06/27
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

প্রথম-পক্ষের ডেটার জন্য ধাক্কা সাধারণত যায় যে সংস্থাগুলিকে ডেটা অধিগ্রহণ এবং পরিচালনার আরও ভাল স্টুয়ার্ড হতে হবে। ভোক্তারা ক্রমবর্ধমানভাবে জানতে চান যে তাদের ব্যক্তিগত তথ্য কে ঝুলিয়ে রেখেছে, তারা কীভাবে এটি পেয়েছে, কেন তাদের কাছে আছে এবং এটি দিয়ে কী করা হচ্ছে। ডেটার নিয়ন্ত্রণ ফিরিয়ে নেওয়ার ধাক্কা অপরিহার্য বলে মনে হয়, কিন্তু এটি কি বাস্তব?
featured image - কিভাবে ভেক্টর, রাগ এবং লামা 3 প্রথম পক্ষের ডেটা পরিবর্তন করছে
Daniel Svonava HackerNoon profile picture
0-item

প্রথম পক্ষের ডেটা ফিরে এসেছে... এর বন্ধুদের কাছ থেকে সামান্য সাহায্যে। কিভাবে ভেক্টর, RAG এবং LLAMA 3 একটি সমুদ্র পরিবর্তন চালাচ্ছে


গত পাঁচ বছরে, ডেটা পরিকাঠামোর আশেপাশের প্রভাবশালী আখ্যান কোম্পানিগুলিকে তাদের ডেটার মালিকানা এবং ব্যবহার করার গুরুত্বের উপর জোর দিয়েছে কারণ তারা তাদের ব্যবহারকারী এবং গ্রাহকদের সম্পর্কে যতটা সম্ভব তথ্য অর্জন করে। মাউন্টিং গোপনীয়তা প্রবিধানের কারণে, তাদের তৃতীয় পক্ষের ডেটা অপারেটর, যেমন বিজ্ঞাপন নেটওয়ার্ক বা Google, Meta এবং Amazon- এর মতো প্ল্যাটফর্মগুলির উপর নির্ভর না করে নিজেরাই ডেটা সংগ্রহ করতে হবে৷ কোম্পানিগুলি এই বর্ণনার সাথে সঙ্গতিপূর্ণ হয়েছে এবং পরিবর্তন করেছে।


কিন্তু, সেরা ডেটার যুদ্ধে, প্রথম পক্ষ কি সত্যিই ভাল? নিজে থেকে নয়, তবে এটি ভেক্টর, RAG-এর মতো ফ্রেমওয়ার্ক এবং Llama 3- এর মতো ওপেন-সোর্স ফাউন্ডেশন মডেলগুলির সামান্য সাহায্যে হতে পারে।

প্রথম পক্ষের ডেটার জন্য পুশ৷

প্রথম-পক্ষের ডেটার জন্য যুক্তি সাধারণত এইরকম হয়: ডেটা গোপনীয়তার জন্য ক্রমবর্ধমান কলগুলির মধ্যে কোম্পানিগুলিকে ডেটা অধিগ্রহণ এবং পরিচালনার আরও ভাল স্টুয়ার্ড হতে হবে৷ ভোক্তারা ক্রমবর্ধমানভাবে জানতে চায় কে তাদের ব্যক্তিগত তথ্যে ঝুলছে, তারা কীভাবে এটি পেয়েছে, কেন তাদের কাছে আছে এবং এটি দিয়ে কী করা হচ্ছে- এবং তারা সাধারণত এই প্রশ্নের উত্তর পছন্দ করেন না। অ্যাক্সেস এবং মুছে ফেলা অনুরোধ দ্রুত বাড়ছে, এবং ডেটা গোপনীয়তার ল্যান্ডস্কেপ দ্রুত পরিবর্তন হচ্ছে। কোম্পানিগুলি তাদের নিজস্ব গোপনীয়তা পরিচালনার প্রক্রিয়াগুলি বের করা যথেষ্ট কঠিন খুঁজে পাচ্ছে; তারা তৃতীয় পক্ষের সম্পর্কেও চিন্তা করতে চায় না।


ব্যবহারকারীরা ক্রমবর্ধমানভাবে উদ্বিগ্ন যে তারা কোম্পানিগুলিকে যে ডেটা দেয় তার কী হবে এবং ডেটা গোপনীয়তা আইন কঠোর হচ্ছে৷


তবে প্রথম-পক্ষে স্থানান্তর গোপনীয়তার বিষয়ে নয়। এমন ধারণাও রয়েছে যে তৃতীয় পক্ষের ডেটা মূল্য হারাবে কারণ আমরা প্রবাদের কুকিবিহীন ভবিষ্যতের দিকে এগিয়ে যাচ্ছি। কোম্পানীগুলি একই দানাদার বিবরণ পেতে পারে না যে তারা একবার পারত, তাহলে কেন তারা এমন একটি পরিষেবার জন্য বাজেট দেবে যা আগের চেয়ে কম সরবরাহ করে?


এবং তারপরে চিরস্থায়ী উদ্বেগ রয়েছে যে বড় প্ল্যাটফর্ম এবং বিজ্ঞাপন নেটওয়ার্কগুলি অপ্রত্যাশিত পরিবর্তন করবে। উদাহরণস্বরূপ, তারা তাদের অ্যালগরিদম পরিবর্তন করতে পারে, নির্দিষ্ট ধরণের ডেটাতে অ্যাক্সেস সীমিত করতে পারে, বা বিজ্ঞাপন নীতিগুলি এমনভাবে পরিবর্তন করতে পারে যা সামান্য বা কোন নোটিশ ছাড়াই ব্যবসার কার্যক্ষমতার ক্ষতি করতে পারে। অন্য কোম্পানির অনুশীলনের উপর নির্ভরশীল হওয়া একজনকে দুর্বল করে দেয়। কোম্পানিগুলি আটকে আছে কারণ তারা ইতিমধ্যে তাদের ডেটা কৌশলে অনেক সময়, অর্থ এবং সংস্থান বিনিয়োগ করেছে। এই আলোকে, ডেটার নিয়ন্ত্রণ ফিরিয়ে নেওয়ার ধাক্কা অপরিহার্য বলে মনে হয়। কিন্তু এটা কি ব্যবহারিক?


প্রথম-ডেটা সমস্যা নিয়ে কেউ কথা বলছে না

প্রথম পক্ষের ডেটার উপর জুয়া খেলা কোম্পানিগুলির প্রাথমিক ফলাফল প্রত্যাশা পূরণ করেনি। আমরা ভোক্তা সংস্থাগুলির ক্ষেত্রে কেস পর্যায় দেখছি যেগুলি শিফটের ভোগান্তি তৈরি করেছে। ফারফেচ , অলবার্ডস , এবং SmileDirectClub মাত্র কয়েকটি উদাহরণ। ভাল হবে, প্রথম পক্ষের ডেটার আরও কৌশলগত ব্যবহার ক্রমবর্ধমান গ্রাহক অধিগ্রহণের ব্যয়ের উপর জোয়ার ঘুরিয়ে দেবে?


তবুও, প্রথম পক্ষের ডেটার উপর বর্তমান নির্ভরতা- এবং সেই ডেটা বের করার অভ্যাস- বেশ কয়েকটি কোম্পানির মধ্যে একটি সাধারণতা যা আজ কঠিন সময়ের সম্মুখীন হচ্ছে। বিশ্লেষক, ভিসি এবং বিপণনকারীরা নিজেরাই প্রথম-পক্ষের ডেটাকে অগ্রাধিকার দেওয়া ভুল কিনা তা জিজ্ঞাসা করার জন্য এটি যথেষ্ট লক্ষণীয়।


ফার্স্ট-পার্টি ডেটার ডাউনসাইডগুলি, যেহেতু এটি বর্তমানে অর্জিত এবং লাভ করা হয়েছে, প্রায়শই ডিভাইস আইডি হারিয়ে যাওয়া, আইপি ঠিকানা পরিবর্তন করা, ভোক্তাদের ভুয়া ইমেল গ্রহণ এবং বিজ্ঞাপন ব্লকারকে অবমূল্যায়ন করা বলে মনে করা হয়। যদিও সত্য, আরও অনেক গুরুত্বপূর্ণ বিষয় খেলার মধ্যে রয়েছে।


প্রথমত, প্রতিভার বিশাল ব্যবধান রয়েছে। বিগ টেক এবং প্ল্যাটফর্ম কোম্পানিগুলি সেরাটি ছিনিয়ে নেয়। তাদের কাছে অফার করার জন্য সর্বাধিক রয়েছে, যা পরবর্তী এবং আগত ভোক্তা সংস্থাগুলির জন্য ডেটা বিজ্ঞানী এবং এমএল প্রতিভার জন্য প্রতিদ্বন্দ্বিতা করা কঠিন করে তোলে যা তথ্য সংগ্রহ ও বিশ্লেষণ করা হচ্ছে তা বোঝার জন্য প্রয়োজনীয়। সত্যিই ব্যতিক্রমী মানুষ ছাড়া, কোম্পানি সংগ্রাম করেছে.


একটি বাস্তব টুলিং সমস্যা আছে. কোম্পানিগুলির কাছে উপলব্ধ অফারগুলি বিগ টেক কোম্পানিগুলি অভ্যন্তরীণভাবে গর্ব করে এমন সরঞ্জামগুলির সমতুল্য কোথাও নেই (যা প্রতিভার ব্যবধানের একটি কারণ হতে পারে)৷ টুলিং একটি পার্থক্য করে, এবং বেশিরভাগ কোম্পানি এখনই প্রতিযোগিতা করতে পারে না।


অবশেষে, একটি ভলিউম চ্যালেঞ্জ আছে। বিগ টেক এবং বিজ্ঞাপন নেটওয়ার্কগুলিতে ডেটার পাহাড় রয়েছে, কারণ এই কোম্পানিগুলি তাদের মডেলগুলিকে কার্যকরভাবে চালানোর জন্য কয়েক বিলিয়ন ডেটা পয়েন্ট পুল এবং বেনামী করে৷ বিপরীতে, যদি একটি কোম্পানির সাথে কাজ করার জন্য শুধুমাত্র তার ডেটা থাকে, তবে প্রতিশ্রুতি অনুযায়ী কাজ করার জন্য ML-এর পক্ষে যথেষ্ট নয়।


যদিও এই সমস্যাগুলি গুরুতর বলে মনে হচ্ছে, এটি কি সম্ভাব্য- এবং প্রয়োজন- প্রথম-পক্ষের ডেটা ছেড়ে দেওয়ার সময়? কোনভাবেই না!


ভেক্টরের শক্তি

প্রথম পক্ষের ডেটাকে বাধা দেওয়ার সবচেয়ে বড় সমস্যা হল কোম্পানিগুলি কীভাবে এটি অ্যাক্সেস করার চেষ্টা করছে। এই বিন্দু পর্যন্ত, ব্যবসা একটি পুরানো বিশ্বের পদ্ধতি গ্রহণ করেছে. ব্যবসার জন্য প্রয়োজনীয় ডেটা থেকে মান বের করতে স্ক্র্যাচ থেকে মডেলগুলি তৈরি করতে হবে। এর জন্য সময়, অর্থ এবং সবথেকে বেশি প্রতিভা লাগে; এটা নির্ভর করে আপনার এমএল ইঞ্জিনিয়ার এবং ডেটা সায়েন্টিস্টরা কতটা ভালো তার উপর। যাইহোক, উপরে যেমন আলোচনা করা হয়েছে, তৃতীয় পক্ষের ডেটা ব্যবহার করার চেয়ে এই পদ্ধতিটিকে আরও ভালভাবে কাজ করার জন্য যথেষ্ট উপলব্ধ প্রতিভা নেই। প্রতিভার অভাব বাধা সৃষ্টি করে।


তথ্যকে ভেক্টর হিসাবে উপস্থাপন করা গভীরতর বোঝার এবং শব্দার্থগত সম্পর্ক বিশ্লেষণের অনুমতি দেয়।


যাইহোক, এর অর্থ এই নয় যে আমাদের প্রথম পক্ষের ডেটা ছেড়ে দিতে হবে। আমাদের শুধু পরিবর্তন করতে হবে যেভাবে আমরা এটির সাথে যোগাযোগ করি। নতুন বিশ্বে যা আজ সম্ভব, ভেক্টর এবং ভেক্টর এম্বেডিং হল মূল। ভেক্টরগুলি হল সাধারণ গাণিতিক বস্তু যা ডেটা পয়েন্টের বৈশিষ্ট্য বা বৈশিষ্ট্যগুলিকে উপস্থাপন করতে পারে যখন মডেল এমবেড করার সময় ডেটা থেকে শেখা এই তথ্য-সমৃদ্ধ, অর্থপূর্ণ উপস্থাপনাগুলি তৈরি করতে ডেটাতে প্যাটার্ন বিশ্লেষণ করে; তারা শব্দার্থিক সম্পর্ক ক্যাপচার. ভেক্টর এমবেডিং হল এমন একটি বিন্যাস যা আপনি একজন ব্যবহারকারী বা গ্রাহক সম্পর্কে যা কিছু জানেন তা এনকোড করতে পারে এবং সেই তথ্যটিকে একটি বিশ্লেষণ সিস্টেমে অ্যাক্সেসযোগ্য করে তুলতে পারে, অথবা ব্যবহারকারীর অভিজ্ঞতাকে ব্যক্তিগতকৃত করতে, এমনকি জালিয়াতি ধরার জন্যও ব্যবহারযোগ্য করে তুলতে পারে। সেখানে অনেক সম্ভাবনা আছে। ভেক্টরগুলি একটি সমুদ্র পরিবর্তনের জন্য প্রস্তুত কারণ তারা মৌলিকভাবে ভিন্ন উপায়ে বিশ্লেষণকে শক্তি দিতে পারে।


পুনরুদ্ধার-অগমেন্টেড জেনারেশন (RAG) এই মুহূর্তে অনেক গুঞ্জন তৈরি করছে যা এটি সক্ষম করতে পারে, কিন্তু ভেক্টর এম্বেডিংগুলি RAG-কে উপযোগী করে তোলে। এগুলি কাঠামোর একটি কেন্দ্রীয় উপাদান যা প্রসঙ্গ, প্রতিক্রিয়া, পুনরুদ্ধারের একীকরণ এবং মডেলগুলির সূক্ষ্ম টিউনিংয়ের সাথে সহায়তা করে। উচ্চ-মানের ভেক্টর তৈরি করা এবং তাদের সঠিকভাবে অনুসন্ধান করা একটি গুরুত্বপূর্ণ কাজ যা যে কোনও RAG সিস্টেমকে বাস্তবে কাজ করতে সক্ষম করে। অন্যান্য ফ্রেমওয়ার্ক আছে, কিন্তু RAG বিশেষত প্রথম পক্ষের ডেটা বিপ্লবের জন্য উপযুক্ত।


শুনে ভালো লাগছে। আসুন আমরা সবাই জেনে নেই কিভাবে ভেক্টর এবং ভেক্টর এম্বেডিং ব্যবহার করতে হয়। এটি মোট উত্তর নয়। সীমিত ডেটা সেট এবং টুলিংয়ের মতো সমস্যাগুলি রয়ে গেছে। সবকিছু এখনও একটি সুন্দর ধনুকের মধ্যে মোড়ানো হয়নি, তবে আমি বিশ্বাস করি এটি শীঘ্রই হবে। কারণ ওপেন-সোর্স, মেটা'স লামা 2-এর মতো প্রাক-প্রশিক্ষিত ফাউন্ডেশন মডেল, যা জুলাইয়ে আরও শক্তিশালী লামা 3-কে পথ দেবে, খেলার ক্ষেত্রকে সমান করতে পারে। বিগটেকের তুলনায় পর্যাপ্ত ডেটা ভলিউম না থাকার সমস্যাটি প্রশমিত হয়। বড় এবং বৈচিত্র্যময় ডেটাসেটে প্রাক-প্রশিক্ষিত একটি ওপেন সোর্স মডেল ব্যবহার করে, সেই মডেলটিতে একটি নির্দিষ্ট স্তরের জ্ঞান এবং বোঝার অন্তর্নির্মিত রয়েছে। কোম্পানিগুলিকে কেবল তাদের নির্দিষ্ট ডোমেন বা কাজের সাথে লামা 2 (বা লামা 3) সূক্ষ্ম-টিউন করতে হবে। তথ্য এটি বাধা সহজ করে কারণ অনেক ক্ষেত্রে, আপনাকে আর স্ক্র্যাচ থেকে একটি মডেলকে প্রশিক্ষণ দিতে হবে না।


এটি একটি অত্যধিক সরলীকরণের মতো শোনাতে পারে, প্রদত্ত যে লামা সংস্থাগুলিকে পাঠ্যের সাথে মোকাবিলা করতে সহায়তা করে, তবে বেশিরভাগ ডেটা সংস্থাগুলি পাঠ্য নয়। স্ট্রাকচার্ড ডেটা কোম্পানিগুলিকে এই প্রক্রিয়ার সাথে একত্রিত করতে হবে। উদাহরণস্বরূপ, ব্যবহারকারীর আচরণগত ইভেন্টগুলি যা সাধারণত প্রথম পক্ষের ডেটার একটি বড় শতাংশ তৈরি করে, কোন LLM দ্বারা প্রক্রিয়া করার জন্য উপযুক্ত নয়। এটি পরিবর্তিত হচ্ছে তাই নতুন মাল্টিমডাল সমাধানের আবির্ভাব হওয়ার সাথে সাথে কোম্পানিগুলিকে প্রস্তুত হওয়া উচিত। একইভাবে, টুলিংয়ের এখনও অভাব রয়েছে, তবে স্থানের উপর অনেক মনোযোগ রয়েছে, তাই দুর্দান্ত পদক্ষেপ নেওয়া হচ্ছে। এটা বরাবর আসছে!


মৌলিকভাবে সমাধান করা সবচেয়ে বড় সমস্যাগুলির সাথে, প্রথম পক্ষের ডেটা হাইপ ফিরে এসেছে, বাবু! কোম্পানিগুলিকে তৃতীয় পক্ষের গোপনীয়তা লঙ্ঘন করার বিষয়ে চিন্তা করতে হবে না, বা তাদের গ্রাহকদের জানতে সাহায্য করার জন্য তাদের বিগ টেকের উপর নির্ভর করতে হবে না। এই বছর প্রথম-পক্ষের ডেটা বিস্ফোরিত হওয়ার আশা করুন কারণ কোম্পানিগুলি শেষ পর্যন্ত সম্পূর্ণ সুবিধা গ্রহণ করে- বিশেষ করে Llama 3 এর সাথে প্রস্তুত। এর সমস্ত প্রতিশ্রুতির জন্য, সম্ভবত Llama 3-এর জন্য সবচেয়ে বড় সম্ভাবনা হল প্রথম পক্ষের ডেটা সমস্যাটি একবার এবং সর্বদা সমাধান করা।