এটা পছন্দ করুন বা না, বাস্তবতা এই: শুধু আপনার পণ্য বা বৈশিষ্ট্যটি AI / ML ব্যবহার করে তা যথেষ্ট নয়। অন্তত না, যদি আপনি একটি স্থায়ী, ইতিবাচক প্রভাব চান। হাইপ এবং ভাইরাল বজ্রপাতের বাইরে, ব্যবসা এখনও লাভ, ROI, এবং বৃদ্ধি মিটার সম্পর্কে। বেশিরভাগ ক্ষেত্রে এটি তার প্রকৃতি। যা মানে আমাদের জন্য, যারা এই প্রকল্পগুলি তৈরি করে, এটি কিভাবে AI / ML এর প্রভাব পরিমাপ করতে জানতে গুরুত্বপূর্ণ। এই নিবন্ধে, আমরা টুলকিটটি দেখব যা আমাদের আইটি গ্রহণের প্রভাব পরিমাপ করতে এবং এই পদ্ধতিগুলি কীভাবে কাজ করে তা বুঝতে সাহায্য করে। শেষ পর্যন্ত, আপনার ব্যবসার উপর আপনার প্রকল্পের প্রভাব পরিমাপ করার প্রধান পদ্ধতিগুলির একটি ধারণা থাকবে. আপনি পদ্ধতিগুলির একটি গভীর মানচিত্র পাবেন এবং নিজেকে কীভাবে দিকনির্দেশনা করবেন তা জানবেন - আপনার ক্ষেত্রে কোনটি সেরা। Narrative মানচিত্র - আপনাকে ন্যাভিগেশন করতে সহায়তা করতে আমরা মৌলিকগুলির সাথে শুরু করব - কেন এবং কখন এটি কোনও পরিমাপের যোগ্য। তারপর আমরা দেখব কি ভুল হতে পারে এবং কেন প্রতিটি পরিবর্তন একটি পরীক্ষা যোগ্য নয়। সেখান থেকে, আমরা স্বর্ণ স্ট্যান্ডার্ড - এ / বি টেস্টিং - এবং আপনি একটি চালাতে পারবেন না যখন কি করতে হবে। অবশেষে, আমরা পরীক্ষাগুলি অতিক্রম করব কারণগত অনুমানের পদ্ধতিতে - এবং আপনি কি খুঁজে পাবেন তা বিশ্বাস করবেন। প্রভাব পরিমাপ: কেন, কখন এবং কিভাবে না When it’s worth measuring যখন পরিমাপ করা মূল্যবান প্রথমত, প্রধান কারণগুলি আপনি আসলে বিরক্ত করতে চান। Risk & Value আমরা ইতিমধ্যে শুরুতে মূল্য নিয়ে আলোচনা করেছি. আমরা একটি বৈশিষ্ট্যটি আরও বিনিয়োগের জন্য যথেষ্ট কিনা তা পরিমাপ করতে চাই. কতটা, তার ভবিষ্যৎ কী হওয়া উচিত। তবে গুরুত্বপূর্ণ বিষয়টি ভুলে যাবেন না- আপনার উজ্জ্বল নতুন পরিবর্তন সত্যিই জিনিসগুলি খারাপ করে তোলে - রূপান্তর হার কমেছে, ব্যবহারকারীরা হতাশ হয়ে যাচ্ছে, কম টাকা আছে - আপনি দ্রুত প্রতিক্রিয়া জানতে চান, ব্যর্থতা এড়ানোর চেয়েও বেশি গুরুত্বপূর্ণ। risk management. নিশ্চিত Innovation দ্রুত পণ্য উন্নয়ন, বাজার অস্ত্রের প্রতিযোগিতা, এবং পণ্য-মুক্তির জন্য অনন্ত অনুসন্ধান. ব্যবসাগুলি প্রতিযোগিতামূলক থাকার জন্য একই সময়ে কয়েক ডজন জিনিস করে, এবং আপনি কেবলমাত্র ভালগুলির মধ্যে সত্যিই চমৎকার সমাধানগুলি অগ্রাধিকার দিতে পারেন. বৈশিষ্ট্যগুলি সত্যিই গেমটি পরিবর্তন করতে পারে, ব্যবহারকারীদের সত্যিই প্রয়োজনীয় জিনিসগুলি, বা অন্তত বিনিয়োগের সাথে ইতিবাচক প্রভাব অর্জন করা যায় এমন অঞ্চলগুলি। Optimization একটি সচেতন, পরিমাপ-ভিত্তিক পদ্ধতির সৌন্দর্য হল যে এটি আপনাকে আরও গভীরভাবে গুঁড়তে দেয়। আপনার ফলাফল. হয়তো আয় অবিলম্বে ছাড়েনি, কিন্তু ব্যবহারকারীরা নতুন কার্যকারিতা পছন্দ করে এবং প্রতিদিন এটি সঙ্গে জড়িত হয়. হয়তো এটি একটি নির্দিষ্ট সেগমেন্টের সাথে সংশ্লিষ্ট কিন্তু অন্যদের বিরক্ত করে। প্রকৃতি Organization আপনি কি এমন একটি জায়গায় কাজ করেন যা "ডাটা ড্রাইভিং" সম্পর্কে কথা বলছে? অথবা হয়তো আপনি ব্যক্তিগতভাবে এমন এক ধরনের ব্যক্তি হন যিনি বায়ু অনুভূতির উপর সত্যকে বিশ্বাস করেন? তাহলে এখানে আপনি যেতে চান: কীভাবে প্রভাব পরিমাপ করতে শিখুন, এবং নিশ্চিত করুন যে আপনার ফলাফলগুলি সত্যিই আপনার নির্দিষ্ট লক্ষ্যগুলির দিকে আপনাকে পরিচালনা করে। When Not to Test যখন পরীক্ষা না করা That said, there যখন পরীক্ষাগুলি অর্থহীন হয় না - অথবা পুরোপুরি সম্ভব না। আছেন Methodological limits কখনও কখনও পদ্ধতিগুলি প্রয়োগ করা সহজেই অসম্ভব। ফলাফল পেতে খুব কম ডেটা. পরিবর্তনগুলি সনাক্ত করতে খুবই ছোট। অথবা কোনওভাবে উন্নত হওয়া উচিত (যে ক্ষেত্রে - কেন কোনও কিছু বিকাশ করা প্রয়োজন ছিল? Non-optional work কিছু পরিবর্তনগুলি বাধ্যতামূলক। আইনি বা সম্মতি প্রয়োজনীয়তাগুলি ক্লাসিক ক্ষেত্রে। আইটি নির্দিষ্ট নয়, কিন্তু স্পষ্ট: আপনাকে জিডিপিআর অনুসরণ করতে হবে, অ্যাক্সেসযোগ্যতার জন্য আপনার পণ্যটি সংশোধন করতে হবে, ইত্যাদি। একই কাজের জন্য ওয়েবসাইটটি একটি 502 ত্রুটি ফেরত দেয় না। critical fixes or infrastructure updates. Ethical red lines কিছু পরিমাপ অনুশীলন নৈতিক সীমানা অতিক্রম করে, ব্যবহারকারীদের ক্ষতি বা অপব্যবহারিক নকশা ঝুঁকি বহন করে। Better alternatives কখনও কখনও এটি মূল্যবান হয় না. যদি পরিমাপের জন্য ব্যয় করা প্রচেষ্টা (সংস্থান) মূল্যের চেয়ে বেশি হতে পারে, তাহলে এটি ছাড়ুন. সময়, অর্থ, সুযোগ খরচ. সবকিছু গুরুত্বপূর্ণ। সবচেয়ে সহজ উদাহরণ: শুধুমাত্র কয়েকটি ক্লায়েন্টের সাথে তরুণ, দ্রুত গতিশীল স্টার্টআপগুলি সাধারণত সংক্ষিপ্ত পুনরাবৃত্তি এবং সরাসরি ব্যবহারকারীর প্রতিক্রিয়াগুলির মাধ্যমে পণ্য-মার্কেট সমন্বয় অনুসরণ করে ভাল। কিভাবে পরিমাপ করবেন না আগে পরে স্বতঃস্ফূর্তভাবে, অনুপ্রেরণা হল নিম্নলিখিত করতে: দেখে নিন কেমন ছিল নতুন ফিচার চালু করুন দেখুন এখন কী অবস্থা ইতিবাচক ফলাফল দেখুন লাভ কিন্তু "এখন ভাল মনে হচ্ছে" এর একটি অন্ধকার দিক রয়েছে. অনেক জিনিস সময়ের সাথে সাথে পরিবর্তিত হয় (সিজনালতা, বহিরাগত ঘটনা, ট্রাফিক পরিবর্তন)। পরিবেশের পরিবর্তনগুলি বৈশিষ্ট্যগত প্রভাবের সাথে বিভ্রান্ত করে। Core issue: বছরের তুলনা (Year Over-Year) এই পরিচিত এবং ঐতিহ্যবাহী ব্যবসায়িক ট্রিকটি প্রশ্নের উত্তর দেওয়ার জন্য নিখুঁত, "আমরা কি একটি ব্যবসা হিসাবে সার্বিকভাবে বৃদ্ধি করছি? এবং এটি অনেক পরিস্থিতিতে উপকারী, কিন্তু একটি বৈশিষ্ট্যের বাস্তবায়ন বা উন্নতি একটি ব্যক্তিগত মূল্যায়নে নয়। শুধু কল্পনা করুন এই বছর ব্যবসায় কতটুকু ঘটেছে. বিপণনকারী, এসইও, বিক্রেতা, আপনি এটি নাম - আপনার চারপাশের সবাই ক্রমবর্ধমান বৃদ্ধি নিশ্চিত করার জন্য কাজ করেছেন। আমাদের চারপাশের বিশ্বও স্থায়ী নয়. ট্যাক্স, কোভিড -19 এবং যুদ্ধ ঘটছে. ব্লগার এবং বিখ্যাত ব্যক্তি তাদের মতামত প্রকাশ করে। টিকটক প্রবণতা ভোক্তা আচরণ পরিবর্তন করছে, এবং আপনার প্রতিযোগীরাও তাদের ভূমিকা পালন করছে। কিন্তু এই জানুয়ারিতে আয়ের 10% বৃদ্ধি শুধুমাত্র আপনার এআই চ্যাটবোটের কারণে (সত্যিই?). একটি দীর্ঘ উইন্ডো - ডজনগুলি অন্যান্য পরিবর্তনগুলি সমানভাবে ঘটে। যেকোনো YoY পার্থক্য আপনার বৈশিষ্ট্য নয়, সবকিছু প্রতিফলিত করে। Core issue: কারণ > কারণ > কারণ আপনি সম্ভবত শুনেছেন বাক্যটি, "সংযোগ মানে কারণ মানে না। কল্পনা করুন যে আপনি একটি এআই চ্যাটবোট চালু করেন, এবং এরপর কিছু সময় পরে, সম্পন্ন ক্রয়গুলির সংখ্যা বৃদ্ধি পায়। মনে হয় চ্যাটবোটটি বৃদ্ধির কারণ, ঠিক? হয়তো - অথবা সম্ভবত না। যখন ব্যবহার এবং ফলাফল একসঙ্গে চলাচল করে, এটি কারণ এবং প্রভাবের মতো দেখায়। কিন্তু একই সময়ে, আপনার বিপণন টিম একটি নতুন প্রচারণা চালু করেছিল। অথবা একটি মৌসুমী শীর্ষে ছিল, যা সবসময় বছরের এই সময়ে বিক্রয় উচ্চতা। অথবা একটি প্রতিযোগী স্টক থেকে বেরিয়ে গিয়েছিল। অথবা ... আপনি জানেন, অনেক কারণ থাকতে পারে। এবং তারা সব একসাথে বা আপনার বটের পরিবর্তে সংখ্যাগুলি প্রভাবিত করতে পারে জটিল অংশ হল যে ডেটা শুধুমাত্র সম্পর্কিত মনে হতে পারে কারণ দুটি জিনিস একই সময়ে ঘটছে. আমাদের মস্তিষ্ক মডেলগুলি চিনতে ভাল, কিন্তু ব্যবসাগুলি সামঞ্জস্যপূর্ণ ঘটনা এবং শব্দগুলির সাথে সম্পূর্ণ। Correlation only shows that two things changed at the same time, but does not promise that one caused the other. Core issue: The Gold Standard of the industry - Randomized Controlled Experiments (RCE) 10 থেকে 10 বার আপনি এখানে থাকতে চান. সৌভাগ্যবশত 10 থেকে 8 থেকে 9 বার আপনি এখানে থাকবেন. এবং এই ক্ষেত্রে RCE যথেষ্ট নয় যে এই নিবন্ধটি আসে। Nevertheless, let's start with the good stuff. ক্লাসিক A / B পরীক্ষা আপনি সম্ভবত এই পদ্ধতি পরিচিত. এটি নিম্নলিখিতভাবে সংক্ষিপ্ত করা হয়: For example, that the description of goods and services generated with GenAI will be as good (or better) than the one written by a human. Or the block “Customers Also Bought / Frequently Bought Together” in an online store will stimulate customers to buy more staff. Personalized emails engage users more. And so on. We form a hypothesis. by which to determine the success/failure of the hypothesis. Define one or more metrics Consider possible cycles of product use. Calculate the sample size and duration of the experiment. into two (or more) groups and . The control group (a) sees the product without the new feature, and the experimental group sees the new version of the product containing the change we are testing. We check that the groups differ only in the presence or absence of the new feature. Randomly split the traffic run the experiment . We apply statistical methods, calculate the difference in metrics and make sure that it is statistically significant. Stage 0 could be an A/A test (when both groups see the same version of the product and we do not see any difference in their behavior) to make sure that the traffic separation and methodology works correctly Analysis Based on the analysis, a decision is made: use, refine or reject. Decision making and iteration. Its magical, wonderful world where there is a lot of control, a chance to double-check yourself, to measure your confidence in your results. Plenty of learning resources and experienced colleagues around. What could possibly go wrong? The main reasons why we will have to give up cozy classical AB tests: 1. is when the behavior of one group affects another. That means the control group also changes - even though it shouldn't. Spillover Effect A textbook example is the Facebook friend recommendation block. We hope that it will help users build social connections. Let's imagine that group A doesn't have such a block, but group B sees it. User John from group B sees such a block, sees user Michael from group A in it, and adds him as a friend. Both users have +1 friend, although Michael should have been in a group that is not affected by the tested feature. Let's look at a few different examples where the might occur Spillover Effect or . If we have very few users (unpopular part of the product, B2B, etc.) or we work with a very rare event (buying a very expensive product or someone actually read the Terms & Conditions). In such cases, it will take a huge amount of time to get a little bit significant result. 2. Few users rare events . If we launch a change that affects the environment and cannot be isolated to individual users. For example, we are testing an advertising auction algorithm - prices will change for all advertisers, not just for those we try to isolate into an experimental group. 3. Impact on external factors . Our chip can change the composition of groups. For example, it repels or attracts certain types of users. For example, if a new feature starts to attract newcomers (this is not our goal) and increases their share in the test group, while in the control group it remains unchanged - the groups will not be comparable. 4. Brand's Effect ভাল খবর হল যে সমস্যার একটি অংশটি RCE এর বাইরে যাওয়া ছাড়া সমাধান করা হয়, মূলত একই যান্ত্রিক ব্যবহার করে। There’s more to split than traffic! ট্রাফিকের চেয়ে ভাগ করা বেশি! উপরের কিছু সমস্যাগুলি মোট পরীক্ষার নকশা কেবলমাত্র একটি অংশ পরিবর্তন করে সমাধান করা যেতে পারে। অনেক সংক্ষিপ্ত এবং বিশ্লেষকদের মতে, বিভিন্ন সহ-পাইলট এবং সহকারীরা এলএলএম ভিত্তিক পণ্যগুলির শীর্ষে আসে। এই ধরনের প্রকল্পগুলির সাধারণ বৈশিষ্ট্য হল যে আমাদের একটি সমাধান রয়েছে যা একটি কর্মচারীর কাজকে সহজ / গতিশীল করার জন্য ডিজাইন করা হয়েছে. এটি কল সেন্টার অপারেটর, বিক্রয় লোক, অর্থের লোক এবং তাই হতে পারে। এখানে ( ) is a real-life example. As part of the experiment, the researchers wanted to see how the use of AI tools affects the work of engineers. Would they close tasks faster if they were given a modern arsenal? But only 16 developers took part in the experiment, which is desperately small enough to hope to get confident results. link বরং লেখকরা বিভক্ত। সুতরাং এখানে নমুনা 16 ডেভেলপার নয়, কিন্তু 246 কাজ. এটি এখনও একটি বিশাল নমুনা নয়, কিন্তু: tasks P-value ঠিক আছে। লেখকরা বিশ্লেষণ করে এবং স্ক্রিন রেকর্ডগুলি চিহ্নিত করে, সাক্ষাৎকার পরিচালনা করে। সংক্ষেপে, তারা গুণগত গবেষণা করে। আপনি উপরের লিঙ্কটিতে পদ্ধতিটির ফলাফল এবং বিস্তারিত পড়তে পারেন. কিন্তু আমাদের জন্য এখন গুরুত্বপূর্ণ বিষয়টি আমাদের থিমের ভিত্তিতে সিদ্ধান্ত নেওয়া, আমরা এই গবেষণায় আগ্রহী নই, কিন্তু পদ্ধতির একটি বোঝাপড়া উদাহরণ। Let’s give this idea a skeleton. AI Copilots (কন্ট্যাক্ট সেন্টার / ডেভ টিম / ইত্যাদি) Case: Why not user-split? “Users” here are agents/devs; small populations + spillovers (shared macros, coaching, shift effects). Instead, randomize: Ticket / conversation (assign treatment at intake). Or queue / intent as the cluster (billing, tech, returns, etc.). চ্যানেল (চ্যাট / ইমেইল / ভয়েস) এবং অগ্রাধিকার / এসএলএ দ্বারা স্তরিত; নজরদারি স্বয়ংক্রিয়তা বিচ্ছিন্নতা; cluster-robust SE সঙ্গে বিশ্লেষণ। Design notes: একবার আপনি এই নীতিটি বুঝতে পারেন, আপনি এটি অন্যান্য সত্তাগুলিতেও প্রয়োগ করতে পারেন. আপনি সময়, জিওপোজেশন, এবং আরো ভাগ করতে পারেন. অনুরূপ ক্ষেত্রে খুঁজুন, অনুপ্রেরণা পেতে এবং অনুসরণ করতে পারেন. একবার আপনি এই নীতিটি বুঝতে পারেন, আপনি এটি অন্যান্য সত্তাগুলিতেও প্রয়োগ করতে পারেন. আপনি সময়, জিওপোজেশন, এবং আরো ভাগ করতে পারেন. অনুরূপ ক্ষেত্রে খুঁজুন, অনুপ্রেরণা পেতে এবং অনুসরণ করতে পারেন. আমি আরেকটি সাধারণ ধরনের কাজের জন্য একটি নোট ছেড়ে দেব যেখানে ক্লাসিক এবি টেস্টটি উপযুক্ত হতে পারে না - মূল্যায়ন অ্যালগরিদম। দ্রুত দাম (Retail) Case: Why not user-split? দোকানে এটি অসম্ভব (এবং বিভ্রান্তিকর) বিভিন্ন মানুষের জন্য বিভিন্ন মূল্য দেখানো। অনলাইন এটি প্রায়ই অবৈধ / অনৈতিক এবং ন্যায়বিচারের সমস্যাগুলি সৃষ্টি করে। Instead, randomize: একই SKU × স্টোরের জন্য সময় (switchback) (উদাহরণস্বরূপ, shifts / days দ্বারা)। (অপ্রয়োজনীয়) ক্লাস্টার - SKU × স্টোর (বা স্টোর ক্লাস্টার), বিভাগ / ট্র্যাফিক দ্বারা স্তরিত সপ্তাহ / মৌসুমের ভারসাম্য দিন; ক্লাস্টার শক্তিশালী এসই ব্যবহার করুন; প্রোগ্রাম / স্টক জোড়া উপর সাবস্ক্রাইব। Design notes: যখন র্যান্ডমাইজেশন একটি বিকল্প নয় আপনি কিভাবে আপনার কোর আইআই বৈশিষ্ট্যের প্রভাব পরিমাপ করেন যখন এটি ইতিমধ্যে সকলের জন্য লাইভ বা আপনি কন্ট্রোল গ্রুপের সাথে একটি পরীক্ষা চালাতে পারবেন না? আমরা নির্ধারণ করেছি যে RCE একটি কারণ জন্য সোনার স্ট্যান্ডার্ড, কিন্তু নিয়ন্ত্রিত পরীক্ষার পরিষ্কার জগৎ প্রায়ই ব্যবসার বিভ্রান্তিকর বাস্তবতার জন্য স্থান দেয়. আমরা দেখেছি যে, RCE এর সমস্ত সীমাবদ্ধতাগুলি বিশেষজ্ঞ প্রযুক্তিগুলির সাথেও সমাধান করা যাবে না। আগে বা পরে, প্রতিটি পণ্য টিম একটি গুরুত্বপূর্ণ প্রশ্নের মুখোমুখি হয় যা একটি ক্লাসিক A / B টেস্ট উত্তর দিতে পারে না। আসুন আমরা সবচেয়ে জনপ্রিয় কিছু আবিষ্কার করি এবং তাদের অস্তিত্ব ধরা চেষ্টা করি. যখন সময় আসে, তখন আপনি কোথায় খুঁজতে হবে তা জানবেন। পদ্ধতি বিস্তারিত প্রোপেনসাইট স্কোর ম্যাচিং (PSM) জিহাদ : আপনি এই পদ্ধতিটি বিবেচনা করতে পারেন যখন একটি চিকিত্সার প্রতিক্রিয়া অদৃশ্য হয় না (উদাহরণস্বরূপ, যখন একটি ব্যবহারকারী নিজের জন্য সিদ্ধান্ত নেয় যে আপনি একটি বৈশিষ্ট্যটি ব্যবহার করবেন কিনা)। Use Case: কল্পনা করুন যে আপনি আপনার পণ্যের জন্য একটি খুব চমৎকার, গেমিক ইনবোর্ডিং তৈরি করেছেন - উদাহরণস্বরূপ, একটি মাস্কটের সাথে একটি ইন্টারেক্টিভ টিউটোরিয়াল। In this case, motivation is a key factor. Users who choose to complete the onboarding are likely already more interested in exploring the product. To measure the "pure" effect of the onboarding itself, you need to compare them with similar users. Decision Guide সিদ্ধান্তের গাইড প্রযুক্তিগত নোট: (For the Advanced) : There are several ways to form pairs, each with its own trade-offs. Common methods include matching, matching, and matching . The choice depends on your data and research question. Matching Strategy Matters one-to-one one-to-many with or without replacement : After matching, you must verify that the characteristics (the covariates used to calculate the propensity score) are actually balanced between the treated and the newly formed control group. If they aren't, you may need to adjust your propensity score model or matching strategy. Always Check for Balance : The causal effect estimated with PSM is technically the "average treatment effect on the treated" (ATT). This means the result applies only to the types of users who were able to be matched, not necessarily to the entire population. The Effect is Not for Everyone : The final estimate is highly dependent on how the propensity score (the probability of treatment) was calculated. A poorly specified model will lead to biased results. The Result is Sensitive to the Model : PSM is intuitive, but sometimes simpler methods like regression adjustments or more advanced techniques (e.g., doubly robust estimators) can be more powerful or reliable. It's a good tool to have, but it's not a silver bullet. It's Not Always the Best Tool সমন্বয় কৌশল জিনিস: দম্পতি গঠনের কয়েকটি উপায় আছে, প্রত্যেকটি তার নিজস্ব সমন্বয় সঙ্গে। সাধারণ পদ্ধতিগুলি এক-এক সমন্বয়, এক-এক-সংখ্যক সমন্বয়, এবং প্রতিস্থাপন বা ছাড়া সমন্বয় অন্তর্ভুক্ত। সবসময় ভারসাম্য চেক করুন: সমন্বয় করার পরে, আপনাকে নিশ্চিত করতে হবে যে বৈশিষ্ট্যগুলি (প্রবণতা পয়েন্ট হিসাব করার জন্য ব্যবহৃত কভারিয়ামগুলি) প্রকৃতপক্ষে চিকিত্সা করা এবং নতুনভাবে গঠিত নিয়ন্ত্রণ গ্রুপের মধ্যে ভারসাম্য রয়েছে. যদি তারা না হয় তবে আপনাকে আপনার প্রবণতা পয়েন্ট মডেল বা সমন্বয় কৌশলটি সংশোধন করতে হবে। প্রভাব সবার জন্য নয়: PSM দ্বারা অনুমান করা কারণীয় প্রভাব প্রযুক্তিগতভাবে "প্রায় চিকিত্সা প্রভাব চিকিত্সা করা" (এটিটিটি) হয়। ফলাফল মডেলের জন্য সংবেদনশীল: চূড়ান্ত মূল্যায়ন প্রবণতা পয়েন্ট (চাকরির সম্ভাবনা) হিসাব করা হয় কিভাবে উপর নির্ভর করে। এটি সবসময় সেরা সরঞ্জাম নয়: PSM স্বাভাবিক, কিন্তু কখনও কখনও প্রত্যাবর্তন সংশোধন বা আরও উন্নত প্রযুক্তি (উদাহরণস্বরূপ, দ্বিগুণ শক্তিশালী মূল্যায়নকারী) হিসাবে সহজ পদ্ধতি আরও শক্তিশালী বা নির্ভরযোগ্য হতে পারে. এটি একটি ভাল সরঞ্জাম আছে, কিন্তু এটি একটি সিলভার বুলেট নয়. সিন্থেটিক নিয়ন্ত্রণ (SC) The Gist: The goal is to find several untreated units that are similar to the one that received the treatment. From this pool, we create a "synthetic" control group by combining them in a way that makes their characteristics closely resemble the treated unit. This "combination" is essentially a of the units from the control group (often called the "donor pool"). The weights are chosen to minimize the difference between the treated unit and the synthetic version during the . weighted average pre-treatment period Use Case: ম্যানচেস্টার মত পুরো শহরে ডেলিভারি সময় কমানোর জন্য আপনার খাদ্য ডেলিভারি কোম্পানি একটি নতুন আইটি ভিত্তিক লজিস্টিক সিস্টেম বাস্তবায়ন করছে। একটি ক্লাসিক A/B টেস্ট অসম্ভব কারণ সিস্টেমটি সমস্ত কুরিয়ার এবং গ্রাহকদের একই সময়ে প্রভাবিত করে। আপনি ম্যানচেস্টারের কর্মক্ষমতা অন্য শহরের সাথে তুলনা করতে পারবেন না, যেমন বার্মিংহাম, কারণ অনন্য স্থানীয় ঘটনা বা অর্থনৈতিক প্রবণতা সেখানে তুলনাকে বিচ্ছিন্ন করবে। প্রকৃত প্রভাব পরিমাপ করার জন্য, আপনাকে একটি "সিন্থেটিক" নিয়ন্ত্রণ তৈরি করতে হবে যা ম্যানচেস্টার এর প্রাক-ল্যান্সিং প্রবণ এভাবে তৈরি হয় "সিন্থেটিক জোড়া" পদ্ধতিটি সময়ের দিকে তাকায় বার্মিংহাম, লিডস এবং ব্রিস্টল) অন্যান্য শহরগুলির একটি "ডোনার পুল" ব্যবহার করে ম্যানচেস্টারের অতীতকে পুনরাবৃত্তি করার জন্য নিখুঁত "রেসিপি" তৈরি করে। মূল পূর্বাভাসকদের উপর ঐতিহাসিক ডেটা বিশ্লেষণ করে (যেমন জনসংখ্যা বা অতীতের ডেলিভারি সময়) অ্যালগরিদমটি আদর্শ ওজনযুক্ত মিশ্রণ খুঁজে পায়। সেটা ছিল ম্যানচেস্টারের জন্য প্রায় নিখুঁত ম্যাচ। before "40% Birmingham + 35% Leeds + 25% Bristol" Once this recipe is locked in, it's used to project what would have happened without the new system. From the launch day forward, the model calculates the "Synthetic Manchester's" performance by applying the recipe to the actual, real-time data from the donor cities. This synthetic version represents the most likely path the real Manchester would have taken. The difference between the real Manchester's improved delivery times and the performance of its synthetic twin is the true, isolated effect of your new AI system. Decision Guide Decision Guide Technical Notes: (For the Advanced) Always inspect the weights assigned to the units in the donor pool. If one unit receives almost all the weight (e.g., 99%), your "synthetic control" has essentially collapsed into a simple (DiD) model with a single, chosen control unit. This can indicate that your donor pool is not diverse enough. Weight Transparency and Diagnostics: Difference-in-Differences The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): ওজন স্বচ্ছতা এবং সনাক্তকরণ: সবসময় ডোনার পুলের ইউনিটগুলির জন্য নির্ধারিত ওজনগুলি পরীক্ষা করুন. যদি একটি ইউনিট প্রায় সমস্ত ওজন (উদাহরণস্বরূপ, 99%) গ্রহণ করে তবে আপনার "সিন্থেটিক নিয়ন্ত্রণ" মূলত একটি সহজ পার্থক্য-ভিন্নতা (DiD) মডেলের সাথে একটি একক, নির্বাচিত নিয়ন্ত্রণ ইউনিট। The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): Difference-in-Differences (DID) জিহাদ : আমরা একটি গ্রুপ গ্রহণ করি যেখানে কিছু পরিবর্তন হয়েছে (উদাহরণস্বরূপ, আমরা একটি নতুন বৈশিষ্ট্য পেয়েছি) এবং একটি গ্রুপ যেখানে সবকিছু একই থাকে। দ্বিতীয় গ্রুপটি এমন হতে হবে যে ঐতিহাসিকভাবে তার মধ্যে কী মেট্রিকের প্রবণতা বৈশিষ্ট্যগুলির সাথে গ্রুপের সাথে একই ছিল। এই ভিত্তিতে আমরা অনুমান করি যে আমাদের হস্তক্ষেপ ছাড়া মেট্রিকের প্রবণতাগুলি সামঞ্জস্যপূর্ণ হবে। আমরা দুটি গ্রুপের মধ্যে আগে এবং পরে পার্থক্যগুলি দেখি। তারপর আমরা এই দুটি পার্থক্যগুলি তুলনা করি। The idea is simple: without us, both groups would have developed the same without change, but with us, the difference between their changes will be the “net” effect of implementing our feature. Use Case(s): পদ্ধতিটি খুব জনপ্রিয়, চলুন এমনকি কয়েকটি ক্ষেত্রে গবেষণা দেখি। একটি অঞ্চল (দেশ, শহর) নতুন ডিসকাউন্ট সিস্টেম (বা AI পরিষেবা) পায়, অন্যটি না। An LLM is used to generate an optimized XML feed for Google Shopping for one product category. This includes creating more engaging titles and detailed product descriptions. A second, similar category with a standard, template-based feed is used as a control group. We then compare the change in metrics like CTR or conversions between the two groups. Similar mechanics may be at work with SEO. সতর্কবার্তা : A good and understandable case, but it requires careful group selection. Organic traffic trends for different categories (e.g., "laptops" and "dog food") can differ greatly due to seasonality or competitor actions. The method will be reliable if the categories are very similar (e.g., "men's running shoes" and "women's running shoes"). সতর্কবার্তা : Measuring the impact of a feature launched only on Android, using iOS users as a control group to account for general market trends. Caveat: A very common case in practice, but methodologically risky. Android and iOS audiences often have different demographics, purchasing power, and behavioral patterns. Any external event (e.g., a marketing campaign targeting iOS users) can break the parallel trends and distort the results. সতর্কবার্তা : Decision Guide সিদ্ধান্তের গাইড প্রযুক্তিগত নোট: (For the Advanced) The power of DiD lies in shifting the core assumption from the often-unrealistic "the groups are identical" to the more plausible "the groups' are identical." A simple post-launch comparison between Android and iOS is flawed because the user bases can be fundamentally different. A simple before-and-after comparison on Android alone is also flawed due to seasonality and other time-based factors. DiD elegantly addresses both issues by assuming that while the absolute levels of a metric might differ, their "rhythm" or dynamics would have been the same in the absence of the intervention. This makes it a robust tool for analyzing natural experiments. The Core Strength: trends While DiD is simple in its basic 2x2 case, it can become quite complex. Challenges arise when dealing with multiple time periods, different start times for the treatment across groups (staggered adoption), and when using machine learning techniques to control for additional covariates. Deceptive Simplicity: The problem of : the classical DiD model is ideal for cases where one group receives the intervention at one point in time. But in life, as you know, different subgroups (e.g. different regions or user groups) often receive the function at different times. and this is when applying standard DiD regression can lead to highly biased results. This is because groups already treated may be implicitly used as controls for groups treated later, which can sometimes even change the sign of the estimated effect. "Staggered Adoption" of the treatment effect: a simple DiD model implicitly assumes that the treatment effect is constant across all and over time. In reality, the effect may evolve (e.g., it may increase as users become accustomed to the feature) or vary between different subgroups. There are studies that show this and there are specific evaluation methods that take this effect into account. At least we think so until a new study comes out, right? Heterogeneity কোর শক্তি: DiD এর ক্ষমতা প্রায়শই অপ্রত্যাশিত "গ্রুপগুলি একই" থেকে আরো বিশ্বাসযোগ্য "গ্রুপগুলির প্রবণতাগুলি একই" থেকে কোর অনুমানটি স্থানান্তরিত করে। অ্যান্ড্রয়েড এবং আইওএসের মধ্যে একটি সহজ পরবর্তী লঞ্চ তুলনা ত্রুটিপূর্ণ কারণ ব্যবহারকারীর ভিত্তিগুলি মূলত আলাদা হতে পারে। অ্যান্ড্রয়েড একমাত্রে একটি সহজ পূর্ব এবং পরবর্তী তুলনা এছাড়াও ত্রুটিপূর্ণ কারণ এবং অন্যান্য সময় ভিত্তিক কারণগুলির কারণে। প্রতারণামূলক সহজতা: যদিও ডিডি তার মৌলিক 2x2 ক্ষেত্রে সহজ, এটি বেশ জটিল হতে পারে চ্যালেঞ্জ বিভিন্ন সময়ের সাথে মোকাবিলা করার সময়, গ্রুপগুলির মধ্যে চিকিত্সার জন্য বিভিন্ন শুরু সময়গুলি (স্ট্যাগারেড গ্রহণ) এবং যখন অতিরিক্ত covariates নিয়ন্ত্রণ করার জন্য যন্ত্রপাতি শেখার কৌশল ব্যবহার করা হয়। "Staggered Adoption" এর সমস্যা : ক্লাসিক DiD মডেলটি এমন ক্ষেত্রে আদর্শ যেখানে একটি গ্রুপ এক সময়ে হস্তক্ষেপ গ্রহণ করে. কিন্তু জীবনে, আপনি জানেন, বিভিন্ন সাবগ্রুপ (উদাহরণস্বরূপ বিভিন্ন অঞ্চল বা ব্যবহারকারীর গ্রুপ) প্রায়ই বিভিন্ন সময়ে ফাংশন গ্রহণ করে. এবং এটি যখন স্ট্যান্ডার্ড DiD প্রত্যাবর্তন প্রয়োগ করা উচ্চতর পার্শ্ববর্তী ফলাফলগুলি হতে পারে. এটি কারণ ইতিমধ্যে চিকিত্সা করা গ্রুপগুলি পরে চিকিত্সা করা গ্রুপগুলির জন্য কন্ট্রোল হিসাবে অনুসরণযোগ্যভাবে ব্যবহার করা যেতে পারে, যা কখনও কখনও অনুমান করা প্রভাবের চিহ্ন পরিবর্তন করতে পারে। চিকিত্সা প্রভাবের heterogeneity: একটি সহজ DiD মডেল অনুসরণ করে যে চিকিত্সা প্রভাব সমস্ত এবং সময়ের মধ্যে স্থিতিশীল হয়. বাস্তবে, প্রভাব বিকশিত হতে পারে (উদাহরণস্বরূপ, এটি ব্যবহারকারীদের বৈশিষ্ট্য অভ্যস্ত হওয়ার সাথে সাথে বাড়তে পারে) বা বিভিন্ন সাবগ্রুপের মধ্যে পরিবর্তিত হতে পারে. গবেষণা আছে যা এটি দেখায় এবং বিশেষ মূল্যায়ন পদ্ধতি আছে যা এই প্রভাব বিবেচনা করে। রেজিস্ট্রেশন ডিসকাউন্টি ডিজাইন (RDD) জিহাদ : If a user gets a treatment based on a rule with a cutoff value (e.g., "made 100 orders" or “exist 1 month”), we assume that those just below the cutoff are very similar to those just above it. For example, a user with 99 orders is almost identical to a user with 101 orders. The only difference is that the person with 101 got the treatment, and the person with 99 didn't. This means we can try to compare them to see the effect. Use Case(s): একটি আনুগত্য প্রোগ্রাম দেয় যারা এক বছরে ১০০০ ডলারের বেশি ব্যয় করেছে তাদের জন্য RDD ব্যবহারকারীদের আচরণ (উদাহরণস্বরূপ, সংরক্ষণ, ভবিষ্যত ব্যয়) তুলনা করবে যারা ব্যয় করেছে যারা ব্যয় করে ১,০০০ ডলারের চিহ্নে তাদের আচরণে একটি তীব্র পার্থক্য হবে "গোল্ড স্ট্যাটাস" পাবার প্রভাব। "Gold Status" $1001 $999 একটি ই-কমার্স সাইট গ্রাহকদের তাদের পৌঁছানোর সময় উপর ভিত্তি করে বিভিন্ন শিপিং বিকল্প সরবরাহ করে। 2 দিনের শিপিং পাবেন, যখন কোন গ্রাহক আসে একটি 3 দিনের শিপিং উইন্ডো পেতে. সাইট চায় চেকআউট সম্ভাবনা উপর এই নীতি কারণ প্রভাব পরিমাপ। before noon just after noon Decision Guide সিদ্ধান্তের গাইড Technical Notes: (For the Advanced) This article focuses on , where crossing the cutoff guarantees the treatment. A variation called exists for cases where crossing the cutoff only of receiving the treatment. Sharp RDD Fuzzy RDD increases the probability The first step in any RDD analysis is to . You should plot the outcome variable against the running variable. The "jump" or discontinuity at the cutoff should be clearly visible to the naked eye. plot the data A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: এই নিবন্ধটি শার্প RDD উপর দৃষ্টি আকর্ষণ করে, যেখানে কাটিয়া পাস করা চিকিত্সা নিশ্চিত করে. Fuzzy RDD নামক একটি বিকল্প এমন ক্ষেত্রে আছে যেখানে কাটিয়া পাস করা শুধুমাত্র চিকিত্সা পেতে সম্ভাবনা বৃদ্ধি করে। The first step in any RDD analysis is to . You should plot the outcome variable against the running variable. The "jump" or discontinuity at the cutoff should be clearly visible to the naked eye. plot the data A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: Bayesian Structural Time Series (BSTS) বায়েসিয়ান কাঠামোগত সময় সিরিজ (Bayesian Structural Time Series, BSTS) Based on pre-event data, the model builds a forecast of what would have happened without our intervention. To do this, it relies on other, similar time series that were not affected by the change. The difference between this forecast and reality is the estimated effect. We looked at Synthetic Control earlier; think of BSTS as that same idea of estimating impact via similar, unaffected units, but . In Simple Terms: on steroids Synthetic Control থেকে প্রধান পার্থক্য হল যে পূর্বাভাস তৈরির জন্য, এটি একটি Bayesian মডেল ব্যবহার করে ওজন একাধিক করার পরিবর্তে। Key Idea: You changed the pricing policy for one product category. To measure the effect, the model uses sales from other, similar categories to forecast what the sales in your category would have been the price change. Use Case: না BSTS (যেমন গুগলের CausalImpact) এর সাথে কাজ করার জন্য চমৎকার প্রস্তুত লাইব্রেরি রয়েছে, যা দিয়ে আপনি 10-20 লাইন কোডে এটি সম্পন্ন করতে পারেন। BSTS এর সাথে কাজ করার জন্য চমৎকার প্রস্তুত লাইব্রেরি রয়েছে (যেমন গুগলের ), যার সাথে আপনি 10-20 লাইন কোডে এটি করতে পারেন. শুধু পরীক্ষা চালানোর ভুলবেন না (নিম্নলিখিত ব্লকটি দেখুন)। CausalImpact Instrumental Variables (IV) Instrumental Variables (IV) একটি পদ্ধতি এমন পরিস্থিতিগুলির জন্য যেখানে একটি লুকানো কারণ (যেমন উদ্দেশ্য) ব্যবহারকারীর পছন্দ এবং চূড়ান্ত ফলাফল উভয়কে প্রভাবিত করে. আমরা একটি বহিরাগত কারণ (একটি "ইনট্রাম") খুঁজে পেতে যা ব্যবহারকারীকে কর্মের দিকে উত্সাহিত করে কিন্তু সরাসরি ফলাফলটি প্রভাবিত করে না। In Simple Terms: শুধুমাত্র যা প্রয়োজন তা স্থানান্তর করার জন্য একটি "হেল্প" খুঁজে বের করতে। Key Idea: আপনি বিক্রয় উপর টিভি বিজ্ঞাপন প্রভাব পরিমাপ করতে চান, কিন্তু বিজ্ঞাপনগুলি এমন অঞ্চলে প্রদর্শিত হয় যেখানে মানুষ ইতিমধ্যে বেশি কিনে। আবহাওয়া হতে পারে: বৃষ্টির দিনে, মানুষ আরো টিভি দেখে (এবং বিজ্ঞাপনটি দেখে), কিন্তু আবহাওয়া নিজেই তাদের সরাসরি আপনার পণ্য কিনতে দেয় না। Use Case: instrument Double Machine Learning (DML) একটি আধুনিক পদ্ধতি যা দুটি এমএল মডেল ব্যবহার করে শত শত অন্যান্য কারণগুলির প্রভাব থেকে চিকিত্সা এবং ফলাফল উভয়কে "পরিচ্ছন্ন" করে। শুধুমাত্র এই "পরিচ্ছন্নতা" (উপস্থিতিগুলি) পরে যা বাকি আছে তা বিশ্লেষণ করে, পদ্ধতিটি বিশুদ্ধ কারণ এবং প্রভাব প্রভাব খুঁজে পায়। ডিএমএল এর প্রধান শক্তি - যেখানে এ / বি টেস্ট অসম্ভব বা খুব কঠিন। বেশিরভাগ ক্ষেত্রেই এইগুলি নিজস্ব নির্বাচন পরিস্থিতি, যখন ব্যবহারকারীরা নিজেদের জন্য সিদ্ধান্ত নেয় যে একটি বৈশিষ্ট্য ব্যবহার করা উচিত কিনা না। In Simple Terms: এমএল ব্যবহার করে সমস্ত "হালকা" সরিয়ে ফেলুন এবং শুধুমাত্র বিশুদ্ধ "কারণ এবং প্রভাব" সিগন্যাল ছেড়ে দিন। Key Idea: উদাহরণস্বরূপ, একটি ফিনটেক অ্যাপ্লিকেশনে. আপনি একটি নতুন প্রিমিয়াম বৈশিষ্ট্য চালু: একটি এআই সহকারী যা খরচ বিশ্লেষণ করে এবং ব্যক্তিগত সঞ্চয় পরামর্শ দেয়. পরিষেবাটি ডিফল্ট দ্বারা সক্রিয় নয়, ব্যবহারকারীকে সেটিংসগুলিতে এটি সক্রিয় করতে হবে। Use Case: এটি অন্যান্য পদ্ধতিগুলির সাথে সমন্বয়ে ব্যবহারের জন্য মহান এবং প্রায়ই সহজ পদ্ধতিগুলি উপযুক্ত না হলে এটি ব্যবহার করা যেতে পারে। It's great for use in tandem with other methods and can often be used when simpler approaches are not suitable. আমি কিভাবে নিশ্চিত হব যে সবকিছু সঠিকভাবে কাজ করছে? শুভেচ্ছা, আপনি এই পুরো পর্যালোচনা পড়ার মাধ্যমে একটি দীর্ঘ পথ এগিয়ে এসেছেন। Fair enough, you may have had a thought: these methods are quite complex, how can I be sure I've done it right? How can I trust the final results? হেক, এটাই সবচেয়ে সঠিক দৃষ্টিভঙ্গি। The general idea of checking the correctness of estimation methods is summarized as follows: We’re measuring the effect where it clearly shouldn’t be — just to make sure it isn’t there. RCE এর সাথে, এটি বেশ সহজ - আমাদের একটি A / A পরীক্ষা দরকার. আমরা আমাদের নকশা অনুযায়ী পরীক্ষা চালান: ঠিক একই মেট্রিক্স, বিভাজন, ইত্যাদি ব্যতীত আমরা উভয় গ্রুপে আমাদের নতুন বৈশিষ্ট্য প্রদর্শন করি না. ফলস্বরূপ, আমরা তাদের মধ্যে কোন পার্থক্য দেখাতে হবে না। But quasi-experiments are a bit more complicated. Each of the methods has its own specificity and may contain its own special ways to check the correctness of implementation. Here we will talk about relatively universal methods, which I recommend in most cases. দৃঢ়তা চেক যে প্রভাব আমরা খুঁজে পেয়েছি তা একটি দুর্ঘটনা বা মডেল ত্রুটি নয় তা নিশ্চিত করার জন্য, আমরা একটি সিরিজ "স্ট্রেস টেস্ট" পরিচালনা করি। ধারণাটি একই: আমরা এমন অবস্থা তৈরি করি যেখানে প্রভাবটি ঘটে না। Here are some key checks: Placebo Tests Placebo পরীক্ষা This test checks the uniqueness of your effect compared to other objects within your dataset. উদাহরণস্বরূপ, সিন্থেটিক নিয়ন্ত্রণ পদ্ধতিটি গ্রহণ করুন. আমরা একটি "নিরাপদ" বিষয় (যা প্রদর্শিত হয়েছিল) এবং একটি নিয়ন্ত্রণ গ্রুপে অনেক "নিরাপদ" বিষয় (নিরাপদ নেই) আছে. আমরা আবার প্রত্যাখ্যান করি যে নিয়ন্ত্রণ গ্রুপের প্রতিটি বস্তু প্রভাবিত হয়েছে, এবং তাদের জন্য আমাদের "নিরাপদ নিয়ন্ত্রণ" নির্মাণ করি। How to do: একটি আদর্শ পৃথিবীতে, এই সমস্ত "ভুয়া" পরীক্ষার জন্য, আমরা আমাদের বাস্তব ক্ষেত্রে হিসাবে একটি শক্তিশালী প্রভাব দেখতে হবে না। What to expect: This test shows whether our result is unique. If our method finds significant effects in subjects where nothing happened, it is also likely that our main finding is just noise or a statistical anomaly, not a real effect. Why it's needed: In-time Placebo We artificially shift the date of our intervention into the past. For example, if the actual ad campaign started on May 1st, we “tell” the model that it started on April 1st when nothing actually happened. How to do it: The model should not detect any meaningful effect on this fake date. What to expect: এটি নিশ্চিত করতে সাহায্য করে যে মডেলটি আমাদের ইভেন্টের প্রতিক্রিয়া দেয় এবং ডেটা বা কিছু মৌসুমী প্রবণতাগুলির রূপান্তরিত পরিবর্তনগুলি নয় যা আমাদের হস্তক্ষেপের তারিখে দুর্ভাগ্যজনকভাবে ঘটে। Why: In-space Placebo এই টেস্টটি আপনার মডেলের নির্ভরযোগ্যতা পরীক্ষা করে, এটি সম্পূর্ণরূপে স্বাধীন ডেটাতে ভুয়া ইতিবাচক উত্পাদন করার প্রবণতা পরীক্ষা করে। যদি আপনার টার্গেট ডেটাগুলির মতো ডেটা থাকে তবে এটি অবশ্যই হস্তক্ষেপ দ্বারা প্রভাবিত হয় না, তবে এটি ব্যবহার করুন. উদাহরণস্বরূপ, আপনি এক অঞ্চলে একটি প্রচার চালু করেছেন. অন্য অঞ্চলের বিক্রয় ডেটা নিন যেখানে প্রচারটি ঘটেনি এবং আপনার মডেলটি একই বাস্তব হস্তক্ষেপ তারিখের সাথে প্রয়োগ করুন। How to do: মডেলটি এই "নিরাপত্তা" ডেটা জন্য কোন প্রভাব খুঁজে পাবে না। What to expect: যদি আপনার মডেলটি যেখানেই প্রয়োগ করে সেখানেই প্রভাব খুঁজে পায়, তাহলে আপনি টার্গেট সিরিজের উপর তার ফলাফলগুলি বিশ্বাস করতে পারবেন না. এই পরীক্ষাটি দেখায় যে মডেলটি কোনও জায়গা থেকে প্রভাব তৈরি করে "হ্যালুসিনেশন" করে না। Why: Decision Map (Instead of conclusions) If you've read (or scrolled) all the way down here, I guess you don't need another nice outline of why it's so important to measure the results of AI/ML implementation of a feature. এটি আপনার জন্য অনেক বেশি মূল্যবান যদি আপনি একটি দরকারী সিদ্ধান্ত নেওয়ার সরঞ্জাম পেতে পারেন. এবং আমার একটি আছে. ফ্রেমটি এভাবেই দেখতে। Measure through AB test. অ্যাব পরীক্ষার ফলাফল, সত্যিই এখনও RCE প্রয়োগ করার জন্য বিভিন্ন split ইউনিট এবং clusters সম্পর্কে চিন্তা করুন। নিম্নলিখিত একটি প্রতারণা পদ্ধতি নির্বাচন সম্পর্কে একটি চিহ্নিত পদ্ধতি দ্রুত খুঁজে পেতে কোনটি আপনার জন্য সঠিক। Go back to the part of the article where I explain it in layman's terms. এরপর, এই পদ্ধতি সম্পর্কে ম্যানুয়াল এবং গাইডগুলিতে যান Helpful materials: এই নিবন্ধটি লিখতে ব্যবহৃত এবং বিষয়টিতে গভীরভাবে ডুবে যাওয়ার জন্য উচ্চতরভাবে সুপারিশ করা হয়েছে AI / ML সমাধান তৈরি করার পুরো চক্রটি বুঝুন পাশ এবং মেশিন শিক্ষা সিস্টেম ডিজাইন ভ্যালেরি বাবুশকিন আর্সেনি ক্রভেনকো RCE এর পৃথিবীতে পথ by Ron Kohavi, Diane Tang, Ya Xu বিশ্বাসযোগ্য অনলাইন নিয়ন্ত্রিত পরীক্ষা কোথায় কারণ অনুমান বিস্তারিত বুঝতে হবে: মিজগেল হার্নান এবং জেমি রোবিনস “কৌশলগত অনুমান: কি যদি” সাহসী ও সত্যিকারের জন্য কারণ অনুমান কারণ ML বই