بائیں میز Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 7 A / B ٹیسٹ Vinted ایک آن لائن مارکیٹ ہے جس میں کپڑے اور لوازمات ہیں. 2008 میں قائم ہونے کے بعد سے، اس نے 75 ملین سے زائد صارفین کو تیزی سے یورپ میں سب سے بڑا دوسرا ہاتھ کپڑے مارکیٹ میں اضافہ کرنے کے لئے حاصل کیا ہے. اس طرح کے صارفین کی ایک بڑی تعداد کے ساتھ، یہ اپنے صارفین کے لئے بہترین تجربہ فراہم کرنے کے لئے ایک ہی وقت میں A / B ٹیسٹنگ کرتا ہے. اس سے Vinted کو محفوظ ٹیسٹنگ کی کارکردگی کا اندازہ کرنے کے لئے ایک مثالی ماحول بناتا ہے. اس باب میں، ہم Vinted کے تجربے کے اعداد و شمار میں محفوظ ٹیسٹنگ اور محفوظ تناسب ٹیسٹنگ کو لاگو کرتے ہیں. 7.1 Vinted A / B ٹیسٹ کے لئے محفوظ ٹیسٹ مارچ 2023 سے جون 2023 تک کے 162 Vinted تجربات کے لئے میٹرک اس تجزیہ کے لئے تجزیہ کیا جائے گا. ہم 143 میٹرک کے مجموعی روزانہ snapshots کو جمع کرتے ہیں، جس میں دونوں کنٹرول اور ٹیسٹ گروپوں کے لئے میٹرک کے اوسط، معیاری توازن، اور نمونہ سائز شامل ہیں. متعدد متغیر کے ساتھ تجربات کو ایک ہی کنٹرول گروپ کے ساتھ منفرد ٹیسٹ کے طور پر علاج کیا جاتا ہے. محفوظ ٹیسٹ اور کلاسک ٹیسٹ اس ڈیٹا سیٹ میں تمام 42115 تجربہ / میٹرک مجموعے میں موازنہ کیا گیا تھا. ٹیبل 7 α = 0.05 کی سطح پر اعداد و شمار کے ٹیسٹ کے نتائج دکھاتا ہے. ٹیبل 7 کے نتائج سے پتہ چلتا ہے کہ محفوظ ٹیسٹ اور کلاسیکی ٹیسٹ کے نتیجے میں میٹرک کی اہمیت کے بارے میں ایک ہی نقطہ نظر تک پہنچتا ہے. 379 صورتوں میں جہاں محفوظ ٹیسٹ ایک H0 کو رد کرتا ہے کہ ٹیسٹ نہیں ہے وہ نمائشوں کے ساتھ مطابقت رکھتا ہے جس میں یہ ظاہر ہوتا ہے کہ ٹیسٹ ہمیشہ ایک اہم نتائج کے بارے میں اتفاق نہیں کرتے ہیں. 1645 صورتوں کی بڑی تعداد میں ٹیسٹ H0 کو رد کرتا ہے جبکہ محفوظ ٹیسٹ نہیں ہے. محفوظ ٹیسٹ زیادہ حساس ہے جب یہ ڈیٹا سلسلہ طور پر دیکھتا ہے، H0 کو رد کرنے کے لئے زیادہ مواقع فراہم کرتا ہے. یہ ڈیٹا ایک روزانہ سطح پر جمع کیا جاتا ہے، جو مؤثر طریقے سے ٹیسٹ کی طاقت کو کم کرتا ہے. زیادہ گہری ڈیٹا کے ساتھ، محفوظ ٹیسٹ اس گروپ کے سلسلے میں ایک ہی سیٹ کے تجربات پر مخلوط تصادفی نسبت ٹیسٹ (mSPRT) کیا گیا تھا۔ نتائج ٹیبل 8 میں پایا جا سکتا ہے. ٹیبل 8 کے نتائج کو ٹیبل 7 کے ساتھ موازنہ کرتے ہوئے ظاہر ہوتا ہے کہ mSPRT قابل قدر طور پر کم ہے اگرچہ یہ حصہ طور پر گروپ کے سلسلے کی ترتیبات کی وجہ سے ہے، ہمارے نمونہ کے نتائج سے پتہ چلتا ہے کہ mSPRT صرف محفوظ t ٹیسٹ سے کم حساس اعداد و شمار کا ٹیسٹ ہے. محفوظ t ٹیسٹ کے نتائج پر واپس جانے کے لئے، یہ پایا گیا کہ محفوظ t ٹیسٹ کچھ میٹرک پر دوسروں کے مقابلے میں بہت بہتر کام کرتا ہے. یہاں، ہم مزید معلوم کرنے کے لئے میٹرک کا تجزیہ کریں گے کہ یہ کیوں ہے. ایک میٹرک پر محفوظ t ٹیسٹ کی کارکردگی کو شمار کرنے کے لئے، ہم اس کے فیصلے کو کلاسیکی t ٹیسٹ کے ساتھ موازنہ کرنے کے لئے phi کے معیار کا استعمال کرتے ہیں. phi کا معیار، بھی متیو کے تنازعات کے معیار کے طور پر جانا جاتا ہے، بائنری متغیروں کے تنازعات کا تعین کرنے کے لئے استعمال کیا جاتا ہے. ہر میٹرک کے مقصد کو سمجھنے کے لئے، وینٹڈ کے A / B ٹیسٹ کے فریم ورک میں اس کے استعمال کے معاملے کا ایک متن بیان ہے. تفصیل میں ہر موضوع A/B ٹیسٹنگ کے آغاز میں، یہ ذکر کیا گیا تھا کہ کچھ میٹرک کو سمجھنے کے لئے بہت طویل وقت لگتا ہے. اس کا مطلب یہ ہے کہ اعداد و شمار ٹیسٹ کے دنوں کے دوران مستقل نہیں ہوں گے اور اسی طرح تقسیم نہیں ہوں گے. ٹیبل 9 کا مطالعہ کرتے ہوئے، ہم دیکھتے ہیں کہ محفوظ ٹیسٹ کے کارکردگی اور تلاش، سیشن، اور پرنٹنگ کے ساتھ میٹرک پر کلاسیکی ٹیسٹ کے درمیان ایک اعلی درجہ بندی ہے. یہ تمام مقداریں ہیں جو ٹیسٹ کے مقابلے میں ایک مختصر وقت ہے اور میٹرک کی وصولی کے درمیان ہے. بدقسمتی سے، محفوظ ٹیسٹ ٹرانسمیشن اور آرڈر کو منسوخ کرنے والے طویل مدتی میٹرک پر اچھی طرح کام نہیں کرتا. 7.2 sample ratio mismatch کے لئے محفوظ مساوات کا ٹیسٹ ٹیسٹ کے اثرات کا تعین کرنے کے لئے، وینٹڈ سے 195 تجربات کی تقسیمات کا تجزیہ کیا جاتا ہے. ٹیسٹ کے اثرات کے دنوں کے snapshots پر لاگو کیا جاتا ہے، جبکہ ٹیسٹ کے آخری دن میں ٹیسٹ کے لئے χ2 ٹیسٹ کا استعمال کیا جاتا ہے. SRM کے لئے، غلط مثبتوں کی تعداد کو محدود کرنے کے لئے α = 0.01 کی اہمیت کی سطح کا استعمال کیا جاتا ہے. بیٹا پچھلے اجزاء α1، β1 = 1000 کا استعمال کیا جاتا ہے. ٹیسٹ کے اثرات کے مقابلے کے لئے، ٹیسٹ کے اثرات اور χ 2 ٹیسٹ میں دیکھ سکتے ہیں. مصنف : ١ - ڈینیل بیزلی Author: ١ - ڈینیل بیزلی یہ دستاویز ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL لائسنس کے تحت archiv پر دستیاب ہے. یہ دستاویز ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL لائسنس کے تحت archiv پر دستیاب ہے. دستیاب ہے Archive