Το τραπέζι της Αριστεράς Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 7 Α/Β δοκιμές Η Vinted είναι μια διαδικτυακή αγορά για ρούχα και αξεσουάρ. Από την ίδρυσή της το 2008, έχει κερδίσει πάνω από 75 εκατομμύρια χρήστες για να εξελιχθεί γρήγορα στην μεγαλύτερη αγορά μεταχειρισμένων ρούχων της Ευρώπης. Με μια τέτοια αφθονία χρηστών, διεξάγει έναν μεγάλο αριθμό δοκιμών A/B ταυτόχρονα για να προσφέρει την καλύτερη εμπειρία στους χρήστες της. Αυτό καθιστά την Vinted ένα ιδανικό περιβάλλον για την αξιολόγηση της αποτελεσματικότητας των ασφαλών δοκιμών. Σε αυτή την ενότητα, εφαρμόζουμε την ασφαλή δοκιμή t και τις δοκιμές ασφαλών αναλογιών στα πειραματικά δεδομένα της Vinted. Η ασφαλή δοκιμή t θα συγκριθεί με την κλασική δοκιμή t για 7.1 Ασφαλής δοκιμή t για δοκιμές Vinted A/B Οι μετρήσεις για 162 πειράματα Vinted από τον Μάρτιο του 2023 έως τον Ιούνιο του 2023 θα αξιολογηθούν για αυτή την ανάλυση. Συγκεντρώσαμε σωρευτικά καθημερινά στιγμιότυπα 143 μετρήσεων, που περιέχουν τον μέσο όρο της μετρήσεως, την τυποποιημένη απόκλιση και το μέγεθος του δείγματος τόσο για τις ομάδες ελέγχου όσο και για τις ομάδες δοκιμών. Τα πειράματα με πολλαπλές παραλλαγές αντιμετωπίζονται ως ξεχωριστές δοκιμές με την ίδια ομάδα ελέγχου. Τα αποτελέσματα του Πίνακα 7 δείχνουν ότι η ασφαλή δοκιμή t και η κλασική δοκιμή t καταλήγουν σταθερά στο ίδιο συμπέρασμα σχετικά με τη σημασία των μετρήσεων. Οι 379 περιπτώσεις στις οποίες η ασφαλή δοκιμή t απορρίπτει ένα H0 ότι η δοκιμή t δεν είναι συνεπείς με τις προσομοιώσεις που αποδεικνύουν ότι οι δοκιμές δεν συμφωνούν πάντα για το τι συνιστά σημαντικό αποτέλεσμα. Ο υψηλός αριθμός των 1645 περιπτώσεων στις οποίες η δοκιμή t απορρίπτει το H0 ενώ η ασφαλή δοκιμή t δεν είναι πιο σημαντική. Η ασφαλή δοκιμή t είναι πιο ευαίσθητη όταν παρατηρεί δεδομένα διαδοχικά, δίνοντας περισσότερες ευκαιρίες να απορρίψει το H0. Η δοκιμή της διαδοχικής αναλογίας πιθανότητας μείγματος (mSPRT) διεξήχθη με το ίδιο σύνολο πειραμάτων. τα αποτελέσματα μπορούν να βρεθούν στον Πίνακα 8. Η σύγκριση των αποτελεσμάτων του Πίνακα 8 με τον Πίνακα 7 δείχνει ότι η mSPRT είναι σημαντικά μικρότερη Αν και αυτό οφείλεται εν μέρει στην ομαδική ακολουθία, τα αποτελέσματα της προσομοίωσης δείχνουν ότι το mSPRT είναι απλώς μια λιγότερο ευαίσθητη στατιστική δοκιμή από την ασφαλή δοκιμή t. Επιστρέφοντας στα αποτελέσματα της ασφαλούς δοκιμής t, διαπιστώθηκε ότι η ασφαλή δοκιμή t εκτέλεσε σημαντικά καλύτερα σε ορισμένες μετρήσεις από άλλες. Εδώ, θα αναλύσουμε περαιτέρω τις μετρήσεις για να καταλάβουμε γιατί συμβαίνει αυτό. Για να ποσοτικοποιήσουμε την απόδοση της ασφαλούς δοκιμής t σε μια μετρία, χρησιμοποιούμε τον συντελεστή phi για να συγκρίνουμε τις αποφάσεις του με την κλασική δοκιμή t. Ο συντελεστής phi, γνωστός και ως συντελεστής συσχέτισης του Matthews, χρησιμοποιείται για να προσδιοριστεί η συσχέτιση των δυαδικών μεταβλητών. Για να κατανοήσουμε τον σκοπό κάθε μετρήματος, υπάρχει μια περιγραφή κειμένου της περι Στην εισαγωγή της δοκιμής A/B, αναφέρθηκε ότι ορισμένες μετρήσεις χρειάζονται πολύ περισσότερο χρόνο για να πραγματοποιηθούν. Αυτό σημαίνει ότι τα δεδομένα δεν θα είναι ανεξάρτητα και ομοιόμορφα κατανεμημένα στις ημέρες της δοκιμής. Εξετάζοντας τον Πίνακα 9, βλέπουμε μια υψηλή συσχέτιση μεταξύ της απόδοσης της ασφαλούς δοκιμής t και της κλασικής δοκιμής t για μετρήσεις που περιλαμβάνουν αναζητήσεις, συνεδρίες και εντυπώσεις. Αυτές είναι όλες οι ποσότητες που έχουν σύντομο χρονικό διάστημα μεταξύ της έκθεσης στη δοκιμή και της πραγματοποίησης της μετρήσεως. Αντίθετα, η ασφαλή δοκιμή t δεν εκτελεί καλά σε μακροπρόθεσμες μετρήσεις που περιλαμβάνουν συναλλαγές και ακυρώ 7.2 Ασφαλής δοκιμή αναλογίας για μη αντιστοιχία δείγματος αναλογίας Για να προσδιοριστεί η αποτελεσματικότητα της δοκιμής της ασφαλούς αναλογίας και της δοκιμής χ2 για την ανίχνευση της αναντιστοιχίας της αναλογίας δείγματος (SRM), αναλύονται οι διανομές των 195 πειραμάτων από το Vinted. Η ασφαλή δοκιμή εφαρμόζεται σε καθημερινές στιγμιότυπες των διανομών, ενώ η δοκιμή χ2 εφαρμόζεται στη διανομή την τελευταία ημέρα του πειράματος. Για το SRM, ένα επίπεδο σημασίας α = 0,01 χρησιμοποιείται για να περιοριστεί ο αριθμός των ψευδών θετικών. Για τη δοκιμή της ασφαλούς αναλογίας χρησιμοποιούνται βήτα προηγούμενες τιμές α1, β1 = 1000. Η σύγκριση των αποτελεσμάτων μεταξύ της δοκιμής της ασφαλούς αναλογίας και της δοκιμής Συγγραφέας : Ο Ντάνιελ Μπίσλεϊ Author: Ο Ντάνιελ Μπίσλεϊ Αυτό το έγγραφο είναι διαθέσιμο στο αρχείο με άδεια ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Αυτό το έγγραφο είναι διαθέσιμο στο αρχείο με άδεια ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Διαθέσιμο στα Αρχεία