Každý experiment zahŕňa kompromis medzi rýchlymi výsledkami a metrickou citlivosťou. Ak je zvolená metrika široká, pokiaľ ide o rozptyl, musíme dlho čakať, aby sme sa uistili, že výsledky experimentu sú presné. Uvažujme o jednej metóde, ktorá pomôže analytikom zintenzívniť experimenty bez straty príliš veľa času alebo metrickej citlivosti.  Formulácia problému  Predpokladajme, že vykonáme štandardný experiment na testovanie nového hodnotiaceho algoritmu s dĺžkou relácie ako primárnou metrikou. Okrem toho si uvedomte, že naše publikum možno zhruba rozdeliť do troch skupín: 1 milión tínedžerov, 2 milióny používateľov vo veku 18 – 45 rokov a 3 milióny používateľov vo veku 45 a viac rokov. Reakcia na nový algoritmus hodnotenia by sa medzi týmito skupinami publika výrazne líšila. Táto široká variácia znižuje citlivosť metriky.  Inými slovami, obyvateľstvo možno rozdeliť do troch vrstiev, ktoré sú opísané nasledovne:   Povedzme, že každý komponent má normálne rozdelenie. Hlavná metrika pre populáciu má potom tiež normálne rozdelenie.    Stratifikačná metóda    z populácie v klasickom dizajne experimentu bez toho, aby sme zohľadnili rozdiely medzi našimi používateľmi. Preto uvažujeme vzorku s nasledujúcou očakávanou hodnotou a rozptylom.  Náhodne rozdeľujeme všetkých používateľov  Ďalším spôsobom je   vrstvy vo všeobecnej populácii.  náhodné rozdelenie vnútri každej vrstvy podľa váhy  V tomto prípade očakávaná hodnota a rozptyl sú nasledujúce.   Očakávaná hodnota je rovnaká ako pri prvom výbere. Rozptyl je však menší, čo zaručuje vyššiu metrickú citlivosť.  Teraz sa pozrime na   . Navrhujú rozdeliť používateľov náhodne v rámci každej vrstvy so špecifickými váhami.  Neymanovu metódu  Takže očakávaná hodnota a rozptyl sa v tomto prípade rovnajú nasledujúcim.   Očakávaná hodnota sa rovná očakávanej hodnote v prvom prípade asymptoticky. Rozptyl je však oveľa menší.   Empirické testovanie  Teoreticky sme dokázali účinnosť tejto metódy. Simulujme vzorky a empiricky otestujme metódu stratifikácie.  Zoberme si tri prípady:  všetky vrstvy s rovnakými prostriedkami a odchýlkami,  všetky vrstvy s rôznymi prostriedkami a rovnakými odchýlkami,  všetky vrstvy s rovnakými prostriedkami a rôznymi rozptylmi.  Použijeme všetky tri metódy vo všetkých prípadoch a vykreslíme histogram a boxplot na ich porovnanie.  Príprava kódu  Najprv vytvorte triedu v Pythone, ktorá simuluje našu všeobecnú populáciu pozostávajúcu z troch vrstiev.   class GeneralPopulation: def __init__(self, means: [float], stds: [float], sizes: [int], random_state: int = 15 ): """ Initializes our General Population and saves the given distributions :param means: List of expectations for normal distributions :param stds: List of standard deviations for normal distributions :param sizes: How many objects will be in each strata :param random_state: Parameter fixing randomness. Needed so that when conducting experiment repeatedly with the same input parameters, the results remained the same """ self.strats = [st.norm(mean, std) for mean, std in zip(means, stds)] self._sample(sizes) self.random_state = random_state def _sample(self, sizes): """Creates a general population sample as a mixture of strata :param sizes: List with sample sizes of the corresponding normal distributions """ self.strats_samples = [rv.rvs(size) for rv, size in zip(self.strats, sizes)] self.general_samples = np.hstack(self.strats_samples) self.N = self.general_samples.shape[0] # number of strata self.count_strats = len(sizes) # ratios for every strata in GP self.ws = [size/self.N for size in sizes] # ME and Std for GP self.m = np.mean(self.general_samples) self.sigma = np.std(self.general_samples) # ME and std for all strata self.ms = [np.mean(strat_sample) for strat_sample in self.strats_samples] self.sigmas = [np.std(strat_sample) for strat_sample in self.strats_samples]  Potom pridajme funkcie pre tri metódy vzorkovania opísané v teoretickej časti.  def random_subsampling(self, size): """Creates a random subset of the entire population :param sizes: subsample size """ rc = np.random.choice(self.general_samples, size=size) return rc def proportional_subsampling(self, size): """Creates a subsample with the number of elements, proportional shares of strata :param sizes: subsample size """ self.strats_size_proport = [int(np.floor(size*w)) for w in self.ws] rc = [] for k in range(len(self.strats_size_proport)): rc.append(np.random.choice(self.strats_samples[k], size=self.strats_size_proport[k])) return rc def optimal_subsampling(self, size): """Creates a subsample with the optimal number of elements relative to strata :param sizes: subsample size """ sum_denom = 0 for k in range(self.count_strats): sum_denom += self.ws[k] * self.sigmas[k] self.strats_size_optimal = [int(np.floor((size*w*sigma)/sum_denom)) for w, sigma in zip(self.ws, self.sigmas)] if 0 in self.strats_size_optimal: raise ValueError('Strats size is 0, please change variance of smallest strat!') rc = [] for k in range(len(self.strats_size_optimal)): rc.append(np.random.choice(self.strats_samples[k], size=self.strats_size_optimal[k])) return rc  Pre empirickú časť tiež vždy potrebujeme funkciu na simuláciu procesu experimentu.  def run_experiments(self, n_sub, subsampling_method, n_experiments=1000): """Conducts a series of experiments and saves the results :param n_sub: size of sample :param subsampling_method: method for creating a subsample :param n_experiments: number of experiment starts """ means_s = [] if(len(self.general_samples)<100): n_sub = 20 if(subsampling_method == 'random_subsampling'): for n in range(n_experiments): rc = self.random_subsampling(n_sub) mean = rc.sum()/len(rc) means_s.append(mean) else: for n in range(n_experiments): if(subsampling_method == 'proportional_subsampling'): rc = self.proportional_subsampling(n_sub) elif(subsampling_method == 'optimal_subsampling'): rc = self.optimal_subsampling(n_sub) strats_mean = [] for k in range(len(rc)): strats_mean.append(sum(rc[k])/len(rc[k])) # Mean for a mixture means_s.append(sum([w_k*mean_k for w_k, mean_k in zip(self.ws, strats_mean)])) return means_s  Výsledky simulácie  Ak sa pozrieme na všeobecnú populáciu, kde všetky naše vrstvy majú rovnaké hodnoty a rozptyly, očakáva sa, že výsledky všetkých troch metód budú viac-menej rovnaké.   Rôzne priemery a rovnaké rozdiely dosiahli vzrušujúcejšie výsledky. Použitie stratifikácie dramaticky znižuje rozptyl.   V prípadoch s rovnakými priemermi a rôznymi rozptylmi vidíme v Neymanovej metóde zníženie rozptylu.    Záver  Teraz môžete použiť metódu stratifikácie na zníženie metrických rozptylov a zintenzívnenie experimentu, ak zoskupíte svoje publikum a technicky ho náhodne rozdelíte do každého zoskupenia so špecifickými váhami!

This story contains new, firsthand information uncovered by the writer.

Empirical

Read My Stories

Tento zvuk je vyrobený v pôvodnom jazyku príbehu!

Použitie stratifikačnej metódy na experimentálnu analýzu

About Author

KOMENTÁRE

ZAVISTE ŠTÍTKY

TENTO ČLÁNOK BOL PREDSTAVENÝ V

Related Stories

Code Smell 298 - How to Fix Microsoft Windows Time Waste

16 Best Sklearn Datasets for Building Machine Learning Models

Behavior of a shapely Spider

Mutmut: a Python mutation testing system

Code Smell 298 - How to Fix Microsoft Windows Time Waste

16 Best Sklearn Datasets for Building Machine Learning Models

Behavior of a shapely Spider

Mutmut: a Python mutation testing system

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps