İstənilən eksperiment sürətli nəticələr və metrik həssaslıq arasında uyğunlaşmanı nəzərdə tutur. Seçilmiş metrik dispersiya baxımından genişdirsə, təcrübənin nəticələrinin dəqiq olmasını təmin etmək üçün uzun müddət gözləməliyik. Analitiklərə çox vaxt və ya metrik həssaslıq itirmədən təcrübələrini artırmağa kömək etmək üçün bir üsula nəzər salaq.  Problemin Tərkibi  Tutaq ki, əsas metrik olaraq sessiya uzunluğu olan yeni sıralama alqoritmini sınaqdan keçirmək üçün standart təcrübə aparırıq. Əlavə olaraq nəzərə alın ki, auditoriyamızı təxminən üç qrupa bölmək olar: 1 milyon yeniyetmə, 2 milyon 18-45 yaşlı istifadəçi və 45 və yuxarı yaşda olan 3 milyon istifadəçi. Yeni sıralama alqoritminə cavab bu auditoriya qrupları arasında əhəmiyyətli dərəcədə fərqlənəcək. Bu geniş variasiya metrikanın həssaslığını azaldır.  Başqa sözlə desək, əhalini üç təbəqəyə bölmək olar, bunlar aşağıda təsvir edilmişdir:   Deyək ki, hər bir komponentin normal paylanması var. Sonra əhali üçün əsas metrik də normal paylanmaya malikdir.    Stratifikasiya üsulu  Biz istifadəçilərimiz arasındakı fərqləri nəzərə almadan klassik eksperiment dizaynında   . Beləliklə, biz nümunəni aşağıdakı gözlənilən dəyər və dispersiya ilə nəzərdən keçiririk.  bütün istifadəçiləri təsadüfi olaraq əhalidən ayırırıq  Başqa bir yol, ümumi populyasiyada təbəqənin   .  ağırlığına görə hər təbəqənin içərisində təsadüfi bölünmədir  Bu halda gözlənilən dəyər və fərq aşağıdakılardır.   Gözlənilən dəyər ilk seçimdə olduğu kimidir. Bununla belə, fərq daha azdır, bu da daha yüksək metrik həssaslığa zəmanət verir.  İndi   nəzər salaq. İstifadəçiləri xüsusi çəkilərlə hər bir təbəqəyə təsadüfi şəkildə bölməyi təklif edirlər.  Neymanın metoduna  Beləliklə, gözlənilən dəyər və dispersiya bu halda aşağıdakılara bərabərdir.   Gözlənilən dəyər birinci halda asimptotik olaraq gözlənilən dəyərə bərabərdir. Bununla belə, fərq daha azdır.   Empirik Test  Bu metodun effektivliyini nəzəri cəhətdən sübut etdik. Nümunələri simulyasiya edək və təbəqələşmə metodunu empirik şəkildə sınaqdan keçirək.  Üç halı nəzərdən keçirək:  bərabər vasitələrə və fərqlərə malik bütün təbəqələr,  müxtəlif vasitələrə və bərabər fərqlərə malik bütün təbəqələr,  bərabər vasitələrə və müxtəlif dispersiyaya malik bütün təbəqələr.  Biz bütün hallarda hər üç metodu tətbiq edəcəyik və onları müqayisə etmək üçün histoqram və qutu qrafiki çəkəcəyik.  Kodun hazırlanması  Əvvəlcə Python-da üç təbəqədən ibarət ümumi populyasiyamızı simulyasiya edən bir sinif yaradaq.   class GeneralPopulation: def __init__(self, means: [float], stds: [float], sizes: [int], random_state: int = 15 ): """ Initializes our General Population and saves the given distributions :param means: List of expectations for normal distributions :param stds: List of standard deviations for normal distributions :param sizes: How many objects will be in each strata :param random_state: Parameter fixing randomness. Needed so that when conducting experiment repeatedly with the same input parameters, the results remained the same """ self.strats = [st.norm(mean, std) for mean, std in zip(means, stds)] self._sample(sizes) self.random_state = random_state def _sample(self, sizes): """Creates a general population sample as a mixture of strata :param sizes: List with sample sizes of the corresponding normal distributions """ self.strats_samples = [rv.rvs(size) for rv, size in zip(self.strats, sizes)] self.general_samples = np.hstack(self.strats_samples) self.N = self.general_samples.shape[0] # number of strata self.count_strats = len(sizes) # ratios for every strata in GP self.ws = [size/self.N for size in sizes] # ME and Std for GP self.m = np.mean(self.general_samples) self.sigma = np.std(self.general_samples) # ME and std for all strata self.ms = [np.mean(strat_sample) for strat_sample in self.strats_samples] self.sigmas = [np.std(strat_sample) for strat_sample in self.strats_samples]  Sonra nəzəri hissədə təsvir olunan üç seçmə metodu üçün funksiyaları əlavə edək.  def random_subsampling(self, size): """Creates a random subset of the entire population :param sizes: subsample size """ rc = np.random.choice(self.general_samples, size=size) return rc def proportional_subsampling(self, size): """Creates a subsample with the number of elements, proportional shares of strata :param sizes: subsample size """ self.strats_size_proport = [int(np.floor(size*w)) for w in self.ws] rc = [] for k in range(len(self.strats_size_proport)): rc.append(np.random.choice(self.strats_samples[k], size=self.strats_size_proport[k])) return rc def optimal_subsampling(self, size): """Creates a subsample with the optimal number of elements relative to strata :param sizes: subsample size """ sum_denom = 0 for k in range(self.count_strats): sum_denom += self.ws[k] * self.sigmas[k] self.strats_size_optimal = [int(np.floor((size*w*sigma)/sum_denom)) for w, sigma in zip(self.ws, self.sigmas)] if 0 in self.strats_size_optimal: raise ValueError('Strats size is 0, please change variance of smallest strat!') rc = [] for k in range(len(self.strats_size_optimal)): rc.append(np.random.choice(self.strats_samples[k], size=self.strats_size_optimal[k])) return rc  Həmçinin, empirik hissə üçün bizə həmişə təcrübə prosesini simulyasiya etmək funksiyası lazımdır.  def run_experiments(self, n_sub, subsampling_method, n_experiments=1000): """Conducts a series of experiments and saves the results :param n_sub: size of sample :param subsampling_method: method for creating a subsample :param n_experiments: number of experiment starts """ means_s = [] if(len(self.general_samples)<100): n_sub = 20 if(subsampling_method == 'random_subsampling'): for n in range(n_experiments): rc = self.random_subsampling(n_sub) mean = rc.sum()/len(rc) means_s.append(mean) else: for n in range(n_experiments): if(subsampling_method == 'proportional_subsampling'): rc = self.proportional_subsampling(n_sub) elif(subsampling_method == 'optimal_subsampling'): rc = self.optimal_subsampling(n_sub) strats_mean = [] for k in range(len(rc)): strats_mean.append(sum(rc[k])/len(rc[k])) # Mean for a mixture means_s.append(sum([w_k*mean_k for w_k, mean_k in zip(self.ws, strats_mean)])) return means_s  Simulyasiya nəticələri  Bütün təbəqələrimizin eyni dəyərlərə və fərqlərə malik olduğu ümumi əhaliyə nəzər salsaq, hər üç metodun nəticələrinin az-çox bərabər olacağı gözlənilir.   Müxtəlif vasitələr və bərabər fərqlər daha maraqlı nəticələr əldə etdi. Stratifikasiyadan istifadə fərqi kəskin şəkildə azaldır.   Bərabər orta və fərqli dispersiyaya malik hallarda Neyman metodunda dispersiya azalmasını görürük.    Nəticə  İndi siz auditoriyanızı qruplaşdırsanız və onları xüsusi çəkilərlə hər bir çoxluqda təsadüfi olaraq texniki olaraq bölsəniz, metrik fərqi azaltmaq və təcrübəni artırmaq üçün təbəqələşmə metodunu tətbiq edə bilərsiniz!

This story contains new, firsthand information uncovered by the writer.

Empirical

Read My Stories

Bu audio hekayənin orijinal dilində hazırlanmışdır!

Təcrübə Təhlili üçün Stratifikasiya Metodundan istifadə

About Author

ŞƏRHLƏR

ETİKET ASIN

BU MƏQALƏ TƏQDİM EDİLMİŞDİR

Related Stories

Women in Tech: Azize Sultan Shares Her Inspiring Journey from Architecture to Tech Leadership

Optimizing Operations for Real Estate Investors - Interview with Startups of the Year Nominee, Azibo

How Azarus's Technology is Transforming Viewer Engagement on Stream

Women in Tech: Azize Sultan Shares Her Inspiring Journey from Architecture to Tech Leadership

Optimizing Operations for Real Estate Investors - Interview with Startups of the Year Nominee, Azibo

How Azarus's Technology is Transforming Viewer Engagement on Stream

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps