எந்தவொரு பரிசோதனையும் விரைவான முடிவுகள் மற்றும் மெட்ரிக் உணர்திறன் ஆகியவற்றுக்கு இடையேயான பரிமாற்றத்தை உள்ளடக்கியது. தேர்ந்தெடுக்கப்பட்ட அளவீடு மாறுபாட்டின் அடிப்படையில் பரந்ததாக இருந்தால், பரிசோதனையின் முடிவுகள் துல்லியமானவை என்பதை உறுதிப்படுத்த நாம் நீண்ட நேரம் காத்திருக்க வேண்டும். அதிக நேரம் அல்லது மெட்ரிக் உணர்திறனை இழக்காமல், ஆய்வாளர்கள் தங்கள் சோதனைகளை அதிகரிக்க உதவும் ஒரு முறையைப் பார்ப்போம்.  பிரச்சனை உருவாக்கம்  புதிய தரவரிசை அல்காரிதத்தை சோதிக்க ஒரு நிலையான பரிசோதனையை நடத்துகிறோம் என்று வைத்துக்கொள்வோம், அமர்வு நீளத்தை முதன்மை அளவீடாகக் கொண்டு. கூடுதலாக, எங்கள் பார்வையாளர்களை தோராயமாக மூன்று குழுக்களாக வகைப்படுத்தலாம்: 1 மில்லியன் இளைஞர்கள், 18-45 வயதுடைய 2 மில்லியன் பயனர்கள் மற்றும் 45 மற்றும் அதற்கு மேற்பட்ட வயதுடைய 3 மில்லியன் பயனர்கள். புதிய தரவரிசை அல்காரிதத்திற்கான பதில் இந்த பார்வையாளர் குழுக்களிடையே கணிசமாக வேறுபடும். இந்த பரந்த மாறுபாடு அளவீட்டின் உணர்திறனைக் குறைக்கிறது.  வேறு வார்த்தைகளில் கூறுவதானால், மக்கள்தொகையை மூன்று அடுக்குகளாகப் பிரிக்கலாம், பின்வருவனவற்றில் விவரிக்கப்பட்டுள்ளது:   ஒவ்வொரு கூறுக்கும் ஒரு சாதாரண விநியோகம் உள்ளது என்று சொல்லலாம். பின்னர், மக்கள்தொகைக்கான முக்கிய மெட்ரிக் ஒரு சாதாரண விநியோகத்தைக் கொண்டுள்ளது.    அடுக்கு முறை  எங்கள் பயனர்களுக்கு இடையே உள்ள வேறுபாடுகளைக் கருத்தில் கொள்ளாமல், கிளாசிக்கல் பரிசோதனை வடிவமைப்பில் மக்கள்தொகையில் இருந்து   . எனவே, பின்வரும் எதிர்பார்க்கப்படும் மதிப்பு மற்றும் மாறுபாட்டுடன் மாதிரியை நாங்கள் கருதுகிறோம்.  அனைத்து பயனர்களையும் தோராயமாகப் பிரிக்கிறோம்  மற்றொரு வழி, பொது மக்களில் உள்ள அடுக்கின்   .  எடைக்கு ஏற்ப ஒவ்வொரு அடுக்குக்குள்ளும் தோராயமாகப் பிரிப்பது  இந்த வழக்கில், எதிர்பார்க்கப்படும் மதிப்பு மற்றும் மாறுபாடு பின்வருமாறு.   எதிர்பார்க்கப்படும் மதிப்பு முதல் தேர்வில் உள்ளதைப் போலவே இருக்கும். இருப்பினும், மாறுபாடு குறைவாக உள்ளது, இது அதிக மெட்ரிக் உணர்திறனுக்கு உத்தரவாதம் அளிக்கிறது.  இப்போது,   பார்ப்போம். குறிப்பிட்ட எடையுடன் ஒவ்வொரு அடுக்குக்குள்ளும் பயனர்களை தோராயமாகப் பிரிக்க அவர்கள் பரிந்துரைக்கின்றனர்.  நெய்மனின் முறையைப்  எனவே, எதிர்பார்க்கப்படும் மதிப்பு மற்றும் மாறுபாடு இந்த வழக்கில் பின்வருவனவற்றிற்கு சமமாக இருக்கும்.   எதிர்பார்க்கப்படும் மதிப்பு, முதல் வழக்கில் அறிகுறியற்ற நிலையில் எதிர்பார்க்கப்படும் மதிப்புக்கு சமமாக இருக்கும். இருப்பினும், மாறுபாடு மிகவும் குறைவு.   அனுபவ சோதனை  இந்த முறையின் செயல்திறனை நாங்கள் கோட்பாட்டளவில் நிரூபித்துள்ளோம். மாதிரிகளை உருவகப்படுத்துவோம் மற்றும் அடுக்கு முறையை அனுபவரீதியாக சோதிப்போம்.  மூன்று நிகழ்வுகளைக் கருத்தில் கொள்வோம்:  அனைத்து அடுக்குகளும் சமமான வழிமுறைகள் மற்றும் மாறுபாடுகளுடன்,  வெவ்வேறு வழிகள் மற்றும் சம மாறுபாடுகள் கொண்ட அனைத்து அடுக்குகளும்,  அனைத்து அடுக்குகளும் சமமான வழிமுறைகள் மற்றும் வெவ்வேறு மாறுபாடுகளுடன்.  நாங்கள் எல்லா சந்தர்ப்பங்களிலும் மூன்று முறைகளையும் பயன்படுத்துவோம் மற்றும் அவற்றை ஒப்பிடுவதற்கு ஒரு ஹிஸ்டோகிராம் மற்றும் பாக்ஸ்ப்ளாட்டைத் திட்டமிடுவோம்.  குறியீடு தயாரித்தல்  முதலில், பைத்தானில் ஒரு வகுப்பை உருவாக்குவோம், அது மூன்று அடுக்குகளைக் கொண்ட நமது பொது மக்களை உருவகப்படுத்துகிறது.   class GeneralPopulation: def __init__(self, means: [float], stds: [float], sizes: [int], random_state: int = 15 ): """ Initializes our General Population and saves the given distributions :param means: List of expectations for normal distributions :param stds: List of standard deviations for normal distributions :param sizes: How many objects will be in each strata :param random_state: Parameter fixing randomness. Needed so that when conducting experiment repeatedly with the same input parameters, the results remained the same """ self.strats = [st.norm(mean, std) for mean, std in zip(means, stds)] self._sample(sizes) self.random_state = random_state def _sample(self, sizes): """Creates a general population sample as a mixture of strata :param sizes: List with sample sizes of the corresponding normal distributions """ self.strats_samples = [rv.rvs(size) for rv, size in zip(self.strats, sizes)] self.general_samples = np.hstack(self.strats_samples) self.N = self.general_samples.shape[0] # number of strata self.count_strats = len(sizes) # ratios for every strata in GP self.ws = [size/self.N for size in sizes] # ME and Std for GP self.m = np.mean(self.general_samples) self.sigma = np.std(self.general_samples) # ME and std for all strata self.ms = [np.mean(strat_sample) for strat_sample in self.strats_samples] self.sigmas = [np.std(strat_sample) for strat_sample in self.strats_samples]  பின்னர், கோட்பாட்டுப் பகுதியில் விவரிக்கப்பட்டுள்ள மூன்று மாதிரி முறைகளுக்கான செயல்பாடுகளைச் சேர்ப்போம்.  def random_subsampling(self, size): """Creates a random subset of the entire population :param sizes: subsample size """ rc = np.random.choice(self.general_samples, size=size) return rc def proportional_subsampling(self, size): """Creates a subsample with the number of elements, proportional shares of strata :param sizes: subsample size """ self.strats_size_proport = [int(np.floor(size*w)) for w in self.ws] rc = [] for k in range(len(self.strats_size_proport)): rc.append(np.random.choice(self.strats_samples[k], size=self.strats_size_proport[k])) return rc def optimal_subsampling(self, size): """Creates a subsample with the optimal number of elements relative to strata :param sizes: subsample size """ sum_denom = 0 for k in range(self.count_strats): sum_denom += self.ws[k] * self.sigmas[k] self.strats_size_optimal = [int(np.floor((size*w*sigma)/sum_denom)) for w, sigma in zip(self.ws, self.sigmas)] if 0 in self.strats_size_optimal: raise ValueError('Strats size is 0, please change variance of smallest strat!') rc = [] for k in range(len(self.strats_size_optimal)): rc.append(np.random.choice(self.strats_samples[k], size=self.strats_size_optimal[k])) return rc  மேலும், அனுபவப் பகுதிக்கு, பரிசோதனை செயல்முறையை உருவகப்படுத்துவதற்கான செயல்பாடு நமக்கு எப்போதும் தேவை.  def run_experiments(self, n_sub, subsampling_method, n_experiments=1000): """Conducts a series of experiments and saves the results :param n_sub: size of sample :param subsampling_method: method for creating a subsample :param n_experiments: number of experiment starts """ means_s = [] if(len(self.general_samples)<100): n_sub = 20 if(subsampling_method == 'random_subsampling'): for n in range(n_experiments): rc = self.random_subsampling(n_sub) mean = rc.sum()/len(rc) means_s.append(mean) else: for n in range(n_experiments): if(subsampling_method == 'proportional_subsampling'): rc = self.proportional_subsampling(n_sub) elif(subsampling_method == 'optimal_subsampling'): rc = self.optimal_subsampling(n_sub) strats_mean = [] for k in range(len(rc)): strats_mean.append(sum(rc[k])/len(rc[k])) # Mean for a mixture means_s.append(sum([w_k*mean_k for w_k, mean_k in zip(self.ws, strats_mean)])) return means_s  உருவகப்படுத்துதல் முடிவுகள்  பொது மக்களைப் பார்த்தால், நமது அனைத்து அடுக்குகளும் ஒரே மதிப்புகள் மற்றும் மாறுபாடுகளைக் கொண்டிருக்கின்றன, மூன்று முறைகளின் முடிவுகளும் அதிகமாகவோ அல்லது குறைவாகவோ சமமாக இருக்கும் என்று எதிர்பார்க்கப்படுகிறது.   வெவ்வேறு வழிமுறைகள் மற்றும் சம மாறுபாடுகள் மிகவும் அற்புதமான முடிவுகளைப் பெற்றன. அடுக்குமுறையைப் பயன்படுத்துவது மாறுபாட்டை வியத்தகு முறையில் குறைக்கிறது.   சமமான வழிமுறைகள் மற்றும் வெவ்வேறு மாறுபாடுகள் உள்ள சந்தர்ப்பங்களில், நெய்மனின் முறையில் மாறுபாடு குறைவதைக் காண்கிறோம்.    முடிவுரை  இப்போது, மெட்ரிக் மாறுபாட்டைக் குறைப்பதற்கும், உங்கள் பார்வையாளர்களைக் கூட்டி, தொழில்நுட்ப ரீதியாக ஒவ்வொரு கிளஸ்டருக்குள்ளும் குறிப்பிட்ட எடைகளுடன் தொழில்நுட்ப ரீதியாக அவர்களைப் பிரித்தாலும், மெட்ரிக் மாறுபாட்டைக் குறைக்கவும், சோதனையை அதிகரிக்கவும் நீங்கள் அடுக்கு முறையைப் பயன்படுத்தலாம்!

This story contains new, firsthand information uncovered by the writer.

Empirical

Read My Stories

இந்த ஆடியோ கதையின் அசல் மொழியில் தயாரிக்கப்பட்டது!

சோதனைப் பகுப்பாய்விற்கான அடுக்குமுறை முறையைப் பயன்படுத்துதல்

About Author

கருத்துகள்

ஹேங் டேக்குகள்

இந்த கட்டுரையில் வழங்கப்பட்டது

Related Stories

Meet Hubstaff: HackerNoon Company of the Week

This Black Friday & Holiday Season, HackerNoon Has Your Tech Marketing Covered 🎁 💚

Meet Miro: HackerNoon Company of the Week

Using HackerNoon's Story Settings to Your Advantage: Tips From HackerNoon Editors

Meet Hubstaff: HackerNoon Company of the Week

This Black Friday & Holiday Season, HackerNoon Has Your Tech Marketing Covered 🎁 💚

Meet Miro: HackerNoon Company of the Week

Using HackerNoon's Story Settings to Your Advantage: Tips From HackerNoon Editors

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps