paint-brush
שימוש בשיטת הריבוד לניתוח הניסויעל ידי@nataliaogneva
33,175 קריאות
33,175 קריאות

שימוש בשיטת הריבוד לניתוח הניסוי

על ידי Natalia Ogneva
Natalia Ogneva HackerNoon profile picture

Natalia Ogneva

@nataliaogneva

Statistics lover

8 דקה read2024/04/19
Read on Terminal Reader
Read this story in a terminal
Print this story
Read this story w/o Javascript
Read this story w/o Javascript
tldt arrow
iw-flagIW
קרא את הסיפור הזה בעברית!
en-flagEN
Read this story in the original language, English!
ln-flagLN
Tanga lisolo oyo na lingala!
lo-flagLO
ອ່ານເລື່ອງນີ້ເປັນພາສາລາວ!
ps-flagPS
دا کیسه په پښتو ژبه ولولئ!
lt-flagLT
Skaitykite šią istoriją lietuvių kalba!
hr-flagHR
Pročitajte ovu priču na hrvatskom!
lv-flagLV
Izlasi šo stāstu latviešu valodā!
ht-flagHT
Li istwa sa a an kreyòl ayisyen!
hu-flagHU
Olvasd el ezt a történetet magyarul!
hy-flagHY
Կարդացեք այս պատմությունը հայերեն։
uk-flagUK
Читайте цю історію українською!
mg-flagMG
Vakio amin'ny teny malagasy ity tantara ity!
More
IW

יותר מדי זמן; לקרוא

דגימה מרובדת היא טכניקה רבת עוצמה להגביר את יעילות הניסוי ואת הרגישות המטרית בניתוח נתונים. על ידי קיבוץ הקהל שלך וחלוקתם במשקלים ספציפיים, תוכל לייעל את הניסויים, להפחית את השונות ולשפר את מהימנות התוצאות.

Company Mentioned

Mention Thumbnail
Empirical
featured image - שימוש בשיטת הריבוד לניתוח הניסוי
Natalia Ogneva HackerNoon profile picture
Natalia Ogneva

Natalia Ogneva

@nataliaogneva

Statistics lover

0-item

STORY’S CREDIBILITY

Original Reporting

Original Reporting

This story contains new, firsthand information uncovered by the writer.


כל ניסוי כרוך בהחלפה בין תוצאות מהירות לבין רגישות מדדים. אם המדד הנבחר רחב מבחינת השונות, עלינו להמתין זמן רב כדי להבטיח שתוצאות הניסוי מדויקות. הבה נשקול שיטה אחת כדי לעזור לאנליסטים להגביר את הניסויים שלהם מבלי לאבד יותר מדי זמן או רגישות מטרית.


ניסוח בעיה

נניח שאנו עורכים ניסוי סטנדרטי כדי לבדוק אלגוריתם דירוג חדש, עם אורך הפעלה כמדד הראשי. בנוסף, קחו בחשבון שניתן לסווג את הקהל שלנו באופן גס לשלוש קבוצות: מיליון בני נוער, 2 מיליון משתמשים בגילאי 18-45 ו-3 מיליון משתמשים בני 45 ומעלה. התגובה לאלגוריתם דירוג חדש תשתנה באופן משמעותי בין קבוצות הקהל הללו. שונות רחבה זו מפחיתה את הרגישות של המדד.


במילים אחרות, ניתן לחלק את האוכלוסייה לשלוש שכבות, המתוארות להלן:

image


נניח שלכל רכיב יש התפלגות נורמלית. לאחר מכן, למדד העיקרי עבור האוכלוסייה יש גם התפלגות נורמלית.

image

שיטת ריבוד

אנו מחלקים באופן אקראי את כל המשתמשים מהאוכלוסייה בעיצוב ניסוי קלאסי מבלי להתחשב בהבדלים בין המשתמשים שלנו. לפיכך, אנו רואים את המדגם עם הערך והשונות הצפוי הבאים.

image


דרך נוספת היא חלוקה אקראית בתוך כל שכבה לפי משקל השכבה באוכלוסייה הכללית.

image

במקרה זה, הערך והשונות הצפוי הם הבאים.

image


הערך הצפוי זהה לערך בבחירה הראשונה. עם זאת, השונות קטנה יותר, מה שמבטיח רגישות מטרית גבוהה יותר.

עכשיו, בואו נבחן את השיטה של ניימן . הם מציעים לחלק את המשתמשים באופן אקראי בתוך כל שכבה עם משקלים ספציפיים.

image

אז, הערך והשונות הצפוי שווים לערכים הבאים במקרה זה.

image

הערך הצפוי שווה לערך הצפוי במקרה הראשון בצורה אסימפטוטית. עם זאת, השונות הרבה פחות.

בדיקה אמפירית

הוכחנו את היעילות של שיטה זו באופן תיאורטי. בואו נדמה דוגמאות ונבדוק את שיטת הריבוד באופן אמפירי.

הבה נבחן שלושה מקרים:

  • כל השכבות עם אמצעים ושונות שווים,
  • כל השכבות עם אמצעים שונים ושונות שוות,
  • כל השכבות עם אמצעים שווים ושונות שונות.

ניישם את כל שלוש השיטות בכל המקרים ונתווה היסטוגרמה וקופסה כדי להשוות ביניהן.

הכנת קוד

ראשית, בואו ניצור מחלקה ב-Python המדמה את האוכלוסייה הכללית שלנו המורכבת משלוש שכבות.

 class GeneralPopulation: def __init__(self, means: [float], stds: [float], sizes: [int], random_state: int = 15 ): """ Initializes our General Population and saves the given distributions :param means: List of expectations for normal distributions :param stds: List of standard deviations for normal distributions :param sizes: How many objects will be in each strata :param random_state: Parameter fixing randomness. Needed so that when conducting experiment repeatedly with the same input parameters, the results remained the same """ self.strats = [st.norm(mean, std) for mean, std in zip(means, stds)] self._sample(sizes) self.random_state = random_state def _sample(self, sizes): """Creates a general population sample as a mixture of strata :param sizes: List with sample sizes of the corresponding normal distributions """ self.strats_samples = [rv.rvs(size) for rv, size in zip(self.strats, sizes)] self.general_samples = np.hstack(self.strats_samples) self.N = self.general_samples.shape[0] # number of strata self.count_strats = len(sizes) # ratios for every strata in GP self.ws = [size/self.N for size in sizes] # ME and Std for GP self.m = np.mean(self.general_samples) self.sigma = np.std(self.general_samples) # ME and std for all strata self.ms = [np.mean(strat_sample) for strat_sample in self.strats_samples] self.sigmas = [np.std(strat_sample) for strat_sample in self.strats_samples]


לאחר מכן, בואו נוסיף פונקציות עבור שלוש שיטות הדגימה המתוארות בחלק התיאורטי.

 def random_subsampling(self, size): """Creates a random subset of the entire population :param sizes: subsample size """ rc = np.random.choice(self.general_samples, size=size) return rc def proportional_subsampling(self, size): """Creates a subsample with the number of elements, proportional shares of strata :param sizes: subsample size """ self.strats_size_proport = [int(np.floor(size*w)) for w in self.ws] rc = [] for k in range(len(self.strats_size_proport)): rc.append(np.random.choice(self.strats_samples[k], size=self.strats_size_proport[k])) return rc def optimal_subsampling(self, size): """Creates a subsample with the optimal number of elements relative to strata :param sizes: subsample size """ sum_denom = 0 for k in range(self.count_strats): sum_denom += self.ws[k] * self.sigmas[k] self.strats_size_optimal = [int(np.floor((size*w*sigma)/sum_denom)) for w, sigma in zip(self.ws, self.sigmas)] if 0 in self.strats_size_optimal: raise ValueError('Strats size is 0, please change variance of smallest strat!') rc = [] for k in range(len(self.strats_size_optimal)): rc.append(np.random.choice(self.strats_samples[k], size=self.strats_size_optimal[k])) return rc


כמו כן, לחלק האמפירי, אנו תמיד צריכים פונקציה להדמיית תהליך הניסוי.

 def run_experiments(self, n_sub, subsampling_method, n_experiments=1000): """Conducts a series of experiments and saves the results :param n_sub: size of sample :param subsampling_method: method for creating a subsample :param n_experiments: number of experiment starts """ means_s = [] if(len(self.general_samples)<100): n_sub = 20 if(subsampling_method == 'random_subsampling'): for n in range(n_experiments): rc = self.random_subsampling(n_sub) mean = rc.sum()/len(rc) means_s.append(mean) else: for n in range(n_experiments): if(subsampling_method == 'proportional_subsampling'): rc = self.proportional_subsampling(n_sub) elif(subsampling_method == 'optimal_subsampling'): rc = self.optimal_subsampling(n_sub) strats_mean = [] for k in range(len(rc)): strats_mean.append(sum(rc[k])/len(rc[k])) # Mean for a mixture means_s.append(sum([w_k*mean_k for w_k, mean_k in zip(self.ws, strats_mean)])) return means_s


תוצאות סימולציה

אם נסתכל על האוכלוסייה הכללית, שבה לכל השכבות שלנו יש אותם ערכים ושונות, התוצאות של כל שלוש השיטות צפויות להיות פחות או יותר שוות.

image

אמצעים שונים ושונות שוות השיגו תוצאות מרגשות יותר. שימוש בריבוד מפחית באופן דרמטי את השונות.

image

במקרים בעלי אמצעים שווים ושונות שונות, אנו רואים הפחתת שונות בשיטת ניימן.

image

מַסְקָנָה

כעת, אתה יכול ליישם את שיטת הריבוד כדי להפחית את השונות המטרית ולהגביר את הניסוי אם אתה מקבץ את הקהל שלך ומחלק אותם באופן אקראי בתוך כל אשכול עם משקלים ספציפיים!

L O A D I N G
. . . comments & more!

About Author

Natalia Ogneva HackerNoon profile picture
Natalia Ogneva@nataliaogneva
Statistics lover

תלו תגים

מאמר זה הוצג ב...

Permanent on Arweave
Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite

Mentioned in this story

companies