شنونکي اکثرا د دوی د کار په جریان کې د معلوماتو په جریان کې د بهرنیانو سره مخ کیږي، لکه د AB-ټیسټ تحلیل په جریان کې، د وړاندوینې ماډلونو رامینځته کول، یا د رجحاناتو تعقیب. پریکړې معمولا د نمونې معنی پر بنسټ وي، کوم چې د بهرنیانو لپاره خورا حساس دی او کولی شي په ډراماتیک ډول ارزښت بدل کړي. نو، دا مهمه ده چې د سمې پریکړې کولو لپاره د بهرنیانو اداره کول خورا مهم دي.
راځئ چې د غیر معمولي ارزښتونو سره د کار کولو لپاره ډیری ساده او ګړندي تګلارې په پام کې ونیسو.
تصور وکړئ چې تاسو اړتیا لرئ د لومړني میټریک په توګه د اوسط ترتیب ارزښت په کارولو سره د تجربې تحلیل ترسره کړئ. راځئ چې ووایو چې زموږ میټریک معمولا یو نورمال توزیع لري. همچنان ، موږ پوهیږو چې د ازموینې ګروپ کې د میټریک ویش د کنټرول څخه توپیر لري. په بل عبارت، په کنټرول کې د ویش معنی 10 ده، او په ازموینه کې 12 دی. په دواړو ګروپونو کې معیاري انحراف 3 دی.
په هرصورت، دواړه نمونې بهرنۍ نښې لري چې د نمونې وسیله او د نمونې معیاري انحراف کموي.
import numpy as np N = 1000 mean_1 = 10 std_1 = 3 mean_2 = 12 std_2 = 3 x1 = np.concatenate((np.random.normal(mean_1, std_1, N), 10 * np.random.random_sample(50) + 20)) x2 = np.concatenate((np.random.normal(mean_2, std_2, N), 4 * np.random.random_sample(50) + 1))
NB چې د میټریک په پام کې نیولو سره ممکن د دواړو خواو څخه بهرنیان ولري. که ستاسو میټریک یوازې د یو اړخ څخه بهر وي، میتودونه په اسانۍ سره د دې هدف لپاره بدلیدلی شي.
تر ټولو آسانه طریقه دا ده چې ټولې مشاهدې د 5% سلنې څخه مخکې او د 95% سلنې څخه وروسته پرې کړئ. په دې حالت کې، موږ د معلوماتو 10٪ له لاسه ورکړو. په هرصورت، ویش ډیر جوړ شوی ښکاري، او د نمونې شیبې د توزیع شیبو ته نږدې دي.
import numpy as np x1_5pct = np.percentile(x1, 5) x1_95pct = np.percentile(x1, 95) x1_cutted = [i for i in x1 if i > x1_5pct and i < x1_95pct] x2_5pct = np.percentile(x2, 5) x2_95pct = np.percentile(x2, 95) x2_cutted = [i for i in x2 if i > x2_5pct and i < x2_95pct]
بله لاره دا ده چې د ځانګړي حد څخه بهر مشاهدې خارج کړئ. ټيټ بانډ د 25% سلنې منفي د متقابل حد نیم نیم سره مساوي دی، او لوړ بانډ د 75% سلنې جمع نیم نیم سره مساوي دی. دلته، موږ به یوازې 0.7٪ معلومات له لاسه ورکړو. ویشونه د ابتدايي په پرتله ډیر جوړ شوي ښکاري. د نمونې شیبې حتی د توزیع شیبو سره مساوي دي.
import numpy as np low_band_1 = np.percentile(x1, 25) - 1.5 * np.std(x1) high_band_1 = np.percentile(x1, 75) + 1.5 * np.std(x1) x1_cutted = [i for i in x1 if i > low_band_1 and i < high_band_1] low_band_2 = np.percentile(x2, 25) - 1.5 * np.std(x2) high_band_2 = np.percentile(x2, 75) + 1.5 * np.std(x2) x2_cutted = [i for i in x2 if i > low_band_2 and i < high_band_2]
دوهم میتود چې موږ یې دلته په پام کې نیولی یو بوټسټریپ دی. په دې طریقه، منځنی د فرعي نمونو په څیر جوړ شوی دی. زموږ په مثال کې، د کنټرول ګروپ کې اوسط د 10.35 سره برابر دی، او د ازموینې ګروپ 11.78 دی. دا لاهم د اضافي معلوماتو پروسس کولو په پرتله غوره پایله ده.
import pandas as pd def create_bootstrap_samples( sample_list: np.array, sample_size: int, n_samples: int ): # create a list for sample means sample_means = [] # loop n_samples times for i in range(n_samples): # create a bootstrap sample of sample_size with replacement bootstrap_sample = pd.Series(sample_list).sample(n = sample_size, replace = True) # calculate the bootstrap sample mean sample_mean = bootstrap_sample.mean() # add this sample mean to the sample means list sample_means.append(sample_mean) return pd.Series(sample_means) (create_bootstrap_samples(x1, len(x1), 1000).mean(), create_bootstrap_samples(x2, len(x2), 1000).mean())
د سمې پریکړې کولو لپاره د بهرنی کشف او پروسس مهم دي. اوس، لږترلږه درې ګړندۍ او مستقیمې لارې کولی شي تاسو سره د تحلیل دمخه ډاټا چیک کولو کې مرسته وکړي.
په هرصورت، دا اړینه ده چې په یاد ولرئ چې کشف شوي بهرنیان کیدای شي غیر معمولي ارزښتونه او د نوي اغیز لپاره یو ځانګړتیا وي. مګر دا بله کیسه ده :)