paint-brush
Go Lemoga Outlier: Seo o Swanetšego go se Tsebaka@nataliaogneva
54,575 dipuku tša go balwa
54,575 dipuku tša go balwa

Go Lemoga Outlier: Seo o Swanetšego go se Tseba

ka Natalia Ogneva4m2024/04/23
Read on Terminal Reader
Read this story w/o Javascript

Nako e telele kudu; Go bala

Basekaseki gantši ba kopana le dilo tše di sa tlwaelegago ka gare ga datha nakong ya mošomo wa bona. Diphetho gantši di theilwe godimo ga magareng a mohlala, ao a nago le kwelobohloko kudu go dilo tše di sa tlwaelegago. Go bohlokwa kudu go laola dilo tše di sa tlwaelegago go tšea sephetho se se nepagetšego. A re ke re ela hloko mekgwa e mmalwa e bonolo le e akgofilego ya go šoma ka ditekanyetšo tše di sa tlwaelegago.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Go Lemoga Outlier: Seo o Swanetšego go se Tseba
Natalia Ogneva HackerNoon profile picture

Basekaseki gantši ba kopana le dilo tše di sa tlwaelegago ka gare ga datha nakong ya mošomo wa bona, go swana le nakong ya tshekatsheko ya teko ya AB, go hlama dika tša go bolela e sa le pele goba go latela ditshekamelo. Diphetho gantši di theilwe godimo ga palogare ya mohlala, yeo e nago le kwelobohloko kudu go dilo tše di sa tlwaelegago gomme e ka fetoša boleng kudu. Ka fao, go bohlokwa kudu go laola dilo tše di sa tlwaelegago go tšea sephetho se se nepagetšego.


A re ke re ela hloko mekgwa e mmalwa e bonolo le e akgofilego ya go šoma ka ditekanyetšo tše di sa tlwaelegago.

Tlhamo ya Bothata

Akanya gore o swanetše go dira tshekatsheko ya teko o šomiša boleng bja taelo ya magareng bjalo ka metric ya mathomo. A re re metric ya rena gantši e na le kabo ye e tlwaelegilego. Gape, re a tseba gore kabo ya metric sehlopheng sa teko e fapane le yeo e lego ka go taolo. Ka mantšu a mangwe, magareng a kabo ka taolo ke 10, gomme ka teko ke 12. Kgelogo ya maemo dihlopheng ka bobedi ke 3.


Le ge go le bjalo, disampole ka bobedi di na le dilo tše di sa tlwaelegago tšeo di sekamelago di bolela tša sampole le go fapoga ga maemo a sampole.

 import numpy as np N = 1000 mean_1 = 10 std_1 = 3 mean_2 = 12 std_2 = 3 x1 = np.concatenate((np.random.normal(mean_1, std_1, N), 10 * np.random.random_sample(50) + 20)) x2 = np.concatenate((np.random.normal(mean_2, std_2, N), 4 * np.random.random_sample(50) + 1))

NB gore go nagana ka metric go ka ba le outliers go tšwa mahlakoreng ka bobedi. Ge e ba metric ya gago e be e ka ba le dilo tše di sa tlwaelegago feela go tšwa ka lehlakoreng le tee, mekgwa e be e ka fetošwa gabonolo bakeng sa morero woo.

Kgaola Mesela

Mokgwa o bonolo kudu ke go kgaola dilo ka moka tšeo di hlokometšwego pele ga phesente ya 5% le ka morago ga phesente ya 95% . Tabeng ye, re lahlegetšwe ke 10% ya tshedimošo bjalo ka con. Le ge go le bjalo, dikabo di bonala di bopilwe kudu, gomme dinako tša mohlala di kgauswi le dinako tša kabo.

 import numpy as np x1_5pct = np.percentile(x1, 5) x1_95pct = np.percentile(x1, 95) x1_cutted = [i for i in x1 if i > x1_5pct and i < x1_95pct] x2_5pct = np.percentile(x2, 5) x2_95pct = np.percentile(x2, 95) x2_cutted = [i for i in x2 if i > x2_5pct and i < x2_95pct]


Tsela e nngwe ke go kgapeletša ntle dilo tšeo di hlokometšwego ka ntle ga tekanyo e itšego . Sehlopha sa fase se lekana le 25% ya phesente go tlošwa seripa se tee sa tekanyo ya magareng ga dikotara, gomme sehlopha sa godimo se lekana le 75% ya phesente gotee le seripa se tee. Mo, re tla lahlegelwa ke 0.7% fela ya tshedimošo. Dikabo di bonala di bopilwe kudu go feta tša mathomo. Metsotso ya mohlala e lekana le go feta le dinako tša kabo.

 import numpy as np low_band_1 = np.percentile(x1, 25) - 1.5 * np.std(x1) high_band_1 = np.percentile(x1, 75) + 1.5 * np.std(x1) x1_cutted = [i for i in x1 if i > low_band_1 and i < high_band_1] low_band_2 = np.percentile(x2, 25) - 1.5 * np.std(x2) high_band_2 = np.percentile(x2, 75) + 1.5 * np.std(x2) x2_cutted = [i for i in x2 if i > low_band_2 and i < high_band_2]

Bootstrap ya go swara

Mokgwa wa bobedi wo re o lebeledišišitšego mo ke bootstrap. Mokgweng wo, magareng a agilwe bjalo ka magareng a disampole tše nnyane. Mohlaleng wa rena, palogare sehlopheng sa taolo e lekana le 10.35, gomme sehlopha sa teko ke 11.78. E sa le sephetho se sekaone ge se bapetšwa le tshepedišo ya tlaleletšo ya datha.

 import pandas as pd def create_bootstrap_samples( sample_list: np.array, sample_size: int, n_samples: int ): # create a list for sample means sample_means = [] # loop n_samples times for i in range(n_samples): # create a bootstrap sample of sample_size with replacement bootstrap_sample = pd.Series(sample_list).sample(n = sample_size, replace = True) # calculate the bootstrap sample mean sample_mean = bootstrap_sample.mean() # add this sample mean to the sample means list sample_means.append(sample_mean) return pd.Series(sample_means) (create_bootstrap_samples(x1, len(x1), 1000).mean(), create_bootstrap_samples(x2, len(x2), 1000).mean())

Mafetšo

Go utolla le go šoma ga dilo tše di sa tlwaelegago di bohlokwa bakeng sa go tšea sephetho se se nepagetšego. Bjale, bonyane mekgwa ye meraro ya go akgofa le ye e otlologilego e ka go thuša go hlahloba datha pele ga tshekatsheko.


Le ge go le bjalo, go bohlokwa go gopola gore dilo tše di lemogilwego tša ka ntle e ka ba dikelo tše di sa tlwaelegago le tšobotsi ya khuetšo ya selo se sefsa. Eupša ke kanegelo ye nngwe :)