paint-brush
تشخیص بیرونی: آنچه باید بدانیدتوسط@nataliaogneva
54,579 قرائت
54,579 قرائت

تشخیص بیرونی: آنچه باید بدانید

توسط Natalia Ogneva4m2024/04/23
Read on Terminal Reader
Read this story w/o Javascript

خیلی طولانی؛ خواندن

تحلیلگران اغلب در طول کار خود با داده های پرت مواجه می شوند. تصمیم‌گیری‌ها معمولاً بر اساس میانگین نمونه است که به مقادیر پرت بسیار حساس است. برای تصمیم گیری صحیح، مدیریت عوامل پرت بسیار مهم است. بیایید چندین روش ساده و سریع را برای کار با مقادیر غیر معمول در نظر بگیریم.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - تشخیص بیرونی: آنچه باید بدانید
Natalia Ogneva HackerNoon profile picture

تحلیلگران اغلب در طول کار خود، مانند هنگام تجزیه و تحلیل AB-test، ایجاد مدل های پیش بینی، یا ردیابی روندها، با داده های پرت مواجه می شوند. تصمیم‌گیری‌ها معمولاً بر اساس میانگین نمونه است که به مقادیر پرت بسیار حساس است و می‌تواند مقدار را به‌طور چشمگیری تغییر دهد. بنابراین، مدیریت عوامل پرت برای تصمیم گیری صحیح بسیار مهم است.


بیایید چندین روش ساده و سریع را برای کار با مقادیر غیر معمول در نظر بگیریم.

فرمول مسئله

تصور کنید که باید یک تجزیه و تحلیل آزمایشی را با استفاده از یک مقدار سفارش متوسط به عنوان معیار اصلی انجام دهید. فرض کنید متریک ما معمولاً دارای توزیع نرمال است. همچنین، می دانیم که توزیع متریک در گروه آزمایش با گروه کنترل متفاوت است. به عبارت دیگر میانگین توزیع در کنترل 10 و در آزمون 12 است. انحراف معیار در هر دو گروه 3 است.


با این حال، هر دو نمونه دارای نقاط پرت هستند که میانگین نمونه و انحراف استاندارد نمونه را تغییر می دهد.

 import numpy as np N = 1000 mean_1 = 10 std_1 = 3 mean_2 = 12 std_2 = 3 x1 = np.concatenate((np.random.normal(mean_1, std_1, N), 10 * np.random.random_sample(50) + 20)) x2 = np.concatenate((np.random.normal(mean_2, std_2, N), 4 * np.random.random_sample(50) + 1))

توجه داشته باشید که در نظر گرفتن متریک می‌تواند دارای مقادیر پرت از هر دو طرف باشد. اگر متریک شما فقط از یک طرف می‌توانست مقادیر پرت داشته باشد، روش‌ها به راحتی می‌توانند برای این منظور تغییر کنند.

برش دم

ساده ترین روش این است که تمام مشاهدات را قبل از صدک 5% و بعد از صدک 95% قطع کنید. در این مورد، ما 10٪ از اطلاعات را به عنوان یک اشتباه از دست دادیم. با این حال، توزیع‌ها شکل‌گرفته‌تر به نظر می‌رسند و ممان‌های نمونه به ممان‌های توزیع نزدیک‌تر هستند.

 import numpy as np x1_5pct = np.percentile(x1, 5) x1_95pct = np.percentile(x1, 95) x1_cutted = [i for i in x1 if i > x1_5pct and i < x1_95pct] x2_5pct = np.percentile(x2, 5) x2_95pct = np.percentile(x2, 95) x2_cutted = [i for i in x2 if i > x2_5pct and i < x2_95pct]


راه دیگر حذف مشاهدات خارج از محدوده خاص است. باند پایین برابر با 25 درصد صدک منهای یک دوم محدوده بین چارکی است و باند بالا برابر با صدک 75 درصد به اضافه یک دوم است. در اینجا، ما تنها 0.7٪ از اطلاعات را از دست خواهیم داد. توزیع ها بیشتر از توزیع اولیه شکل گرفته اند. گشتاورهای نمونه حتی با گشتاورهای توزیع برابرتر هستند.

 import numpy as np low_band_1 = np.percentile(x1, 25) - 1.5 * np.std(x1) high_band_1 = np.percentile(x1, 75) + 1.5 * np.std(x1) x1_cutted = [i for i in x1 if i > low_band_1 and i < high_band_1] low_band_2 = np.percentile(x2, 25) - 1.5 * np.std(x2) high_band_2 = np.percentile(x2, 75) + 1.5 * np.std(x2) x2_cutted = [i for i in x2 if i > low_band_2 and i < high_band_2]

بوت استرپ

روش دومی که در اینجا در نظر گرفتیم بوت استرپ است. در این رویکرد، میانگین مانند یک میانگین از نمونه‌های فرعی ساخته می‌شود. در مثال ما، میانگین در گروه کنترل برابر با 10.35 و گروه آزمون 11.78 است. در مقایسه با پردازش داده های اضافی، هنوز نتیجه بهتری است.

 import pandas as pd def create_bootstrap_samples( sample_list: np.array, sample_size: int, n_samples: int ): # create a list for sample means sample_means = [] # loop n_samples times for i in range(n_samples): # create a bootstrap sample of sample_size with replacement bootstrap_sample = pd.Series(sample_list).sample(n = sample_size, replace = True) # calculate the bootstrap sample mean sample_mean = bootstrap_sample.mean() # add this sample mean to the sample means list sample_means.append(sample_mean) return pd.Series(sample_means) (create_bootstrap_samples(x1, len(x1), 1000).mean(), create_bootstrap_samples(x2, len(x2), 1000).mean())

نتیجه گیری

تشخیص و پردازش پرت برای تصمیم گیری صحیح مهم است. در حال حاضر، حداقل سه رویکرد سریع و ساده می تواند به شما کمک کند داده ها را قبل از تجزیه و تحلیل بررسی کنید.


با این حال، مهم است که به یاد داشته باشید که نقاط پرت شناسایی شده می توانند مقادیر غیرعادی و یک ویژگی برای اثر جدید باشند. اما داستان دیگری است :)