Jedną z najważniejszych umiejętności doświadczonego specjalisty ds. danych jest skuteczne zarządzanie dużymi zbiorami danych, zapewniające jakość i niezawodność danych. Dane są centralnym i fundamentalnym elementem każdego systemu danych, a niezależnie od tego, jakie dobre umiejętności posiadasz w innych aspektach naszego zawodu, nie możesz sobie pozwolić na ich przeoczenie.  W tym artykule omawiam solidne techniki wykonywania kontroli jakości na dużych zestawach danych przy użyciu biblioteki Deequ i metod statystycznych. Łącząc podejścia, które wyjaśniam poniżej, będziesz w stanie zachować integralność danych, udoskonalić swoje praktyki zarządzania danymi i zapobiec potencjalnym problemom w aplikacjach downstream.   Kontrole QA przy użyciu biblioteki Deequ   Dlaczego Deequ?  Zapewnienie jakości danych na dużą skalę to trudne zadanie, zwłaszcza w przypadku miliardów wierszy przechowywanych w rozproszonych systemach plików lub magazynach danych. Biblioteka Deequ to otwartoźródłowy framework profilowania danych i kontroli jakości zbudowany na platformie Spark, który jest nowoczesnym i wszechstronnym narzędziem zaprojektowanym w celu rozwiązania tego problemu. To, co wyróżnia ją spośród podobnych narzędzi, to możliwość bezproblemowej integracji ze Spark, wykorzystując rozproszoną moc przetwarzania do wydajnej obsługi dużych zestawów danych.  Gdy go wypróbujesz, zobaczysz, jak jego elastyczność pozwala definiować złożone reguły walidacji dostosowane do Twoich konkretnych wymagań, zapewniając kompleksowe pokrycie. Ponadto Deequ oferuje rozbudowane metryki i możliwości wykrywania anomalii, które pomogą Ci identyfikować i proaktywnie rozwiązywać problemy z jakością danych. Dla profesjonalistów zajmujących się danymi, którzy pracują z dużymi i dynamicznymi zbiorami danych, Deequ jest rozwiązaniem typu „nóż szwajcarski”. Zobaczmy, jak możemy go wykorzystać.   Konfigurowanie Deequ  Więcej szczegółów na temat konfiguracji biblioteki Deequ i przypadków użycia wokół profilowania danych jest dostępnych   . Dla uproszczenia w tym przykładzie wygenerowaliśmy tylko kilka rekordów zabawek: tutaj   val rdd = spark.sparkContext.parallelize(Seq( Item(1, "Thingy A", "awesome thing.", "high", 0), Item(2, "Thingy B", "available at http://thingb.com", null, 0), Item(3, null, null, "low", 5), Item(4, "Thingy D", "checkout https://thingd.ca", "low", 10), Item(5, "Thingy E", null, "high", 12))) val data = spark.createDataFrame(rdd)   Definiowanie założeń dotyczących danych  Większość aplikacji danych zawiera niejawne założenia dotyczące atrybutów danych, takie jak wartości inne niż NULL i unikalność. W przypadku Deequ założenia te stają się jawne poprzez testy jednostkowe. Oto kilka typowych sprawdzeń:    upewnij się, że zestaw danych zawiera określoną liczbę wierszy. Liczba wierszy:    sprawdź, czy atrybuty takie jak id i productName nigdy nie mają wartości NULL. Kompletność atrybutów:    upewnij się, że pewne atrybuty, np. id, są unikatowe. Unikalność atrybutu:    sprawdź, czy atrybuty, takie jak priorytet i liczba widoków, mieszczą się w oczekiwanych zakresach. Zakres wartości:    sprawdź, czy opisy zawierają adresy URL, gdy jest to oczekiwane. Dopasowywanie wzorców:    Upewnij się, że mediana atrybutów liczbowych spełnia określone kryteria. Właściwości statystyczne:  Oto jak można wdrożyć te kontrole przy użyciu Deequ:   import com.amazon.deequ.VerificationSuite import com.amazon.deequ.checks.{Check, CheckLevel, CheckStatus} val verificationResult = VerificationSuite() .onData(data) .addCheck( Check(CheckLevel.Error, "unit testing my data") .hasSize(_ == 5) // we expect 5 rows .isComplete("id") // should never be NULL .isUnique("id") // should not contain duplicates .isComplete("productName") // should never be NULL // should only contain the values "high" and "low" .isContainedIn("priority", Array("high", "low")) .isNonNegative("numViews") // should not contain negative values // at least half of the descriptions should contain a url .containsURL("description", _ >= 0.5) // half of the items should have less than 10 views .hasApproxQuantile("numViews", 0.5, _ <= 10)) .run()   Interpretacja wyników  Po uruchomieniu tych sprawdzeń Deequ tłumaczy je na serię zadań Spark, które wykonuje, aby obliczyć metryki danych. Następnie wywołuje funkcje asercji (np. _ == 5 w celu sprawdzenia rozmiaru) dla tych metryk, aby sprawdzić, czy ograniczenia obowiązują w danych. Możemy sprawdzić obiekt „verificationResult”, aby sprawdzić, czy test znalazł błędy:   import com.amazon.deequ.constraints.ConstraintStatus if (verificationResult.status == CheckStatus.Success) { println("The data passed the test, everything is fine!") } else { println("We found errors in the data:\n") val resultsForAllConstraints = verificationResult.checkResults .flatMap { case (_, checkResult) => checkResult.constraintResults } resultsForAllConstraints .filter { _.status != ConstraintStatus.Success } .foreach { result => println(s"${result.constraint}: ${result.message.get}") } }  Jeśli uruchomimy przykład, otrzymamy następujący wynik:   We found errors in the data: CompletenessConstraint(Completeness(productName)): Value: 0.8 does not meet the requirement! PatternConstraint(containsURL(description)): Value: 0.4 does not meet the requirement!  Test wykazał, że nasze założenia zostały naruszone! Tylko 4 z 5 (80%) wartości atrybutu productName są różne od null, a tylko 2 z 5 (tj. 40%) wartości atrybutu description zawierały adres URL. Na szczęście przeprowadziliśmy test i znaleźliśmy błędy; ktoś powinien natychmiast naprawić dane!   Kontrole QA z wykorzystaniem metod statystycznych  Podczas gdy Deequ oferuje solidne ramy do walidacji danych, integracja metod statystycznych może dodatkowo usprawnić kontrole QA, zwłaszcza jeśli masz do czynienia z zagregowanymi metrykami zestawu danych. Zobaczmy, jak możesz wykorzystać metody statystyczne do monitorowania i zapewniania jakości danych.   Śledzenie liczby rekordów  Rozważmy scenariusz biznesowy, w którym proces ETL (Extract, Transform, Load) generuje N rekordów w ramach codziennego zaplanowanego zadania. Zespoły wsparcia mogą chcieć skonfigurować kontrole QA, aby wywołać alert, jeśli wystąpi znaczne odchylenie w liczbie rekordów. Na przykład, jeśli proces zazwyczaj generuje od 9500 do 10500 rekordów dziennie przez dwa miesiące, każdy znaczny wzrost lub spadek może wskazywać na problem z podstawowymi danymi.  Możemy użyć metody statystycznej, aby zdefiniować ten próg, na podstawie którego proces powinien wysłać alert do zespołu wsparcia. Poniżej znajduje się ilustracja śledzenia liczby rekordów w ciągu dwóch miesięcy:   Aby to przeanalizować, możemy przekształcić dane dotyczące liczby rekordów, aby obserwować codzienne zmiany. Zmiany te zazwyczaj oscylują wokół zera, jak pokazano na poniższym wykresie:   Gdy przedstawiamy tę szybkość zmian za pomocą rozkładu normalnego, tworzy ona krzywą dzwonową, wskazującą, że dane są rozłożone normalnie. Oczekiwana zmiana wynosi około 0%, przy odchyleniu standardowym 2,63%.   Ta analiza sugeruje, że liczba rekordów zazwyczaj mieści się w zakresie od -5,26% do +5,25% z 90% pewnością. Na tej podstawie możesz ustalić regułę, która wywoła alert, jeśli liczba rekordów odchyli się poza ten zakres, zapewniając szybką interwencję.   Śledzenie pokrycia atrybutów    odnosi się do stosunku wartości innych niż NULL do całkowitej liczby rekordów dla migawki zestawu danych. Na przykład, jeśli 8 z 100 rekordów ma wartość NULL dla określonego atrybutu, pokrycie dla tego atrybutu wynosi 92%. Pokrycie atrybutu  Przyjrzyjmy się innemu przypadkowi biznesowemu z procesem ETL generującym codziennie migawkę tabeli produktów. Chcemy monitorować zasięg atrybutów opisu produktu. Jeśli zasięg spadnie poniżej określonego progu, należy uruchomić alert dla zespołu wsparcia. Poniżej znajduje się wizualna reprezentacja zasięgu atrybutów opisów produktów w ciągu dwóch miesięcy:   Analizując bezwzględne różnice w zasięgu z dnia na dzień, obserwujemy, że zmiany oscylują wokół zera:   Przedstawienie tych danych jako rozkładu normalnego pokazuje, że jest on rozkładem normalnym ze spodziewaną zmianą na poziomie około 0% i odchyleniem standardowym wynoszącym 2,45%.   Jak widać, dla tego zestawu danych pokrycie atrybutu opisu produktu zwykle mieści się w zakresie od -4,9% do +4,9% z 90% pewnością. Na podstawie tego wskaźnika możemy ustawić regułę, aby wywołać alert, jeśli pokrycie odbiega poza ten zakres.   Kontrole QA z algorytmami szeregów czasowych  Jeśli pracujesz z zestawami danych, które wykazują znaczące wahania z powodu czynników takich jak sezonowość lub trendy, tradycyjne metody statystyczne mogą wyzwalać fałszywe alerty. Algorytmy szeregów czasowych oferują bardziej wyrafinowane podejście, poprawiając dokładność i niezawodność kontroli QA.  Aby generować bardziej sensowne alerty, możesz użyć albo  lub  . Pierwszy jest wystarczająco dobry dla zestawów danych z trendami, ale drugi pozwala nam radzić sobie z zestawami danych z trendem i sezonowością. Ta metoda używa komponentów dla poziomu, trendu i sezonowości, co pozwala jej elastycznie dostosowywać się do zmian w czasie.   Autoregresyjna zintegrowana średnia ruchoma (ARIMA)   Metoda Holta-Wintersa  Załóżmy model sprzedaży dziennej, który odzwierciedla zarówno trendy, jak i wzorce sezonowe, korzystając z modelu Holta-Wintersa:   import pandas as pd from statsmodels.tsa.holtwinters import ExponentialSmoothing # Load and preprocess the dataset data = pd.read_csv('sales_data.csv', index_col='date', parse_dates=True) data = data.asfreq('D').fillna(method='ffill') # Fit the Holt-Winters model model = ExponentialSmoothing(data, trend='add', seasonal='add', seasonal_periods=365) fit = model.fit() # Forecast and detect anomalies forecast = fit.fittedvalues residuals = data - forecast threshold = 3 * residuals.std() anomalies = residuals[abs(residuals) > threshold] print("Anomalies detected:") print(anomalies)  Stosując tę metodę można wykryć znaczące odchylenia, które mogą wskazywać na problemy z jakością danych, co pozwala na bardziej zniuansowane podejście do kontroli jakości.  Mam nadzieję, że ten artykuł pomoże Ci skutecznie wdrożyć kontrole QA dla dużych zestawów danych. Korzystając z biblioteki Deequ i integrując metody statystyczne i algorytmy szeregów czasowych, możesz zapewnić integralność i niezawodność danych, ostatecznie ulepszając swoje praktyki zarządzania danymi.  Wdrożenie opisanych powyżej technik pomoże Ci zapobiec potencjalnym problemom w aplikacjach przetwarzających dane i poprawić ogólną jakość przepływów danych.

Array

scale

Series

Read My Stories

Ten dźwięk jest produkowany w oryginalnym języku historii!

Kontrole QA dla dużych zestawów danych z Deequ i metodami statystycznymi

About Author

UWAGI

ZAWIEŚĆ TAGI

ARTYKUŁ TEN ZOSTAŁ PREZENTOWANY W

Related Stories

The Blockchain Social Experiment: Enforced Logic

HackerNoon - A User Experience Analysis: Part 1

Meet the Writer: Hacker Noon's Contributor Elay Romanov of Daiger

Reach More Readers! BOOST Your Story on HackerNoon

The Blockchain Social Experiment: Enforced Logic

HackerNoon - A User Experience Analysis: Part 1

Meet the Writer: Hacker Noon's Contributor Elay Romanov of Daiger

Reach More Readers! BOOST Your Story on HackerNoon

Light-Mode

Classic

Newspaper

Dark-Mode

Neon Noir

Minty

HN StartUps