In der Welt der Datenanalyse und Business Intelligence bauen die Datenteams, auch „   “ genannt, die Lösungen entwickeln, die von Geschäftsanwendern benötigt werden (rot) und mit Ingenieurteams zusammenarbeiten (blau), im Wesentlichen die Infrastruktur für Daten auf . Lila Teams  BI-Teams arbeiten hauptsächlich an der Erstellung von Abläufen oder Pipelines, die Berichte und wichtige Dashboards für die Nutzung durch Geschäftsbenutzer bereitstellen.  Es gibt viele Tools der neuen Generation, die den Datenteams beim Aufbau dieser Endbenutzerlösungen helfen, wie   ,   und   , oder Branchenführer, die schon seit einiger Zeit im Bereich „Datenanalyse“ tätig sind, wie Tableau oder PowerBI. Mode Superset Lightdash  Analysten, die diese Lösungen entwickeln, müssen ihre Daten aus verschiedenen Quellen vorbereiten und sicherstellen, dass die Daten für die Abfrage bereinigt sind. Eine Reihe von Tools oder Transformationen, die darauf abzielen, einen Bereinigungsschritt im Workflow namens „Datenvorbereitung“ durchzuführen.   Mit dem Aufkommen großer Sprachmodelle ist die Diskussion über KI ein allgemeiner Trend im gesamten Software-Engineering-Stack geworden. Aber was wäre, wenn ich sage: Mithilfe   Praktiken könnten wir den Schritt der Datenbereinigung automatisieren? So können Sie mit minimalem Aufwand eine sauberere Version des Datensatzes exportieren! datenzentrierter KI-  In diesem Blog besprechen wir, wie Sie mit datenzentrischer KI Ihre Daten einfach für BI-Tools aufbereiten können, um zuverlässige Schlussfolgerungen aus Ihrer anschließenden Datenanalyse zu gewährleisten.  Datenanalysten-Workflow  Vor einigen Jahren mussten Datenanalysten Daten manuell sammeln, bereinigen und analysieren, was ein zeitaufwändiger Prozess war, der ihre Fähigkeit, wertvolle Erkenntnisse zu gewinnen, einschränkte.   Heutzutage hat die Datenanalyselandschaft durch die Einführung von Datenvorbereitungstools wie   ,   usw. einen erheblichen Wandel erfahren. Alteryx Tableau  Diese effizienten Tools haben den Arbeitsablauf vereinfacht und ermöglichen es Analysten, Daten aus mehreren Quellen nahtlos zu integrieren, Datenbereinigungsaufgaben zu automatisieren und optisch ansprechende und aufschlussreiche Darstellungen von Daten zu erstellen.   Datenanalyse nach manueller Datenaufbereitung  Mit den Tools aufbereitete Daten werden mithilfe von BI-Tools analysiert, um spezifische Geschäftsanfragen zu identifizieren.  Betrachten Sie beispielsweise   von Kundenanfragen innerhalb einer Bank, bei der Kunden aufgetretene Probleme in einem Kundendienstportal protokollieren, die dann von einem menschlichen oder automatisierten Task-Manager gekennzeichnet werden. diesen Datensatz  Stellen Sie sich vor, ein Business-Analyst soll die Anzahl der Kundenanfragen ermitteln, die für eine bestimmte Problemkategorie erscheinen. Unten ist das Ergebnis, das er/sie sehen würde – in der Kategorie   werden   Kundenprobleme angezeigt.  beneficiary_not_allowed 111  Wenn ein Analyst außerdem herausfinden möchte, wie viele Vorfälle mit dem Wort   in Zusammenhang stehen, würde eine schnelle Analyse unterhalb der visuellen Darstellung angezeigt. Beachten Sie die Anzahl der Probleme für die Kategorie   .  ATM change_pin  Es sieht einfach und unkompliziert aus, aber wenn man tiefer in   eintaucht, kann man feststellen, dass die Kategorisierung von Kundenanfragen in einigen Fällen falsch ist. den Datensatz  Zum Beispiel:  Text  Label (gemäß Datensatz)  Etikett (idealerweise)  Meine Karte ist fast abgelaufen. Wie schnell bekomme ich ein neues und wie hoch sind die Kosten?  apple_pay_or_google_pay  card_about_to_expire  Daten aus der realen Welt sind größtenteils chaotisch und unstrukturiert, was es schwierig macht, aus Statistiken Werte abzuleiten. Da wir möchten, dass Menschen und Maschinen datengesteuerte Entscheidungen treffen, wäre es von entscheidender Bedeutung, dass die Daten gut gekennzeichnet, frei von fehlerhaften Daten und dedupliziert sind.  Datenzentrierte KI  Es ist von entscheidender Bedeutung, sicherzustellen, dass die in den Analysen verwendeten Daten korrekt, aktuell und frei von Duplikaten sind. Andernfalls kann es zu falschen Entscheidungen und Schlussfolgerungen kommen. Beispielsweise kann ein leeres Standortfeld in Benutzerprofildaten oder eine inkonsistente Formatierung des Standortfelds zu Fehlern führen. Daher ist die Aufrechterhaltung der Datenqualität für eine effektive Datenanalyse von entscheidender Bedeutung.  Datenzentrierte KI ist die Disziplin der systematischen Entwicklung der Daten, die zum Aufbau eines KI-Systems verwendet werden. Die meisten Daten in der realen Welt sind unstrukturiert oder falsch gekennzeichnet. Ein hochwertiger Datensatz mit dem richtigen Satz gekennzeichneter Trainingsdaten führt zu einem effizienten Modell, das bessere Ergebnisse vorhersagen könnte.  Bessere Ergebnisse führen zu einem besseren Kundenerlebnis. Weitere Informationen finden Sie im Kurs   des MIT. „Data-centric AI“  Wir stellen vor: Cleanlab    ist ein Open-Source-Projekt, das Ihnen hilft, Daten und Etiketten zu bereinigen, indem es automatisch Probleme im Datensatz erkennt. Cleanlab nutzt   – basierend auf einem Artikel von Curtis Northcutt (ebenfalls Mitbegründer von   ) und anderen, in dem es um die Schätzung der Unsicherheit in Datensatzbezeichnungen geht. Cleanlab sicheres Lernen Cleanlab.ai  Cleanlab verbessert grundsätzlich einen Datenanalyse-Workflow durch die Einbindung von KI.   Bereinigen Sie Ihre Daten automatisch mit Cleanlab Studio  Cleanlab Studio ist ein No-Code-Tool, das auf dem Open-Source-Paket Cleanlab aufbaut – es hilft bei der Vorbereitung der Daten für einen Analyse-Workflow. Sie können auch Daten aus Ihren Data Warehouses wie   ,   oder Cloud Object Stores wie   importieren. Databricks Snowflake AWS S3  Schritt 1:  Registrieren Sie sich für den Zugang zu   .  Cleanlab Studio  Sie werden bei einem Dashboard mit einigen Beispieldatensätzen und -projekten angemeldet.   Schritt 2:  Klicken Sie auf „Datensatz hochladen“, um den Upload-Assistenten zu starten. Sie können   von Ihrem Computer, einer URL, einer API oder einem Data Warehouse wie   und Snowflake hochladen.  den Datensatz Databricks  Cleanlab Studio leitet automatisch Ihr Datenschema und Ihre Datenmodalität ab, z. B. Text, Bild, Sprache oder Tabelle.   Sobald Sie die Details bestätigt haben, wird Ihnen ein Bildschirm mit dem hochgeladenen Datensatz und den damit verbundenen Fehlern (falls vorhanden!) angezeigt, die beim Hochladen der Daten aufgetreten sind.     Hinweis: Das Hochladen einiger Datensätze kann einige Minuten dauern. Cleanlab wird Sie per E-Mail informieren, sobald der Datensatz vollständig in Cleanlab Studio hochgeladen wurde.  Schritt 3:  Basierend auf der Art des Datensatzes können Sie eine bestimmte maschinelle Lernaufgabe verwenden, um Probleme mit den Daten zu identifizieren. Derzeit unterstützt Cleanlab Studio mehrere ML-Klassifizierungsaufgaben im Zusammenhang mit Text-, Tabellen- und Bilddaten.  Spezifisch für die Klassifizierung kann es sich um eine von K Klassen oder um eine bis N von K Klassen handeln. In diesem Datensatz fällt jede Kundenanfrage in eine bestimmte Kategorie. Es wäre eine „Multi-Class“-Klassifizierung.   Cleanlab Studio erkennt die Auswahl der Text- und Beschriftungsspalte automatisch. Sie können es bei Bedarf korrigieren.   Die Verwendung schneller Modelle führt möglicherweise nicht zu den besten Ergebnissen. Im Interesse der Zeit ist die Wahl von Fast eine Option.  Klicken Sie auf „   ” Meine Daten bereinigen!“  Schritt 4:  Cleanlab Studio führt ein Ensemble von Modellen auf dem Datensatz aus und präsentiert eine Problemübersicht!  Wie bereits erwähnt, enthielt der Datensatz falsch kategorisierte Daten und Ausreißer, die bei der Analyse möglicherweise keinen Mehrwert für den gesamten Entscheidungsprozess darstellten.   Sie können sich auch die Metaanalysen der von Cleanlab Studio im Datensatz identifizierten Probleme ansehen, indem Sie zur Analyseansicht oben wechseln.   Schritt 5:  Der interessante Teil von Cleanlab Studio besteht nicht nur darin, einen bereinigten Datensatz zu exportieren, sondern eine problemorientierte Ansicht Ihrer Daten anzubieten. Die fehlende Datenvorbereitungs-Workbench, die sich ein Datenanalyst und Business-Intelligence-Benutzer seit Jahren gewünscht hat.  Sie können jedes Problem nach den in Cleanlab Studio bereitgestellten tastaturunterstützten Aktionen sortieren ODER ein „Export Cleanset“ exportieren, indem Sie auf die Schaltfläche unten klicken.   Datenanalyse nach KI-gestützter Datenaufbereitung  Lassen Sie uns dieselbe Datenanalyse mit dem bereinigten Datensatz untersuchen.  Es scheint, dass es Unterschiede in den Zahlen zwischen den Kategorien   “ und   gibt. Obwohl es sich hierbei um einen kleineren Datensatz handelt, ist es wichtig zu beachten, dass diese Datenkorrekturen zu deutlich anderen Schätzungen und potenziellen Geschäftsentscheidungen in größerem Maßstab führen können.  cancel_transfer visa_or_mastercard  Ebenso können Sie feststellen, dass Kundenanfragen für einige Kategorien verschwinden, wenn Probleme entsprechend gekennzeichnet werden.   Wenn Sie Datenanalyst oder Teil der Business-Intelligence-Community sind, kann Cleanlab Studio Ihren Datenvorbereitungs-Workflow revolutionieren. Probieren Sie   noch heute aus und erleben Sie die Leistungsfähigkeit der KI-gestützten Datenbereinigung für eine zuverlässigere und genauere Datenanalyse. Cleanlab Studio  Abschluss  Cleanlab Studio ist eine Workbench zur Datenvorbereitung ohne Code, die von Tausenden von Ingenieuren, Analysten und Datenwissenschaftlern in Fortune-500-Unternehmen verwendet wird. Diese innovative Plattform wurde am MIT entwickelt, um zuverlässigere und genauere Modelle für maschinelles Lernen anhand realer, fehlerhafter Daten zu trainieren. Für weitere Informationen können Sie unserer   beitreten. Slack-Community

This story contains new, firsthand information uncovered by the writer.

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

This writer has a vested interest be it monetary, business, or otherwise, with 1 or more of the products or companies mentioned within.

Join Cleanlab Community of AI Practitioners

Dieses Audio ist in der Originalsprache der Geschichte produziert!

Verbesserung der Datenvorbereitung mit KI für Business Intelligence

About Author

KOMMENTARE

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN

Related Stories

HackerNoon Decoded 2024: Celebrating Our Data Science Community!

HackerNoon Decoded 2024: Celebrating Our Startups Community!

HackerNoon Decoded 2024: Celebrating Our Management Community!

HackerNoon Decoded 2024: Celebrating Our Life Hacking Community!

HackerNoon Decoded 2024: Celebrating Our Data Science Community!

HackerNoon Decoded 2024: Celebrating Our Startups Community!

HackerNoon Decoded 2024: Celebrating Our Management Community!

HackerNoon Decoded 2024: Celebrating Our Life Hacking Community!

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps