In der Welt der Datenanalyse und Business Intelligence bauen die Datenteams, auch „ Lila Teams “ genannt, die Lösungen entwickeln, die von Geschäftsanwendern benötigt werden (rot) und mit Ingenieurteams zusammenarbeiten (blau), im Wesentlichen die Infrastruktur für Daten auf .
BI-Teams arbeiten hauptsächlich an der Erstellung von Abläufen oder Pipelines, die Berichte und wichtige Dashboards für die Nutzung durch Geschäftsbenutzer bereitstellen.
Es gibt viele Tools der neuen Generation, die den Datenteams beim Aufbau dieser Endbenutzerlösungen helfen, wie Mode , Superset und Lightdash , oder Branchenführer, die schon seit einiger Zeit im Bereich „Datenanalyse“ tätig sind, wie Tableau oder PowerBI.
Analysten, die diese Lösungen entwickeln, müssen ihre Daten aus verschiedenen Quellen vorbereiten und sicherstellen, dass die Daten für die Abfrage bereinigt sind. Eine Reihe von Tools oder Transformationen, die darauf abzielen, einen Bereinigungsschritt im Workflow namens „Datenvorbereitung“ durchzuführen.
Mit dem Aufkommen großer Sprachmodelle ist die Diskussion über KI ein allgemeiner Trend im gesamten Software-Engineering-Stack geworden. Aber was wäre, wenn ich sage: Mithilfe datenzentrierter KI- Praktiken könnten wir den Schritt der Datenbereinigung automatisieren? So können Sie mit minimalem Aufwand eine sauberere Version des Datensatzes exportieren!
In diesem Blog besprechen wir, wie Sie mit datenzentrischer KI Ihre Daten einfach für BI-Tools aufbereiten können, um zuverlässige Schlussfolgerungen aus Ihrer anschließenden Datenanalyse zu gewährleisten.
Vor einigen Jahren mussten Datenanalysten Daten manuell sammeln, bereinigen und analysieren, was ein zeitaufwändiger Prozess war, der ihre Fähigkeit, wertvolle Erkenntnisse zu gewinnen, einschränkte.
Heutzutage hat die Datenanalyselandschaft durch die Einführung von Datenvorbereitungstools wie Alteryx , Tableau usw. einen erheblichen Wandel erfahren.
Diese effizienten Tools haben den Arbeitsablauf vereinfacht und ermöglichen es Analysten, Daten aus mehreren Quellen nahtlos zu integrieren, Datenbereinigungsaufgaben zu automatisieren und optisch ansprechende und aufschlussreiche Darstellungen von Daten zu erstellen.
Mit den Tools aufbereitete Daten werden mithilfe von BI-Tools analysiert, um spezifische Geschäftsanfragen zu identifizieren.
Betrachten Sie beispielsweise diesen Datensatz von Kundenanfragen innerhalb einer Bank, bei der Kunden aufgetretene Probleme in einem Kundendienstportal protokollieren, die dann von einem menschlichen oder automatisierten Task-Manager gekennzeichnet werden.
Stellen Sie sich vor, ein Business-Analyst soll die Anzahl der Kundenanfragen ermitteln, die für eine bestimmte Problemkategorie erscheinen. Unten ist das Ergebnis, das er/sie sehen würde – in der Kategorie beneficiary_not_allowed
werden 111
Kundenprobleme angezeigt.
Wenn ein Analyst außerdem herausfinden möchte, wie viele Vorfälle mit dem Wort ATM
in Zusammenhang stehen, würde eine schnelle Analyse unterhalb der visuellen Darstellung angezeigt. Beachten Sie die Anzahl der Probleme für die Kategorie change_pin
.
Es sieht einfach und unkompliziert aus, aber wenn man tiefer in den Datensatz eintaucht, kann man feststellen, dass die Kategorisierung von Kundenanfragen in einigen Fällen falsch ist.
Zum Beispiel:
Text | Label (gemäß Datensatz) | Etikett (idealerweise) |
---|---|---|
Meine Karte ist fast abgelaufen. Wie schnell bekomme ich ein neues und wie hoch sind die Kosten? | apple_pay_or_google_pay | card_about_to_expire |
Daten aus der realen Welt sind größtenteils chaotisch und unstrukturiert, was es schwierig macht, aus Statistiken Werte abzuleiten. Da wir möchten, dass Menschen und Maschinen datengesteuerte Entscheidungen treffen, wäre es von entscheidender Bedeutung, dass die Daten gut gekennzeichnet, frei von fehlerhaften Daten und dedupliziert sind.
Es ist von entscheidender Bedeutung, sicherzustellen, dass die in den Analysen verwendeten Daten korrekt, aktuell und frei von Duplikaten sind. Andernfalls kann es zu falschen Entscheidungen und Schlussfolgerungen kommen. Beispielsweise kann ein leeres Standortfeld in Benutzerprofildaten oder eine inkonsistente Formatierung des Standortfelds zu Fehlern führen. Daher ist die Aufrechterhaltung der Datenqualität für eine effektive Datenanalyse von entscheidender Bedeutung.
Datenzentrierte KI ist die Disziplin der systematischen Entwicklung der Daten, die zum Aufbau eines KI-Systems verwendet werden. Die meisten Daten in der realen Welt sind unstrukturiert oder falsch gekennzeichnet. Ein hochwertiger Datensatz mit dem richtigen Satz gekennzeichneter Trainingsdaten führt zu einem effizienten Modell, das bessere Ergebnisse vorhersagen könnte.
Bessere Ergebnisse führen zu einem besseren Kundenerlebnis. Weitere Informationen finden Sie im Kurs „Data-centric AI“ des MIT.
Cleanlab ist ein Open-Source-Projekt, das Ihnen hilft, Daten und Etiketten zu bereinigen, indem es automatisch Probleme im Datensatz erkennt. Cleanlab nutzt sicheres Lernen – basierend auf einem Artikel von Curtis Northcutt (ebenfalls Mitbegründer von Cleanlab.ai ) und anderen, in dem es um die Schätzung der Unsicherheit in Datensatzbezeichnungen geht.
Cleanlab verbessert grundsätzlich einen Datenanalyse-Workflow durch die Einbindung von KI.
Cleanlab Studio ist ein No-Code-Tool, das auf dem Open-Source-Paket Cleanlab aufbaut – es hilft bei der Vorbereitung der Daten für einen Analyse-Workflow. Sie können auch Daten aus Ihren Data Warehouses wie Databricks , Snowflake oder Cloud Object Stores wie AWS S3 importieren.
Registrieren Sie sich für den Zugang zu Cleanlab Studio .
Sie werden bei einem Dashboard mit einigen Beispieldatensätzen und -projekten angemeldet.
Klicken Sie auf „Datensatz hochladen“, um den Upload-Assistenten zu starten. Sie können den Datensatz von Ihrem Computer, einer URL, einer API oder einem Data Warehouse wie Databricks und Snowflake hochladen.
Cleanlab Studio leitet automatisch Ihr Datenschema und Ihre Datenmodalität ab, z. B. Text, Bild, Sprache oder Tabelle.
Sobald Sie die Details bestätigt haben, wird Ihnen ein Bildschirm mit dem hochgeladenen Datensatz und den damit verbundenen Fehlern (falls vorhanden!) angezeigt, die beim Hochladen der Daten aufgetreten sind.
Hinweis: Das Hochladen einiger Datensätze kann einige Minuten dauern. Cleanlab wird Sie per E-Mail informieren, sobald der Datensatz vollständig in Cleanlab Studio hochgeladen wurde.
Basierend auf der Art des Datensatzes können Sie eine bestimmte maschinelle Lernaufgabe verwenden, um Probleme mit den Daten zu identifizieren. Derzeit unterstützt Cleanlab Studio mehrere ML-Klassifizierungsaufgaben im Zusammenhang mit Text-, Tabellen- und Bilddaten.
Spezifisch für die Klassifizierung kann es sich um eine von K Klassen oder um eine bis N von K Klassen handeln. In diesem Datensatz fällt jede Kundenanfrage in eine bestimmte Kategorie. Es wäre eine „Multi-Class“-Klassifizierung.
Cleanlab Studio erkennt die Auswahl der Text- und Beschriftungsspalte automatisch. Sie können es bei Bedarf korrigieren.
Die Verwendung schneller Modelle führt möglicherweise nicht zu den besten Ergebnissen. Im Interesse der Zeit ist die Wahl von Fast eine Option.
Klicken Sie auf „ Meine Daten bereinigen!“ ”
Cleanlab Studio führt ein Ensemble von Modellen auf dem Datensatz aus und präsentiert eine Problemübersicht!
Wie bereits erwähnt, enthielt der Datensatz falsch kategorisierte Daten und Ausreißer, die bei der Analyse möglicherweise keinen Mehrwert für den gesamten Entscheidungsprozess darstellten.
Sie können sich auch die Metaanalysen der von Cleanlab Studio im Datensatz identifizierten Probleme ansehen, indem Sie zur Analyseansicht oben wechseln.
Der interessante Teil von Cleanlab Studio besteht nicht nur darin, einen bereinigten Datensatz zu exportieren, sondern eine problemorientierte Ansicht Ihrer Daten anzubieten. Die fehlende Datenvorbereitungs-Workbench, die sich ein Datenanalyst und Business-Intelligence-Benutzer seit Jahren gewünscht hat.
Sie können jedes Problem nach den in Cleanlab Studio bereitgestellten tastaturunterstützten Aktionen sortieren ODER ein „Export Cleanset“ exportieren, indem Sie auf die Schaltfläche unten klicken.
Lassen Sie uns dieselbe Datenanalyse mit dem bereinigten Datensatz untersuchen.
Es scheint, dass es Unterschiede in den Zahlen zwischen den Kategorien cancel_transfer
“ und visa_or_mastercard
gibt. Obwohl es sich hierbei um einen kleineren Datensatz handelt, ist es wichtig zu beachten, dass diese Datenkorrekturen zu deutlich anderen Schätzungen und potenziellen Geschäftsentscheidungen in größerem Maßstab führen können.
Ebenso können Sie feststellen, dass Kundenanfragen für einige Kategorien verschwinden, wenn Probleme entsprechend gekennzeichnet werden.
Wenn Sie Datenanalyst oder Teil der Business-Intelligence-Community sind, kann Cleanlab Studio Ihren Datenvorbereitungs-Workflow revolutionieren. Probieren Sie Cleanlab Studio noch heute aus und erleben Sie die Leistungsfähigkeit der KI-gestützten Datenbereinigung für eine zuverlässigere und genauere Datenanalyse.
Cleanlab Studio ist eine Workbench zur Datenvorbereitung ohne Code, die von Tausenden von Ingenieuren, Analysten und Datenwissenschaftlern in Fortune-500-Unternehmen verwendet wird. Diese innovative Plattform wurde am MIT entwickelt, um zuverlässigere und genauere Modelle für maschinelles Lernen anhand realer, fehlerhafter Daten zu trainieren. Für weitere Informationen können Sie unserer Slack-Community beitreten.