Dans le monde de l'analyse de données et de la Business Intelligence, les équipes de données, également appelées « équipes violettes », qui construisent les solutions nécessaires aux utilisateurs métier (rouge) et travaillent avec les équipes d'ingénierie (bleu), construisent essentiellement l'infrastructure pour les données. .
Les équipes BI travaillent principalement à la création de flux ou de pipelines qui fournissent des rapports et des tableaux de bord essentiels pour la consommation des utilisateurs professionnels.
Il existe de nombreux outils de nouvelle génération qui aident les équipes de données à créer ces solutions pour les utilisateurs finaux, comme Mode , Superset et Lightdash , ou les leaders du secteur qui étaient dans le domaine de « l'analyse de données » depuis un certain temps, comme Tableau ou PowerBI.
Les analystes qui créent ces solutions doivent préparer leurs données à partir de diverses sources, en s'assurant que les données sont nettoyées pour les interrogations. Un ensemble d'outils ou de transformations visant à effectuer une étape de nettoyage dans le flux de travail appelée « Préparation des données ».
Avec l’avènement des grands modèles de langage, discuter de l’IA est devenu une tendance courante dans l’ensemble de la pile de génie logiciel. Mais que se passe-t-il si je dis : en utilisant des pratiques d’IA centrées sur les données , nous pourrions automatiser l’étape de nettoyage des données ? Vous permettant d'exporter une version plus propre de l'ensemble de données avec un minimum d'effort !
Dans ce blog, nous expliquerons comment, grâce à l'IA centrée sur les données, vous pouvez facilement préparer vos données pour les outils de BI afin de garantir des conclusions fiables de votre analyse de données ultérieure.
Il y a plusieurs années, les analystes de données devaient collecter, nettoyer et analyser manuellement les données, un processus fastidieux qui limitait leur capacité à obtenir des informations précieuses.
Aujourd'hui, le paysage de l'analyse des données a subi une transformation significative avec l'introduction d'outils de préparation de données tels que Alteryx , Tableau , etc.
Ces outils efficaces ont simplifié le flux de travail, permettant aux analystes d'intégrer de manière transparente des données provenant de plusieurs sources, d'automatiser les tâches de nettoyage des données et de générer des représentations de données visuellement attrayantes et perspicaces.
Les données préparées à l'aide des outils sont analysées à l'aide d'outils BI pour identifier des requêtes métier spécifiques.
Par exemple, considérons cet ensemble de données de demandes de clients au sein d'une banque où les clients enregistrent les problèmes qu'ils rencontrent dans un portail de service client, qu'un gestionnaire de tâches humain ou automatisé étiquete ensuite.
Imaginez si un analyste commercial devait déterminer le nombre de demandes de clients apparaissant pour une catégorie de problèmes particulière. Vous trouverez ci-dessous le résultat qu'il verrait - avec la catégorie beneficiary_not_allowed
affichant 111
problèmes clients.
De même, si un analyste souhaite savoir combien de cas de problèmes sont liés au mot ATM
, une analyse rapide reviendra sous la représentation visuelle. Notez le nombre de problèmes pour la catégorie change_pin
.
Cela semble simple et direct, mais si vous approfondissez l'ensemble de données , vous constaterez que la catégorisation des demandes des clients est erronée dans quelques cas.
Par exemple:
Texte | Étiquette (selon l'ensemble de données) | Étiquette (idéalement) |
---|---|---|
Ma carte est presque expirée. Dans combien de temps vais-je en obtenir un nouveau et quel est le coût ? | apple_pay_or_google_pay | card_about_to_expire |
Les données du monde réel, pour la plupart, sont désordonnées et non structurées, ce qui rend difficile la déduction de valeurs à l'aide de statistiques. Comme nous voulons que les humains et les machines prennent des décisions basées sur les données, il serait essentiel que les données soient bien étiquetées, exemptes de toute donnée erronée et dédoublonnées.
Il est essentiel de garantir que les données utilisées dans les analyses sont exactes, à jour et exemptes de doublons. Ne pas le faire peut entraîner des décisions et des conclusions incorrectes. Par exemple, un champ d'emplacement vide dans les données du profil utilisateur ou un formatage incohérent du champ d'emplacement peut entraîner des erreurs. Par conséquent, le maintien de la qualité des données est essentiel pour une analyse de données efficace.
L'IA centrée sur les données est la discipline qui consiste à concevoir systématiquement les données utilisées pour créer un système d'IA. La plupart des données du monde réel ne sont pas structurées ou sont mal étiquetées. Un ensemble de données de qualité avec le bon ensemble de données d'entraînement étiquetées conduit à un modèle efficace, qui pourrait prédire de meilleurs résultats.
De meilleurs résultats génèrent une meilleure expérience client. Pour en savoir plus, vous pouvez vous référer au cours Data-centric AI du MIT.
Cleanlab est un projet open source qui vous aide à nettoyer les données et les étiquettes en détectant automatiquement les problèmes dans l'ensemble de données. Cleanlab utilise un apprentissage confiant - basé sur un article qui parle de l'estimation de l'incertitude dans les étiquettes des ensembles de données par Curtis Northcutt (également co-fondateur de Cleanlab.ai ) et d'autres.
Cleanlab améliore essentiellement un flux de travail d'analyse de données en induisant l'IA.
Cleanlab Studio est un outil sans code construit sur le package open source Cleanlab : il aide à préparer les données pour un flux de travail d'analyse. Vous pouvez également importer des données depuis vos entrepôts de données comme Databricks , Snowflake ou Cloud Object Stores comme AWS S3 .
Inscrivez-vous pour accéder à Cleanlab Studio .
Vous serez connecté à un tableau de bord avec quelques exemples d'ensembles de données et de projets.
Cliquez sur « Télécharger l'ensemble de données » pour lancer l'assistant de téléchargement. Vous pouvez télécharger l'ensemble de données depuis votre ordinateur, une URL, une API ou un entrepôt de données comme Databricks et Snowflake.
Cleanlab Studio déduit automatiquement votre schéma et modalité de données, c'est-à-dire texte, image, voix ou tableau.
Une fois que vous avez confirmé les détails, un écran s'affichera avec l'ensemble de données téléchargé et les erreurs associées (le cas échéant !) rencontrées lors du téléchargement des données.
Remarque : Le téléchargement de certains ensembles de données peut prendre quelques minutes. Cleanlab vous informera une fois l'ensemble de données entièrement téléchargé sur Cleanlab Studio par e-mail.
En fonction du type d'ensemble de données, vous pouvez utiliser une tâche d'apprentissage automatique spécifique pour identifier les problèmes liés aux données. Actuellement, Cleanlab Studio prend en charge plusieurs tâches de classification ML liées aux données textuelles, tabulaires et image.
Spécifique à la classification, il peut s'agir d'une classe parmi K ou d'une à N classes parmi K. Dans cet ensemble de données, chaque demande client relève d'une catégorie spécifique. Il s’agirait d’un classement « Multi-Classe ».
Cleanlab Studio détectera automatiquement le choix de la colonne de texte et d'étiquette. Vous pouvez le corriger si nécessaire.
L’utilisation de modèles rapides peut ne pas produire les meilleurs résultats ; dans l’intérêt du temps, choisir Fast est une option.
Appuyez sur « Nettoyer mes données ! »
Cleanlab Studio exécute un ensemble de modèles sur l'ensemble de données et présente un aperçu des problèmes !
Comme indiqué précédemment, l’ensemble de données comportait des données mal catégorisées et des valeurs aberrantes, ce qui pourrait ne pas ajouter de valeur au processus décisionnel global lors de son analyse.
Vous pouvez également consulter les méta-analyses des problèmes identifiés par Cleanlab Studio sur l'ensemble de données en passant à la vue analytique en haut.
La partie intéressante de Cleanlab Studio n'est pas seulement d'exporter un ensemble de données nettoyé, mais d'offrir une vue orientée problème de vos données. L'atelier de préparation des données manquant qu'un analyste de données et un utilisateur de business intelligence souhaitait depuis des années.
Vous pouvez trier chaque problème par actions assistées par clavier fournies dans Cleanlab Studio OU exporter un « Export Cleanset » en cliquant sur le bouton ci-dessous.
Examinons la même analyse de données avec l'ensemble de données nettoyé.
Il semble qu'il existe des écarts dans les chiffres entre les catégories cancel_transfer
et visa_or_mastercard
. Bien qu'il s'agisse d'un ensemble de données plus petit, il est important de noter que ces corrections de données pourraient conduire à des estimations et à des décisions commerciales potentielles très différentes à plus grande échelle.
De même, vous pouvez constater que les demandes des clients pour certaines catégories disparaissent à mesure que les problèmes sont marqués de manière appropriée.
Si vous êtes un analyste de données ou faites partie de la communauté de business intelligence, Cleanlab Studio peut révolutionner votre flux de préparation de données. Essayez Cleanlab Studio dès aujourd'hui et découvrez la puissance du nettoyage des données assisté par l'IA pour une analyse des données plus fiable et plus précise.
Cleanlab Studio est un atelier de préparation de données sans code utilisé par des milliers d'ingénieurs, d'analystes et de data scientists dans des entreprises Fortune 500. Cette plate-forme innovante a été lancée au MIT pour former des modèles d'apprentissage automatique plus fiables et plus précis à l'aide de données erronées du monde réel. Vous pouvez rejoindre notre communauté Slack pour plus d'informations.