Dans le monde de l'analyse de données et de la Business Intelligence, les équipes de données, également appelées «  », qui construisent les solutions nécessaires aux utilisateurs métier (rouge) et travaillent avec les équipes d'ingénierie (bleu), construisent essentiellement l'infrastructure pour les données. .  équipes violettes  Les équipes BI travaillent principalement à la création de flux ou de pipelines qui fournissent des rapports et des tableaux de bord essentiels pour la consommation des utilisateurs professionnels.  Il existe de nombreux outils de nouvelle génération qui aident les équipes de données à créer ces solutions pour les utilisateurs finaux, comme   ,   et   , ou les leaders du secteur qui étaient dans le domaine de « l'analyse de données » depuis un certain temps, comme Tableau ou PowerBI. Mode Superset Lightdash  Les analystes qui créent ces solutions doivent préparer leurs données à partir de diverses sources, en s'assurant que les données sont nettoyées pour les interrogations. Un ensemble d'outils ou de transformations visant à effectuer une étape de nettoyage dans le flux de travail appelée « Préparation des données ».   Avec l’avènement des grands modèles de langage, discuter de l’IA est devenu une tendance courante dans l’ensemble de la pile de génie logiciel. Mais que se passe-t-il si je dis : en utilisant des pratiques   , nous pourrions automatiser l’étape de nettoyage des données ? Vous permettant d'exporter une version plus propre de l'ensemble de données avec un minimum d'effort ! d’IA centrées sur les données  Dans ce blog, nous expliquerons comment, grâce à l'IA centrée sur les données, vous pouvez facilement préparer vos données pour les outils de BI afin de garantir des conclusions fiables de votre analyse de données ultérieure.  Flux de travail de l'analyste de données  Il y a plusieurs années, les analystes de données devaient collecter, nettoyer et analyser manuellement les données, un processus fastidieux qui limitait leur capacité à obtenir des informations précieuses.   Aujourd'hui, le paysage de l'analyse des données a subi une transformation significative avec l'introduction d'outils de préparation de données tels que   ,   , etc. Alteryx Tableau  Ces outils efficaces ont simplifié le flux de travail, permettant aux analystes d'intégrer de manière transparente des données provenant de plusieurs sources, d'automatiser les tâches de nettoyage des données et de générer des représentations de données visuellement attrayantes et perspicaces.   Analyse des données après la préparation manuelle des données  Les données préparées à l'aide des outils sont analysées à l'aide d'outils BI pour identifier des requêtes métier spécifiques.  Par exemple, considérons   de demandes de clients au sein d'une banque où les clients enregistrent les problèmes qu'ils rencontrent dans un portail de service client, qu'un gestionnaire de tâches humain ou automatisé étiquete ensuite. cet ensemble de données  Imaginez si un analyste commercial devait déterminer le nombre de demandes de clients apparaissant pour une catégorie de problèmes particulière. Vous trouverez ci-dessous le résultat qu'il verrait - avec la catégorie   affichant   problèmes clients.  beneficiary_not_allowed 111  De même, si un analyste souhaite savoir combien de cas de problèmes sont liés au mot   , une analyse rapide reviendra sous la représentation visuelle. Notez le nombre de problèmes pour la catégorie   .  ATM change_pin  Cela semble simple et direct, mais si vous approfondissez   , vous constaterez que la catégorisation des demandes des clients est erronée dans quelques cas. l'ensemble de données  Par exemple:  Texte  Étiquette (selon l'ensemble de données)  Étiquette (idéalement)  Ma carte est presque expirée. Dans combien de temps vais-je en obtenir un nouveau et quel est le coût ?  apple_pay_or_google_pay  card_about_to_expire  Les données du monde réel, pour la plupart, sont désordonnées et non structurées, ce qui rend difficile la déduction de valeurs à l'aide de statistiques. Comme nous voulons que les humains et les machines prennent des décisions basées sur les données, il serait essentiel que les données soient bien étiquetées, exemptes de toute donnée erronée et dédoublonnées.  IA centrée sur les données  Il est essentiel de garantir que les données utilisées dans les analyses sont exactes, à jour et exemptes de doublons. Ne pas le faire peut entraîner des décisions et des conclusions incorrectes. Par exemple, un champ d'emplacement vide dans les données du profil utilisateur ou un formatage incohérent du champ d'emplacement peut entraîner des erreurs. Par conséquent, le maintien de la qualité des données est essentiel pour une analyse de données efficace.  L'IA centrée sur les données est la discipline qui consiste à concevoir systématiquement les données utilisées pour créer un système d'IA. La plupart des données du monde réel ne sont pas structurées ou sont mal étiquetées. Un ensemble de données de qualité avec le bon ensemble de données d'entraînement étiquetées conduit à un modèle efficace, qui pourrait prédire de meilleurs résultats.  De meilleurs résultats génèrent une meilleure expérience client. Pour en savoir plus, vous pouvez vous référer au cours   du MIT. Data-centric AI  Présentation de Cleanlab    est un projet open source qui vous aide à nettoyer les données et les étiquettes en détectant automatiquement les problèmes dans l'ensemble de données. Cleanlab utilise   - basé sur un article qui parle de l'estimation de l'incertitude dans les étiquettes des ensembles de données par Curtis Northcutt (également co-fondateur de   ) et d'autres. Cleanlab un apprentissage confiant Cleanlab.ai  Cleanlab améliore essentiellement un flux de travail d'analyse de données en induisant l'IA.   Nettoyez automatiquement vos données à l'aide de Cleanlab Studio  Cleanlab Studio est un outil sans code construit sur le package open source Cleanlab : il aide à préparer les données pour un flux de travail d'analyse. Vous pouvez également importer des données depuis vos entrepôts de données comme   ,   ou Cloud Object Stores comme   . Databricks Snowflake AWS S3  Étape 1:  Inscrivez-vous pour accéder à   .  Cleanlab Studio  Vous serez connecté à un tableau de bord avec quelques exemples d'ensembles de données et de projets.   Étape 2:  Cliquez sur « Télécharger l'ensemble de données » pour lancer l'assistant de téléchargement. Vous pouvez télécharger   depuis votre ordinateur, une URL, une API ou un entrepôt de données comme   et Snowflake.  l'ensemble de données Databricks  Cleanlab Studio déduit automatiquement votre schéma et modalité de données, c'est-à-dire texte, image, voix ou tableau.   Une fois que vous avez confirmé les détails, un écran s'affichera avec l'ensemble de données téléchargé et les erreurs associées (le cas échéant !) rencontrées lors du téléchargement des données.     Remarque : Le téléchargement de certains ensembles de données peut prendre quelques minutes. Cleanlab vous informera une fois l'ensemble de données entièrement téléchargé sur Cleanlab Studio par e-mail.  Étape 3:  En fonction du type d'ensemble de données, vous pouvez utiliser une tâche d'apprentissage automatique spécifique pour identifier les problèmes liés aux données. Actuellement, Cleanlab Studio prend en charge plusieurs tâches de classification ML liées aux données textuelles, tabulaires et image.  Spécifique à la classification, il peut s'agir d'une classe parmi K ou d'une à N classes parmi K. Dans cet ensemble de données, chaque demande client relève d'une catégorie spécifique. Il s’agirait d’un classement « Multi-Classe ».   Cleanlab Studio détectera automatiquement le choix de la colonne de texte et d'étiquette. Vous pouvez le corriger si nécessaire.   L’utilisation de modèles rapides peut ne pas produire les meilleurs résultats ; dans l’intérêt du temps, choisir Fast est une option.  Appuyez sur «  »  Nettoyer mes données !  Étape 4:  Cleanlab Studio exécute un ensemble de modèles sur l'ensemble de données et présente un aperçu des problèmes !  Comme indiqué précédemment, l’ensemble de données comportait des données mal catégorisées et des valeurs aberrantes, ce qui pourrait ne pas ajouter de valeur au processus décisionnel global lors de son analyse.   Vous pouvez également consulter les méta-analyses des problèmes identifiés par Cleanlab Studio sur l'ensemble de données en passant à la vue analytique en haut.   Étape 5 :  La partie intéressante de Cleanlab Studio n'est pas seulement d'exporter un ensemble de données nettoyé, mais d'offrir une vue orientée problème de vos données. L'atelier de préparation des données manquant qu'un analyste de données et un utilisateur de business intelligence souhaitait depuis des années.  Vous pouvez trier chaque problème par actions assistées par clavier fournies dans Cleanlab Studio OU exporter un « Export Cleanset » en cliquant sur le bouton ci-dessous.   Analyse des données après la préparation des données assistée par l'IA  Examinons la même analyse de données avec l'ensemble de données nettoyé.  Il semble qu'il existe des écarts dans les chiffres entre les catégories   et   . Bien qu'il s'agisse d'un ensemble de données plus petit, il est important de noter que ces corrections de données pourraient conduire à des estimations et à des décisions commerciales potentielles très différentes à plus grande échelle.  cancel_transfer visa_or_mastercard  De même, vous pouvez constater que les demandes des clients pour certaines catégories disparaissent à mesure que les problèmes sont marqués de manière appropriée.   Si vous êtes un analyste de données ou faites partie de la communauté de business intelligence, Cleanlab Studio peut révolutionner votre flux de préparation de données. Essayez   dès aujourd'hui et découvrez la puissance du nettoyage des données assisté par l'IA pour une analyse des données plus fiable et plus précise. Cleanlab Studio  Conclusion  Cleanlab Studio est un atelier de préparation de données sans code utilisé par des milliers d'ingénieurs, d'analystes et de data scientists dans des entreprises Fortune 500. Cette plate-forme innovante a été lancée au MIT pour former des modèles d'apprentissage automatique plus fiables et plus précis à l'aide de données erronées du monde réel. Vous pouvez rejoindre notre   pour plus d'informations. communauté Slack

This story contains new, firsthand information uncovered by the writer.

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

This writer has a vested interest be it monetary, business, or otherwise, with 1 or more of the products or companies mentioned within.

Join Cleanlab Community of AI Practitioners

Cet audio est produit dans la langue originale de l'histoire !

Améliorer la préparation des données grâce à l'IA pour la Business Intelligence

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

Appuyez pour gagner : Telegram pourrait intégrer les 10 prochains milliards d'utilisateurs de crypto avant Solana

Vous voulez gagner un concours d’écriture HackerNoon ? Voici ce que recommandent les gagnants du concours #crypto-api

Créer des produits cryptographiques centrés sur l'utilisateur : l'importance des retours clients

Des forums aux flux : comment les algorithmes des réseaux sociaux façonnent l'interaction numérique

Appuyez pour gagner : Telegram pourrait intégrer les 10 prochains milliards d'utilisateurs de crypto avant Solana

Vous voulez gagner un concours d’écriture HackerNoon ? Voici ce que recommandent les gagnants du concours #crypto-api

Créer des produits cryptographiques centrés sur l'utilisateur : l'importance des retours clients

Des forums aux flux : comment les algorithmes des réseaux sociaux façonnent l'interaction numérique

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps