No mundo de Data Analytics e Business Intelligence, as equipes de dados, também chamadas de “   ”, que constroem soluções que são necessárias aos usuários de negócios (vermelho) e trabalham com equipes de engenharia (azul), constroem essencialmente a infraestrutura para dados. . equipes roxas  As equipes de BI trabalham predominantemente na construção de fluxos ou pipelines que fornecem relatórios e painéis essenciais para consumo dos usuários empresariais.  Existem muitas ferramentas de nova geração que ajudam as equipes de dados a construir essas soluções para o usuário final, como   ,   e   , ou líderes do setor que já atuam no espaço de “análise de dados” há algum tempo, como Tableau ou PowerBI. Mode Superset Lightdash  Os analistas que constroem essas soluções devem preparar seus dados de diversas fontes, garantindo que os dados sejam higienizados para consulta. Um conjunto de ferramentas ou transformações destinadas a realizar uma etapa de limpeza no fluxo de trabalho chamada “Preparação de Dados”.   Com o advento de grandes modelos de linguagem, discutir IA tem sido uma tendência comum em toda a pilha de engenharia de software. Mas e se eu disser: usando práticas   , poderíamos automatizar a limpeza da etapa de dados? Permitindo que você exporte uma versão mais limpa do conjunto de dados com o mínimo de esforço! de IA centradas em dados  Neste blog, discutiremos como, usando IA centrada em dados, você pode preparar facilmente seus dados para ferramentas de BI para garantir conclusões confiáveis de sua análise de dados subsequente.  Fluxo de trabalho do analista de dados  Há vários anos, os analistas de dados tinham que coletar, limpar e analisar dados manualmente, um processo demorado que limitava sua capacidade de obter insights valiosos.   Hoje, o cenário de análise de dados passou por uma transformação significativa com a introdução de ferramentas de preparação de dados como   ,   , etc. Alteryx Tableau  Essas ferramentas eficientes simplificaram o fluxo de trabalho, permitindo que os analistas integrem perfeitamente dados de diversas fontes, automatizem tarefas de limpeza de dados e gerem representações de dados visualmente atraentes e criteriosas.   Análise de dados após preparação manual de dados  Os dados preparados com as ferramentas são analisados por meio de ferramentas de BI para identificar consultas comerciais específicas.  Por exemplo, considere   de dados de solicitações de clientes em um banco, onde os clientes registram os problemas que encontram em um portal de atendimento ao cliente, que um gerenciador de tarefas humano ou automatizado rotula. este conjunto  Imagine se um analista de negócios determinasse o número de solicitações de clientes que aparecem para uma determinada categoria de problema. Abaixo está o resultado que ele veria - com a categoria   mostrando   problemas de clientes.  beneficiary_not_allowed 111  Da mesma forma, se um analista quiser descobrir quantas ocorrências de problemas estão relacionadas à palavra   , uma análise rápida retornaria abaixo da representação visual. Observe o número de problemas para a categoria   .  ATM change_pin  Parece simples e direto, mas se você se aprofundar   , poderá descobrir que a categorização das solicitações dos clientes está errada em alguns casos. no conjunto de dados  Por exemplo:  Texto  Rótulo (conforme conjunto de dados)  Etiqueta (idealmente)  Meu cartão está quase vencido. Com que rapidez conseguirei um novo e qual é o custo?  apple_pay_or_google_pay  cartão_sobre_para_expirar  Os dados do mundo real, na sua maior parte, são confusos e desestruturados, o que torna difícil deduzir valores através de estatísticas. Como queremos que humanos e máquinas tomem decisões baseadas em dados, seria fundamental que os dados fossem bem rotulados, isentos de quaisquer dados errados e desduplicados.  IA centrada em dados  É crucial garantir que os dados utilizados nas análises sejam precisos, atualizados e livres de duplicatas. Não fazer isso pode resultar em decisões e conclusões incorretas. Por exemplo, um campo de localização vazio nos dados do perfil do usuário ou uma formatação inconsistente do campo de localização pode levar a erros. Portanto, manter a qualidade dos dados é fundamental para uma análise de dados eficaz.  IA centrada em dados é a disciplina de engenharia sistemática dos dados usados para construir um sistema de IA. A maioria dos dados no mundo real não está estruturada ou está rotulada incorretamente. Um conjunto de dados de qualidade com o conjunto certo de dados de treinamento rotulados leva a um modelo eficiente, que pode prever melhores resultados.  Melhores resultados geram uma melhor experiência do cliente. Para saber mais, você pode consultar o curso   do MIT. AI centrada em dados  Apresentando Cleanlab    é um projeto de código aberto que ajuda a limpar dados e rótulos, detectando automaticamente problemas no conjunto de dados. Cleanlab usa   - com base em um artigo que fala sobre estimativa de incerteza em rótulos de conjuntos de dados de Curtis Northcutt (também cofundador da   ) e outros. Cleanlab aprendizagem confiante Cleanlab.ai  Cleanlab basicamente aprimora um fluxo de trabalho de análise de dados induzindo IA.   Limpe automaticamente seus dados usando Cleanlab Studio  Cleanlab Studio é uma ferramenta sem código construída sobre o pacote de código aberto Cleanlab - ajuda a preparar os dados para um fluxo de trabalho de análise. Você também pode importar dados de seus data warehouses, como   ,   ou Cloud Object Stores, como   . Databricks Snowflake AWS S3  Passo 1:  Cadastre-se para ter acesso ao   .  Cleanlab Studio  Você fará logon em um painel com alguns conjuntos de dados e projetos de amostra.   Passo 2:  Clique em “Upload Dataset” para iniciar o assistente de upload. Você pode carregar   do seu computador, URL, API ou um data warehouse como   e Snowflake.  o conjunto de dados Databricks  Cleanlab Studio infere automaticamente seu esquema e modalidade de dados, ou seja, texto, imagem, voz ou tabular.   Depois de confirmar os detalhes, será exibida uma tela com o conjunto de dados carregado e os erros associados (se houver!) encontrados durante o upload dos dados.     Observação: o upload de alguns conjuntos de dados pode levar alguns minutos. Cleanlab irá informá-lo assim que o conjunto de dados for totalmente carregado no Cleanlab Studio por e-mail.  Etapa 3:  Com base no tipo de conjunto de dados, você pode usar uma tarefa específica de aprendizado de máquina para identificar problemas com os dados. Atualmente, Cleanlab Studio oferece suporte a diversas tarefas de classificação de ML relacionadas a dados de texto, tabulares e de imagem.  Específico para classificação, pode ser uma das classes K ou uma das classes N de K. Neste conjunto de dados, cada solicitação do cliente se enquadra em uma categoria específica. Seria uma classificação “Multiclasse”.   O Cleanlab Studio detectará automaticamente a escolha do texto e da coluna do rótulo. Você pode corrigi-lo se necessário.   Usar modelos rápidos pode não produzir os melhores resultados; no interesse do tempo, escolher Rápido é uma opção.  Clique em “   ” Limpar meus dados!  Passo 4:  Cleanlab Studio executa um conjunto de modelos no conjunto de dados e apresenta uma visão geral do problema!  Conforme apontado anteriormente, o conjunto de dados tinha dados mal categorizados e valores discrepantes, o que pode não agregar valor ao processo geral de tomada de decisão quando analisado.   Você também pode dar uma olhada na meta-análise dos problemas identificados pelo Cleanlab Studio no conjunto de dados, alternando para a visualização analítica na parte superior.   Etapa 5:  A parte interessante do Cleanlab Studio não é apenas exportar um conjunto de dados limpo, mas oferecer uma visão de seus dados orientada para o problema. O ambiente de trabalho de preparação de dados ausente que um analista de dados e usuário de business intelligence deseja há anos.  Você pode classificar cada problema por meio de ações assistidas pelo teclado fornecidas no Cleanlab Studio OU exportar um “Export Cleanset” clicando no botão abaixo.   Análise de dados após preparação de dados assistida por IA  Vamos examinar a mesma análise de dados com o conjunto de dados limpo.  Parece que existem discrepâncias nos números entre as categorias   e   . Embora este seja um conjunto de dados menor, é importante observar que essas correções de dados podem levar a estimativas significativamente diferentes e a possíveis decisões de negócios em maior escala.  cancel_transfer visa_or_mastercard  Da mesma forma, você pode descobrir que as solicitações dos clientes para algumas categorias desaparecem à medida que os problemas são marcados de forma adequada.   Se você é analista de dados ou faz parte da comunidade de business intelligence, o Cleanlab Studio pode revolucionar seu fluxo de trabalho de preparação de dados. Experimente   hoje e experimente o poder da limpeza de dados assistida por IA para uma análise de dados mais confiável e precisa. o Cleanlab Studio  Conclusão  Cleanlab Studio é um ambiente de trabalho de preparação de dados sem código usado por milhares de engenheiros, analistas e cientistas de dados em empresas Fortune 500. Esta plataforma inovadora foi pioneira no MIT para treinar modelos de aprendizado de máquina mais confiáveis e precisos usando dados errôneos do mundo real. Você pode ingressar em nossa   para obter mais informações. comunidade Slack

This story contains new, firsthand information uncovered by the writer.

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

This writer has a vested interest be it monetary, business, or otherwise, with 1 or more of the products or companies mentioned within.

Join Cleanlab Community of AI Practitioners

Este áudio é produzido no idioma original da história!

Aprimorando a preparação de dados com IA para Business Intelligence

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

As camadas invisíveis: por que as entrevistas com usuários são um ativo insubstituível

Quer ganhar um concurso de redação do HackerNoon? Aqui está o que os vencedores do concurso #crypto-api recomendam

De fóruns a feeds: como os algoritmos de mídia social moldam a interação digital

Liberando o poder da IA. Uma revisão sistemática de técnicas de ponta: resumo e introdução

As camadas invisíveis: por que as entrevistas com usuários são um ativo insubstituível

Quer ganhar um concurso de redação do HackerNoon? Aqui está o que os vencedores do concurso #crypto-api recomendam

De fóruns a feeds: como os algoritmos de mídia social moldam a interação digital

Liberando o poder da IA. Uma revisão sistemática de técnicas de ponta: resumo e introdução

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps